Q. 정규화를 왜 해야할까요? 정규화의 방법은 무엇이 있나요? 1. 정규화(Regularization)란?- 모델의 과적합을 방지하기 위해 추가적인 제약(규제)를 부여하는 기법- 과적합(Overfitting)이란? 모델이 훈련 데이터를 지나치게 학습해, 데이터의 일반적인 패턴을 학습하기 보다는, 그 안에 존재하는 우연한 잡음(noise)나 특이한 패턴까지 암기해버리는 상태=> 실제 새로운 데이터에 대한 예측 성능이 떨어지기 때문에 이를 방지하기 위해 모델의 복잡도를 제어하거나 가중치를 제한함으로써 일반화 성능을 개선하는 것 2. 정규화의 방법1) L1 정규화 (Lasso 정규화) : 가중치의 절댓값 합(L1 norm)을 비용 함수에 추가- 가중치 벡터의 일부 요소를 완전히 0으로 만드는 특성 선택(Fea..
1. 오차와 편향오차(Error)편향(Bias)관측값(실제값)과 모델 예측값의 차이모델 예측값이 체계적으로 실제값보다 특정 방향으로 치우쳐 있는 정도 개별 예측 결과에서 발생하는 불규칙한 차이 노이즈에 의해 발생하는 경우가 많다샘플을 많이 늘려도 사라지지 않는 체계적인 오차 경향모델이 일관되게 결과를 높게/낮게 추정하는 경향모델의 가정이나 구조, 알고리즘 특성, 학습 과정 등으로 인해 생기는 시스템적인 오차모델 성능을 정량적으로 평가(MSE, MAE 등)할 때 사용모델 튜닝 과정에서 특정 하이퍼파라미터 설정 시 모델이 얼마나 정확한 결과를 내는지 비교할 때 활용모델이 전반적으로 한쪽 방향으로 치우쳐예측하는 경향이 있는지 살펴볼 때 사용 2. 편향과 분산 : 트레이드오프 관계(최적의 복잡도를 갖는 모델을 ..
Q. 엔트로피(Entropy)와 Information Gain에 대해 설명해주세요. 1. 엔트로피란?- 주로 의사결정 트리나, 데이터 분석 시 데이터셋이 얼마나 정돈되어있는지, 혼란스러운지 데이터의 불확실성을 측정할 때 사용- 데이터의 불확실성을 측정하는 척도- 엔트로피가 0 : 완전 확실 → 완벽하게 분류된 상태 (모델의 분류가 명확)- 엔트로피가 항상 낮은 상태를 목표로 하면 과적합의 문제가 발생할 수 있다.- 확률이 균등하게 분포된다 → 엔트로피가 높다 2. 정보이득이란?- 주로 의사결정 트리, 랜덤 포레스트에서 사용됨- 특정 속성을 기준으로 데이터를 분할 했을 때 엔트로피가 얼마나 감소했는지를 측정- 분할 후 분류가 명확할수록(엔트로피가 감소할 수록) 정보 이득이 크다- 의사결정 트리에서 분할 기..
Q. 중심극한정리는 왜 유용한걸까요? 1. 중심극한정리(Central Litmit Theorem, CLT) 란?- 모집단이 어떤 분포를 따르든 충분히 큰 크기의 표본을 여러번 추출하여 그 표본 평균을 구하면, 그 표본 평균의 분포는 정규분포에 가까워진다. 2. 중심극한정리의 활용성- 많은 통계 기법이 정규분포를 가정하고 설계되어 있다. (t-검정, 회귀분석, 신뢰구간 계산 등)- 정규분포를 근사적으로 사용할 수 있는 근거를 제공해 통계적 추론을 수행할 수 있다.(분석의 정당성 확보)- 데이터를 정규분포로 근사함으로써 실직적인 문제 해결에 도움을 준다.- 예시: 공장에서 생산된 제품의 품질 데이터를 정규분포로 근사하여, 평균 품질을 분석하거나 결함률을 추정할 수 있다. 3. 중심극한정리의 가정- 표본의 크..
Q. 요즘같은 빅데이터(?)시대에는 정규성 테스트가 의미 없다는 주장이 있습니다. 맞을까요? 1. 정규성 테스트란? - 데이터가 정규 분포를 따르는지 여부를 확인하는 것입니다. 2. 왜 하나요?- 정규성 가정을 필요로 하는 특정 통계 분석이나 모델을 사용하는 경우- 표본이 작거나 특정 표본의 특성을 분석해야 하는 경우- 표본이 작고 정규성을 띠지 않으면, 데이터의 중심 경향이나 분포를 평균과 표준편차만으로 설명하기 어렵기 때문에, 정규성 검정을 통해 정규에 가깝다고 확인되어야 신뢰구간이나 가설 검정을 수행할 때 더 높은 신뢰성을 가질 수 있습니다.- 비모수적 모델이나, 비정규 분포를 처리하는 모델은 생략해도 무방합니다. - 데이터가 정규성을 띠지 않더라도 표본 크기가 크면 중심극한정리에 따라 데이터의 평..
Q. 정규화를 왜 해야할까요? 정규화의 방법은 무엇이 있나요?- ❌ 정규화(Normalization) 는 데이터가 특정한 분포를 따르게 하려는 것이 아니라 범위를 조정하는데 목적이 있다.* 데이터가 정규분포를 따르는지를 확인하는 것을 정규성(Normality) 검정이라고 합니다.※ 정규화(Regularization) : 과적합을 방지하기 위해 추가적인 규제(L1- 가중치의 절대값의 합, L2 규제- 가중치의 제곱의 합을 비용함수에 추가)를 부여해 일반화 성능을 개선하는 것 1. 정규화(Normalization)란?- 정규화는 각 데이터들의 범위를 일정하게 조절하여 피처들을 비슷한 스케일로 맞춰주는 것 2. 왜 해야할까?- 피처의 크기 차이로 인해 편향되는 것을 줄이고 각 변수들의 영향을 균형있게 학습하..
- Total
- Today
- Yesterday
- C언어
- 30분
- 프로그래머스
- 다이어트
- 운동
- 줄넘기
- 티스토리챌린지
- 빅데이터 분석기사
- 뉴스
- 기초
- 실기
- 갓생
- Ai
- ChatGPT
- 스크랩
- 경제
- 아침
- 습관
- 고득점 Kit
- Python
- 오픽
- 오블완
- 루틴
- llm
- 영어회화
- 미라클모닝
- SQL
- 아침운동
- IH
- opic
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |