
Q. 중심극한정리는 왜 유용한걸까요? 1. 중심극한정리(Central Litmit Theorem, CLT) 란?- 모집단이 어떤 분포를 따르든 충분히 큰 크기의 표본을 여러번 추출하여 그 표본 평균을 구하면, 그 표본 평균의 분포는 정규분포에 가까워진다. 2. 중심극한정리의 활용성- 많은 통계 기법이 정규분포를 가정하고 설계되어 있다. (t-검정, 회귀분석, 신뢰구간 계산 등)- 정규분포를 근사적으로 사용할 수 있는 근거를 제공해 통계적 추론을 수행할 수 있다.(분석의 정당성 확보)- 데이터를 정규분포로 근사함으로써 실직적인 문제 해결에 도움을 준다.- 예시: 공장에서 생산된 제품의 품질 데이터를 정규분포로 근사하여, 평균 품질을 분석하거나 결함률을 추정할 수 있다. 3. 중심극한정리의 가정- 표본의 크..
Q. 정규화를 왜 해야할까요? 정규화의 방법은 무엇이 있나요?- ❌ 정규화(Normalization) 는 데이터가 특정한 분포를 따르게 하려는 것이 아니라 범위를 조정하는데 목적이 있다.* 데이터가 정규분포를 따르는지를 확인하는 것을 정규성(Normality) 검정이라고 합니다.※ 정규화(Regularization) : 과적합을 방지하기 위해 추가적인 규제(L1- 가중치의 절대값의 합, L2 규제- 가중치의 제곱의 합을 비용함수에 추가)를 부여해 일반화 성능을 개선하는 것 1. 정규화(Normalization)란?- 정규화는 각 데이터들의 범위를 일정하게 조절하여 피처들을 비슷한 스케일로 맞춰주는 것 2. 왜 해야할까?- 피처의 크기 차이로 인해 편향되는 것을 줄이고 각 변수들의 영향을 균형있게 학습하..
머신러닝에서 **이상치(Outlier)**는 데이터의 일반적인 패턴에서 크게 벗어난 값을 의미해요. 이상치는 모델 성능에 부정적인 영향을 줄 수 있기 때문에, 이를 적절히 처리하는 것은 중요한 단계입니다. 이 포스팅에서는 이상치의 정의와, 머신러닝 모델에서 이상치를 다루는 방법에 대해 설명하겠습니다.1. 이상치란 무엇인가?이상치는 데이터의 일반적인 분포에서 벗어난 값을 의미합니다. 이상치는 여러 가지 이유로 발생할 수 있습니다:데이터 입력 오류: 잘못된 값이 입력되었거나 측정 오류로 인해 발생.비정상적인 상황: 실제로 드물게 발생하는 극단적인 경우를 나타냄.특정 이벤트나 패턴: 외부 요인에 의해 데이터가 비정상적으로 변동하는 경우.이상치는 데이터 분석과 머신러닝 모델링에 부정적인 영향을 줄 수 있기 때문..
데이터 분석에서 **특성 선택(Feature Selection)**과 **특성 엔지니어링(Feature Engineering)**은 모델의 성능을 향상시키고, 예측력을 높이는 데 필수적인 단계입니다. 이 과정은 데이터를 단순히 입력하는 것이 아니라, 데이터를 최적화된 형태로 변환하여 모델이 더 정확하고 효율적으로 학습할 수 있도록 돕는 역할을 합니다.이번 포스팅에서는 특성 선택과 특성 엔지니어링이 무엇인지, 그리고 어떻게 수행하는지에 대해 알아보겠습니다.1. 특성 선택(Feature Selection)이란?**특성 선택(Feature Selection)**은 모델 학습에 꼭 필요한 **중요한 특성(변수)**만 남기고, 불필요한 특성은 제거하는 과정입니다. 머신러닝 모델은 많은 특성에 노출될 때 과적합(o..
데이터 분석 프로젝트에서 성공적인 결과를 얻기 위해서는 올바른 **데이터 탐색(Exploratory Data Analysis, EDA)**과 전처리가 필수적입니다. 이 단계는 데이터를 이해하고, 모델링을 위한 준비 작업을 하는 핵심 과정입니다. 이번 포스팅에서는 데이터를 탐색하고 시각화하는 방법, 그리고 데이터 전처리 과정에 대해 알아보겠습니다.1. 데이터 탐색(EDA)의 중요성**데이터 탐색(Exploratory Data Analysis, EDA)**는 수집된 데이터를 분석하기 전에 기본적인 통계 정보를 파악하고, 데이터의 분포와 관계를 탐구하는 과정입니다. 이를 통해 데이터를 더 깊이 이해하고, 분석에 필요한 인사이트를 도출할 수 있습니다.1.1 데이터 구조 이해데이터 탐색의 첫 단계는 데이터의 구조..
- Total
- Today
- Yesterday
- SQL
- 기초
- ChatGPT
- 미라클모닝
- 아침운동
- 습관
- 영어회화
- 줄넘기
- 오픽
- opic
- 다이어트
- C언어
- 고득점 Kit
- 루틴
- 실기
- IH
- 경제
- 프로그래머스
- 오블완
- 뉴스
- 티스토리챌린지
- 30분
- llm
- Ai
- 스크랩
- 운동
- 아침
- 갓생
- 빅데이터 분석기사
- Python
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |