AI/빅데이터분석기사(통계)
[빅데이터 분석기사 실기] 작업형3유형 5. 신뢰구간, 자유도, 표본 표준편차, 평균 검정, 비율 검정
brave_sol
2024. 11. 24. 21:58
1. 신뢰구간이란?
- 표본 데이터를 기반으로 모집단의 모수가 특정 범위 안에 있을 것이라고 추정하는 구간
예) 95% 신뢰구간이 [44,55]일때, 이 구간이 참 평균을 포함할 확률이 95%라는 뜻
- 신뢰구간은 표본 데이터에 기초한 것이며, 샘플링때마다 구간이 달라질 수 있다.
2. Z검정
- 모집단의 비율을 알거나 표준편차를 알 때: Z분포(표준 정규분포, 표본의 수가 30이상일때)
- 표준오차(Standard Error, SE): 표본 평균이나 비율 등의 통계량의 변동성
1) 비율검정 => 모집단의 비율 주변에서 표본 비율이 변동하는 정도를 측정
표준오차 | Z - 통계량 | 신뢰구간 |
![]() |
![]() |
![]() |
P0: 귀무가설에서 가정한 비율, n:표본의 크기 | p_hat: 표본의 비율 | Z: 신뢰수준에 해당하는 z값 |
2) 평균 검정
표준오차 | Z - 통계량 | 신뢰구간 |
![]() |
![]() |
![]() |
σ: 모집단의 표준편차, n: 표본의 크기 | X_bar : 표본의 평균 μ0: 귀무가설에서 가정한 모집단의 평균 |
Z: 신뢰수준에 해당하는 z값 |
3) python 코드
from scipy.stats import norm
import numpy as np
z_value = norm.ppf(0.975) # 양쪽 꼬리 포함
3. t검정
- 모집단의 표준편차를 모를때: t분포
1) 계산식
표준오차 | t - 통계량 | 신뢰구간 |
![]() |
![]() |
![]() |
s: 표본의 표준편차, n: 표본의 크기 | x_bar: 표본의 평균, μ0: 귀무가설에서 가정한 모집단의 평균 |
t*: 신뢰수준에 해당하는 t값, n-1의 자유도 ** s: n-1의 자유도로 계산 |
2) python 코드
from scipy.stats import t
import numpy as np
t_value = t.ppf(0.975, df = n-1)
* n은 z분포와 동일하게 표본의 크기이지만, Z값을 구할때와 달리 t값을 구할때는 자유도 (n-1)를 넣어줘야 한다!
4. 자유도와 표준편차
1) 자유도
- Degrees of Freedom, ddof
- 데이터의 전체 개수에서 이미 사용된 정보를 빼서 계산
모집단의 표준편차 (Z-검정) | 표본의 표준편차 (t-검정) |
![]() |
![]() |
N: 모집단의 크기, μ: 모집단의 평균 | N: 표본의 크기, x_bar: 표본의 평균 * 표본 평균을 계산하는데 이미 1개의 자유도를 소모했기 떄문 |
* 표본 평균을 계산하는데 이미 1개의 자유도를 소모했다의 의미
- 표본 평균 산식에서 평균이 고정되면, 표본 1개의 값은 나머지 표본으로 구할 수 있으므로 1개의 자유도를 소모
=> 자유롭게 변할 수 없는 1개의 값이 생긴다.
반응형