[빅데이터 분석기사 실기] 작업형3유형 5. 신뢰구간, 자유도, 표본 표준편차, 평균 검정, 비율 검정

AI/빅데이터분석기사(통계)

brave_sol 2024. 11. 24. 21:58

1. 신뢰구간이란?

- 표본 데이터를 기반으로 모집단의 모수가 특정 범위 안에 있을 것이라고 추정하는 구간

예) 95% 신뢰구간이 [44,55]일때, 이 구간이 참 평균을 포함할 확률이 95%라는 뜻

- 신뢰구간은 표본 데이터에 기초한 것이며, 샘플링때마다 구간이 달라질 수 있다.

2. Z검정

- 모집단의 비율을 알거나 표준편차를 알 때: Z분포(표준 정규분포, 표본의 수가 30이상일때)

- 표준오차(Standard Error, SE): 표본 평균이나 비율 등의 통계량의 변동성

1) 비율검정 => 모집단의 비율 주변에서 표본 비율이 변동하는 정도를 측정

2) 평균 검정

표준오차	Z - 통계량	신뢰구간
σ: 모집단의 표준편차, n: 표본의 크기
σ: 모집단의 표준편차, n: 표본의 크기	X_bar : 표본의 평균 μ0: 귀무가설에서 가정한 모집단의 평균	Z: 신뢰수준에 해당하는 z값

3) python 코드

from scipy.stats import norm
import numpy as np

z_value = norm.ppf(0.975) # 양쪽 꼬리 포함

3. t검정

- 모집단의 표준편차를 모를때: t분포

1) 계산식

표준오차	t - 통계량	신뢰구간

s: 표본의 표준편차, n: 표본의 크기	x_bar: 표본의 평균, μ0: 귀무가설에서 가정한 모집단의 평균	t: 신뢰수준에 해당하는 t값, n-1의 자유도 * s: n-1의 자유도로 계산

2) python 코드

from scipy.stats import t
import numpy as np

t_value = t.ppf(0.975, df = n-1)

* n은 z분포와 동일하게 표본의 크기이지만, Z값을 구할때와 달리 t값을 구할때는 자유도 (n-1)를 넣어줘야 한다!

4. 자유도와 표준편차

1) 자유도

- Degrees of Freedom, ddof

- 데이터의 전체 개수에서 이미 사용된 정보를 빼서 계산

모집단의 표준편차 (Z-검정)	표본의 표준편차 (t-검정)
μ: 모집단 평균
N: 모집단의 크기, μ: 모집단의 평균	N: 표본의 크기, x_bar: 표본의 평균 * 표본 평균을 계산하는데 이미 1개의 자유도를 소모했기 떄문

* 표본 평균을 계산하는데 이미 1개의 자유도를 소모했다의 의미

- 표본 평균 산식에서 평균이 고정되면, 표본 1개의 값은 나머지 표본으로 구할 수 있으므로 1개의 자유도를 소모

=> 자유롭게 변할 수 없는 1개의 값이 생긴다.