티스토리 뷰

1. 통계적 추정

- 데이터를 사용하여 데이터를 발생시킨 모수(평균, 비율 등)의 값을 예측하는 방법)

- 점추정 / 구간추정 : 모수(평균, 비율)가 존재할 것으로 예상되는 점/구간을 추정하는 방법

 

2. 통계적 검정

- 귀무가설을 기각할 수 있는 근거를 찾는 과정

- 귀무가설(H0, Null Hyppothesis): 가장 기본적인 가정(현 상태, 참이라고 받아들여고 있는), '차이가 없다/효과가 없다'

- 대립가설(H1, Alternative Hypothesis):우리가 증명하고자 하는 가설

- 검정의 방향: 우리가 확인하고 싶은 대립가설의 방향이 검정 방향을 결정

 

3. 검정통계량

- 가설 검정에 사용되는 확률 변수

- 검정통계량의 실현치를 계산하고, 그 값에 따라 귀무가설을 기각할 지 말지에 대한 통계적 의사결정을 내린다.

- 유의수준: 오류를 허용할 확률

- 신뢰수준: 결과가 얼마나 신뢰할 수 있는지의 척도

 

1) Z 검정 통계량

가정1) 모집단의 분산을 아는 경우

가정2) 모집단이 정규분포를 따르거나, 표본의 크기가 충분히 큰 경우(n>=30)

*n이 커지면 Z통계량의 분포는 표준정규분포로 수렴하게 된다

 

- 정규분포: norm

확률변수 확률밀도함수
확률변수 X가 정규분포를 따른다 μ: 평균, σ: 표준편차

 

- python 코드

from scipy.stats import norm
# loc: 평균, scale: 표준편차

# 확률밀도함수(PDF): 연속형 확률 분포에서 y값 (밀도) => pdf를 적분하면 특정 구간의 확률이 된다.
norm.pdf(x, loc=0, scale=1)

# 누적분포함수(CDF): 특정 값 이하의 확률
norm.cdf(x, loc=0, scale=1)

# 퀀타일함수(PPF): 누적 확률에 해당하는 x값
norm.ppf(q, loc=0, scale=1)

# 랜덤 샘플 생성(RVS): 정규분포를 따르는 랜덤한 수를 생성
norm.rvs(loc=0, scale=1, size=None, random_state=None)

- 신뢰수준(95%, 유의수준 0.05, 양측검정 일때 Z=1.96, -1.96), 분홍색 범위보다 p-value값이 작다면 귀무가설 기각

- Z 통계량을 구한 뒤 norm.cdf(z통계량) 하면 왼쪽 분홍색, 1-corm.cdf(z통계량)하면 오른쪽 분홍색 확률

- 상단 검정과 하단검정은 대립가설의 방향에 따라 정해진다.

- 예: 대립가설이 모집단 평균이 기준 값보다 작다 => 하단 검정 norm.cdf(z) 

양측검정 (유의수준 0.05, 신뢰수준 0.95) 하단검정 (왼쪽 단측검정, 유의수준 0.05, 신뢰수준 0.95)

 

2) t검정 통계량

- 자유도가 ν인 t분포를 따르는 확률 변수

t분포 확률변수 t검정 통계량의 분포
Z: 표준정규분포, V:자유도 v인 카이제곱분포를 따르는 확률변수 X_bar: 표본 평균 확률변수, S: 표본 표준편차 확률변수

 

[스튜던트 정리]

가정 1) 표본평균이 정규분포를 따르고 평균이 μ, 분산이 σ^2/n인 분포를 따른다. 

가정 2) 표본 평균은 표본 분산과 독립이다.

가정 3) (n-1)*s^2 / σ^2은 자유도가 n-1인 카이제곱분포를 따른다.

x_bar : 표본 평균 확률변수 S: 표본 표준편차 확률변수
스튜던트 가정1 스튜던트 가정3

 

 

반응형
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2025/01   »
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31
글 보관함