AI/빅데이터분석기사(통계)
[빅데이터 분석기사 실기] 작업형3유형 4. 크루스칼-왈리스 검정
brave_sol
2024. 11. 24. 21:41
1. 크루스칼-왈리스 검정이란?
- 두 개 이상의 독립 표본 그룹 간의 중앙값 차이가 통계적으로 유의미한지를 검정하는 비모수적인 방법
- 데이터가 정규성을 만족하지 않거나, 분산이 같지 않은 경우 적합
1) 특징
- 비모수적 방법: 데이터가 정규분포를 따르지 않아도 사용할 수 있다.
- 독립 표본: 그룹 간 데이터가 독립적이어야 한다.
- 중앙값 비교: 평균 대신 중앙값을 비교한다.(* 데이터의 분포에 대한 가정을 거의 하지 않고 순위 기반이라)
- 확장된 윌콕슨 순위합 검정: 두 그룹 간 차이를 비교하는 윌콕슨 순위합 검정을 여러 그룹에 확장한 방법
2) 사용 조건
- 데이터는 연속형 또는 순위형 데이터야 한다.
- 그룹 간 데이터는 독립적이어야 한다.
- 각 그룹의 데이터 분포는 동일한 모양이어야 하지만 정규성을 만족할 필요는 없다.
3) 가설
- 귀무가설: 모든 그룹의 중앙값이 동일하다
- 대립가설: 적어도 한 그룹의 중앙값이 다른 그룹과 다르다
4) 검정 절차
- 데이터를 순위로 변환, 동일한 값은 평균 순위를 할당
- 각 그룹의 순위 합을 계산
- 검정 통계량 계산(H) : 자유도가 k-1인 카이제곱 분포를 따른다.
from scipy.stats import kruskal
# 각 그룹 데이터
group1 = [10, 20, 30]
group2 = [15, 25, 35]
group3 = [5, 25, 40]
# 크루스칼-왈리스 검정 수행
stat, p = kruskal(group1, group2, group3)
print("Test Statistic:", stat)
print("p-value:", p)
# 결과 해석
if p < 0.05:
print("귀무가설 기각: 그룹 간 중앙값 차이가 유의미하다.")
else:
print("귀무가설 채택: 그룹 간 중앙값 차이가 없다.")
반응형