[데이터분석] 데이터 분포 변화 측정(PSI), 데이터 드리프트
1. PSI란?
- Population Stability Index
- 시간에 따라 데이터 분포가 얼마나 변화했는지를 측정하는 지표
- 모델의 성능 저하 가능성을 조기에 파악할 수 있다.
- 신용 평가 모델이나 머신러닝 모델에서 데이터 드리프트(Data Drift)를 감지하는데 사용
* 데이터 드리프트란?
- 시간 경과나 환경 변화로 인해 모델이 사용하는 입력데이터의 분포가 초기 훈련 데이터의 분포와 달라지는 현상
1) 특성 분포의 변화 (예: 온라인 쇼핑몰 구매 행동 패턴 분석시, 여름철 구매 데이터로 학습 후 겨울철 구매 데이터로 운영)
2) 레벨 변화 (예: 대출 신청자 분석시, 학습 데이터는 불량 고객 비율이 10%였는데, 운영시 불량 고객 비율이 30%인 경우)
3) 컨디셔널 드리프트: (예: 신용 점수와 대출 상환 능력의 관계가 금융 규제 변경으로 인해 바뀌는 경우)
- 원인: 시간적 변화(계절성, 트렌드 변화 등), 환경 변화(정책, 경제 상황 등), 데이터 수집 방식의 변화(센서 도입, 시스템 업그레이드 등), 외부 요인(팬데믹, 자연재해, 사회적 변화) 등
- 잘못된 예측으로 인해 비용 증가, 고객 이탈, 규제 위반 등의 문제가 발생할 수 있기 때문에 비즈니스 리스크를 관리하기 위해 데이터 드리프트를 탐지해야 한다.
2. PSI 계산 방법
- 기준 데이터(과거 데이터)와 비교 데이터(현재 데이터)를 동일한 구간(bin)으로 나눈다.
- 각 구간에 해당하는 데이터의 비율(빈도 비율)을 계산한다.
PSI < 0.1 | 데이터 분포 변화가 거의 없음 |
0.1 <= PSI < 0.25 | 데이터 분포에 약간의 변화 |
PSI >= 0.25 | 데이터 분포에 큰 변화(모델 재평가 필요) |
3. PSI 주요 사용 사례
- 머신러닝 모델이 운영 환경에서 사용되는 동안, 입력 데이터의 특성과 훈련 데이터의 특성이 달라졌는지 확인
- 데이터 수집 프로세스나 환경의 변화로 인해 발생하는 데이터 품질 문제를 감지
- 개별 피처의 분포 변화 감지(예. 나이 분포, 소득 분포 등이 시간이 지남에 따라 변했는지 확인)
- 고객 행동 변화나 시장 환경 변화의 감지를 통해 비즈니스 전략 조정