티스토리 뷰

1. PSI란?

- Population Stability Index

- 시간에 따라 데이터 분포가 얼마나 변화했는지를 측정하는 지표

- 모델의 성능 저하 가능성을 조기에 파악할 수 있다.

- 신용 평가 모델이나 머신러닝 모델에서 데이터 드리프트(Data Drift)를 감지하는데 사용

* 데이터 드리프트란?
- 시간 경과나 환경 변화로 인해 모델이 사용하는 입력데이터의 분포가 초기 훈련 데이터의 분포와 달라지는 현상

1) 특성 분포의 변화 (예: 온라인 쇼핑몰 구매 행동 패턴 분석시, 여름철 구매 데이터로 학습 후 겨울철 구매 데이터로 운영)

2) 레벨 변화 (예: 대출 신청자 분석시, 학습 데이터는 불량 고객 비율이 10%였는데, 운영시 불량 고객 비율이 30%인 경우)

3) 컨디셔널 드리프트: (예: 신용 점수와 대출 상환 능력의 관계가 금융 규제 변경으로 인해 바뀌는 경우)

- 원인: 시간적 변화(계절성, 트렌드 변화 등), 환경 변화(정책, 경제 상황 등), 데이터 수집 방식의 변화(센서 도입, 시스템 업그레이드 등), 외부 요인(팬데믹, 자연재해, 사회적 변화) 등 

- 잘못된 예측으로 인해 비용 증가, 고객 이탈, 규제 위반 등의 문제가 발생할 수 있기 때문에 비즈니스 리스크를 관리하기 위해 데이터 드리프트를 탐지해야 한다.

 

2. PSI 계산 방법

- 기준 데이터(과거 데이터)와 비교 데이터(현재 데이터)를 동일한 구간(bin)으로 나눈다.

- 각 구간에 해당하는 데이터의 비율(빈도 비율)을 계산한다.

P:기준 데이터에서 i번째 구간의 비율, q: 비교 데이터에서 i번쨰 구간의 비율

PSI < 0.1 데이터 분포 변화가 거의 없음
0.1 <= PSI < 0.25 데이터 분포에 약간의 변화
PSI >= 0.25 데이터 분포에 큰 변화(모델 재평가 필요)

 

3. PSI 주요 사용 사례

-  머신러닝 모델이 운영 환경에서 사용되는 동안, 입력 데이터의 특성과 훈련 데이터의 특성이 달라졌는지 확인

- 데이터 수집 프로세스나 환경의 변화로 인해 발생하는 데이터 품질 문제를 감지

- 개별 피처의 분포 변화 감지(예. 나이 분포, 소득 분포 등이 시간이 지남에 따라 변했는지 확인)

- 고객 행동 변화나 시장 환경 변화의 감지를 통해 비즈니스 전략 조정

반응형
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2025/04   »
1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30
글 보관함