티스토리 뷰
1. PSI란?
- Population Stability Index
- 시간에 따라 데이터 분포가 얼마나 변화했는지를 측정하는 지표
- 모델의 성능 저하 가능성을 조기에 파악할 수 있다.
- 신용 평가 모델이나 머신러닝 모델에서 데이터 드리프트(Data Drift)를 감지하는데 사용
* 데이터 드리프트란?
- 시간 경과나 환경 변화로 인해 모델이 사용하는 입력데이터의 분포가 초기 훈련 데이터의 분포와 달라지는 현상
1) 특성 분포의 변화 (예: 온라인 쇼핑몰 구매 행동 패턴 분석시, 여름철 구매 데이터로 학습 후 겨울철 구매 데이터로 운영)
2) 레벨 변화 (예: 대출 신청자 분석시, 학습 데이터는 불량 고객 비율이 10%였는데, 운영시 불량 고객 비율이 30%인 경우)
3) 컨디셔널 드리프트: (예: 신용 점수와 대출 상환 능력의 관계가 금융 규제 변경으로 인해 바뀌는 경우)
- 원인: 시간적 변화(계절성, 트렌드 변화 등), 환경 변화(정책, 경제 상황 등), 데이터 수집 방식의 변화(센서 도입, 시스템 업그레이드 등), 외부 요인(팬데믹, 자연재해, 사회적 변화) 등
- 잘못된 예측으로 인해 비용 증가, 고객 이탈, 규제 위반 등의 문제가 발생할 수 있기 때문에 비즈니스 리스크를 관리하기 위해 데이터 드리프트를 탐지해야 한다.
2. PSI 계산 방법
- 기준 데이터(과거 데이터)와 비교 데이터(현재 데이터)를 동일한 구간(bin)으로 나눈다.
- 각 구간에 해당하는 데이터의 비율(빈도 비율)을 계산한다.

PSI < 0.1 | 데이터 분포 변화가 거의 없음 |
0.1 <= PSI < 0.25 | 데이터 분포에 약간의 변화 |
PSI >= 0.25 | 데이터 분포에 큰 변화(모델 재평가 필요) |
3. PSI 주요 사용 사례
- 머신러닝 모델이 운영 환경에서 사용되는 동안, 입력 데이터의 특성과 훈련 데이터의 특성이 달라졌는지 확인
- 데이터 수집 프로세스나 환경의 변화로 인해 발생하는 데이터 품질 문제를 감지
- 개별 피처의 분포 변화 감지(예. 나이 분포, 소득 분포 등이 시간이 지남에 따라 변했는지 확인)
- 고객 행동 변화나 시장 환경 변화의 감지를 통해 비즈니스 전략 조정
'AI > 데이터분석' 카테고리의 다른 글
[데이터분석] 데이터 시각화 (Tableau 무료 설치) (2) | 2025.01.25 |
---|---|
[데이터분석] MCFF와 Librosa (0) | 2024.12.18 |
[데이터분석] 분류 모델의 성능 평가 -혼동 행렬(Confusion Matrix) (2) | 2024.12.05 |
[데이터분석] 로지스틱 회귀분석(오즈를 왜 쓸까?) (0) | 2024.12.04 |
[데이터분석] 트리 모델, 배깅과 부스팅 (0) | 2024.12.01 |
- Total
- Today
- Yesterday
- 프로그래머스
- 다이어트
- 아침운동
- 스크랩
- 줄넘기
- Python
- 오픽
- 갓생
- opic
- 미라클모닝
- 영어회화
- C언어
- 뉴스
- 30분
- 루틴
- llm
- Ai
- 고득점 Kit
- 실기
- 아침
- 티스토리챌린지
- 운동
- 기초
- 경제
- ChatGPT
- IH
- 습관
- 빅데이터 분석기사
- SQL
- 오블완
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |