AI/데이터분석

[데이터분석] PSI, gain chart, shap

brave_sol 2025. 4. 22. 13:01

1. PSI란?

- 예측 변수를 구간별로 나눔

- 과거 데이터와 현재 데이터의 비율 차이를 각 구간별로 계산

- 다음 공식을 통해 구간별 PSI를 모두 더함

 

2. gain chart

- 모델이 상위 점수 집단에서 실제 정답을 얼마나 잘 찾아내는지를 시각화하는 그래프

- 주로 마케팅, 불량 예측, 사기 탐지 등에서 우선순위 기반 타겟팅 효과를 평가할 때 유용하게 사용

- 모델의 예측 점수(예: 불량 확률)를 기준으로 데이터를 내림차순 정렬 후, 상위 N% 안에 실제 정답이 얼마나 포함됐는지 누적 비율로 나타낸 그래프

- 왜쓰나요? 어떤 고객이 중요할까? 어디서부터 처리할까? 같은 우선순위 깁나의 의사결정에 잘 쓰일 수 있는지를 확인

- 불균형 데이터나 이진 분류 문제에 유용

 

3. 회귀분석

-  독립변수가 종속변수에 어떤 영향을 미치는지를 수치적으로 파악하고 예측하는 통계 모델

 

4. 중심극한정리

-표본의 크기가 충분히 크면, 모집단의 분포가 어떤 모양이든 상관 없이, 표본 평균의 분포는 정규분포에 근사한다

 

5. SHAP

- 머신러닝 모델을 설명 가능하게 해주는 해석 기법으로, 모델이 왜 그런 예측을 했는지를 수치적으로, 시각적으로 이해할 수 있게 해줌

 

6. 애자일방식

- 짧은 개발 주기를 반복하며, 고객 피드백을 반영해 점진적으로 완성도를 높여가는 방식

- 요구사항이 자주 바뀌는 AI/데이터 프로젝트에 유리

- 작게 만들고 빠르게 테스트해 점진적으로 완성

 

7. 극단값 vs 이상값

1) 극단값

- 분포의 끝 부분에 위치한 값으로, 이상하진 않지만 매우 크거나 작은 정상값

- 분포 특성상 드물게 나타나는 정상적인 값

- 제거보다는 로그 변환, 스케일링 등으로 조정하는 경우가 많음

- 로그변환, 제곱근 변환 등을 통해 값의 분포를 평탄하게 만들어줌

- 스케일링을 통해 극단값의 영향 줄이기

 

2) 이상값

- 데이터 생성원인과 맞지 않거나, 입력 오류 등으로 발생한 비정상적인 값

- IQR방식, Z-score방식, 모데인 룰 기반 제거, 평균/중앙값 대체 등

 

7. 이상원인탐지

- 데이터에서 이상이 발생한 시점, 위치, 원인을 추적해 문제를 해결하거나 사전에 예방할 수 있도록 돕는 분석 기법

 

8. CI/CD

- 코드 개발부터 테스트, 배포까지 전체 과정을 자동화하여 빠르고 안정적으로 서비스를 제공할 수 있도록 돕는 파이프라인

 

1) CI(Continuous Integeration) 지속적 통합: 코드 작성 ~ 테스트, 코드 품질 보장

- 여러 개발자가 작성한  코드를 자동으로 병합하고 테스트하는 과정

- git에 push 자동 빌드/ 테스트 실행해 코드 충돌, 에러를 빠르게 발견

 

2) CD 지속적 배포: 테스트 이후 ~ 운영 반영, 운영 반영 속도/안정석 확보

- Continuous Delivery : 테스트 통과 후, 배포 직전 상태까지 자동화(배포는 수동 승인)

- Continuous Deployment: 테스트 후 자동 배포까지 완전 자동화

 

9. EDA란?

- 분석프로젝트의 첫 번째이자 가장 중요한 단계

- 탐색적 데이터 분석의 줄임말로, 데이터를 시각화하고 통계적으로 분석하면서, 패턴, 이상값, 분포, 관계성 등을 파악하는 과정

- 데이터를 이해하지 앟고 모델링하면 쓰레기모델이 나올 수 있음

- 문제 정의, 변수 선택, 전처리 방향 설정에 필수

 

1) 주요 활동

- 변수 요약: describe(), 평균 중앙값,결측치, 분산 등

- 시각화: 히스토그램, 박스플롯, 페어플롯, 히트맵 등

- 상관관계 파악: corr(), 시계열 분석, 피어슨/스피어만 계수

- 이상값 탐지 : boxplot, z-score, IQR 기반 이상치

- 피처간 상관관계 확인 : 범주형 vs 수치형 / 수치형 vs 수치형 등

 

 

반응형