1. PSI란?- Population Stability Index- 시간에 따라 데이터 분포가 얼마나 변화했는지를 측정하는 지표- 모델의 성능 저하 가능성을 조기에 파악할 수 있다.- 신용 평가 모델이나 머신러닝 모델에서 데이터 드리프트(Data Drift)를 감지하는데 사용* 데이터 드리프트란? - 시간 경과나 환경 변화로 인해 모델이 사용하는 입력데이터의 분포가 초기 훈련 데이터의 분포와 달라지는 현상1) 특성 분포의 변화 (예: 온라인 쇼핑몰 구매 행동 패턴 분석시, 여름철 구매 데이터로 학습 후 겨울철 구매 데이터로 운영)2) 레벨 변화 (예: 대출 신청자 분석시, 학습 데이터는 불량 고객 비율이 10%였는데, 운영시 불량 고객 비율이 30%인 경우)3) 컨디셔널 드리프트: (예: 신용 점수와 대..
1. 혼동 행렬- 분류 모델의 성능을 평가하기 위해 예측 결과와 실제 레이블을 비교해 정리한 표- 모델이 얼마나 잘 예측했는지, 어떤 유형의 오류가 발생햇는지 파악할 수 있게 도와준다.1) 구성요소- Positive : 관심있는 사건, 대립가설 → 이진분류에서 1(양성, 불량, 이상,,,)- Negative: 정상, 평소, 귀무가설 - True: 맞춘거(True를 True로, False를 False로 예측)- False: 틀린거(True를 False로, False를 True로 예측) 2) 1종오류 - 귀무가설이 맞는데(Actual Negative) 대립가설이 맞다고 함(예측, Predicted Positive)=> 틀렸으니까 False, Positive로 예측했으니까 => FP- 위험한 경우: 공정성과 ..
1. 시계열 데이터란?- 시간의 흐름에 따라 관측된 데이터- 데이터는 시간 순서대로 정렬되어 있으며, 각 관측치는 특정 시점에서 수집된 값- 과거 데이터를 기반으로 미래를 예측하거나, 패턴과 변화를 분석하는데 사용된다. 2. 시계열 데이터의 주요 특성추세(Trend)계절성(Seasonality)주기성(Cycle)우연 변동(Random Variation)지속적으로 증가(↗) 하거나 감소(↙)주별, 월별, 계절별 등 일정한비교적 짧은 주기가 반복일정하지 않은 주기로,주기가 긴 경우의 변동랜덤하게 발생추세와 계절성을 제거 후 관찰 3. 평가 지표MAERMSESMAPE계산이 간단하고 직관적데이터 단위로 해석 가능큰 오차에 더 높은 가중치를 부여데이터 단위로 복원단위와 무관하고 오차를 비율로 나타냄,대칭적으로 정..
- Total
- Today
- Yesterday
- 고득점 Kit
- C언어
- 오픽
- 영어회화
- 다이어트
- 스크랩
- opic
- 티스토리챌린지
- 실기
- 기초
- llm
- 경제
- 갓생
- 아침운동
- 아침
- ChatGPT
- 뉴스
- 줄넘기
- IH
- 루틴
- 미라클모닝
- 운동
- 오블완
- 30분
- Python
- SQL
- Ai
- 빅데이터 분석기사
- 프로그래머스
- 습관
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |