1. PSI란?- 예측 변수를 구간별로 나눔- 과거 데이터와 현재 데이터의 비율 차이를 각 구간별로 계산- 다음 공식을 통해 구간별 PSI를 모두 더함 2. gain chart- 모델이 상위 점수 집단에서 실제 정답을 얼마나 잘 찾아내는지를 시각화하는 그래프- 주로 마케팅, 불량 예측, 사기 탐지 등에서 우선순위 기반 타겟팅 효과를 평가할 때 유용하게 사용- 모델의 예측 점수(예: 불량 확률)를 기준으로 데이터를 내림차순 정렬 후, 상위 N% 안에 실제 정답이 얼마나 포함됐는지 누적 비율로 나타낸 그래프- 왜쓰나요? 어떤 고객이 중요할까? 어디서부터 처리할까? 같은 우선순위 깁나의 의사결정에 잘 쓰일 수 있는지를 확인- 불균형 데이터나 이진 분류 문제에 유용 3. 회귀분석- 독립변수가 종속변수에 어떤 ..
1. CNN- convolutional Neural Network- 합성곱: 이미지, 영상 등 공간 정보를 갖는 데이터에 특화된 딥러닝 구조- 이미지나 시계열 데이터 등에서 특정 패턴을 찾아내기 위한 연산- 합성곱 연산을 통해 특징 추출 → 풀링(Pooling) → 분류(Fully Connected Layer)- 활용: 이미지분류, 객체 탐지, 얼굴 인식, 의료 영상 분석 등- 평가방법: Accuracy, Precision, Recall, F1-score, Confusion Matrix, Top-k Accuracy 2. RNN- 시퀀스 데이터(시간 흐름, 순서)를 처리하는 신경망- 앞 시점의 출력을 다음 시점으로 전달 → 기억 가능- 긴 시퀀스 데이터를 다룰 때 기억이 금방 사라지는 한계, 기울기소..
(1) 앙상블- 여러 모델을 결합해서 더 좋은 성능을 내는 기법 (2) 배깅- 여러 모델이 제각각 배운걸 평균내서 예측(병렬 학습)- 대표 모델: 랜덤포레스트- 결정트리 기반의 앙상블 학습 기법, 머신러닝에서 가장 널리 쓰이는 모델 중 하나- 여러 개의 결정트리를 랜덤하게 생성한 뒤, 각각의 예측을 투표(분류) 또는 평균(회귀)해서 최종 결과를 만드는 모델- 목표: 분산을 낮추는 것 (3) 부스팅- 앞에서 틀린걸 다음 모델이 고치면서 점점 똑똑해지는 방식 (순차학습)- 대표모델: XGBoost, LGBM, CatBoost - 목표: 편향을 낮추는 것 1. AdaBoost- 가장 초기의 부스팅 알고리즘 중 하나- 약한 학습기(보통 깊이 1짜리 트리)를 여러개 쌓되, 이전 모델이 틀린 데이터에 더 집중- ..

1. 막대그래프- 길이를 통해 값의 크기를 비교하는데 유용!- 내림차순으로 정렬해야 비교하기 편하다- 특정 참조선(평균값, 중간값, 목표값 등)을 표현해 해당 막대가 그 참조선에 도달했는지 비교 가능 2. 버블차트- 원의 크기를 통해 표현- 정확한 값의 비교가 아닌 전체적인 데이터의 트렌드를 보거나 대시보드에서 필터로 유용 3. 트리맵- 계층 구조의 데이터를 표시하는데 적합한 시각화- 전체 대비 부분의 비율이 얼마나 되는지 비교- 사각형의 크기와 색상에 따라 데이터의 패턴을 확인하고, 많은 데이터를 한번에 볼 수 있음 4. 산점도- 2개의 연속형 데이터에 대한 상관관계를 분석하는데 가장 많이 사용되는 시각화- 데이터가 얼마나 퍼져 있는지 분포 확인- 상수 라인/ 평균 라인 / 사분위수 및 중앙값 / 추세..

1. MCFF란?- Mel-Frequency Cepstral Coefficients- 음성 신호의 주요 특징을 추출하는 대표적인 방법 중 하나- 음성 인식, 음성 인증 감정 분석 등 다양한 음향 처리 분야에서 널리 사용된다. 2. 왜 사용할까?- 사람의 귀는 고주파수보다는 저주파수(말소리의 주파수)에 더 민감하게 반응한다.- Mel 스케일을 사용해 주파수 축을 재조정하여 인간의 청각 특성에 맞게 변환한다.- 일반적으로 13~40개의 MFCC 계수를 사용하여 음성을 효율적으로 표현해 모델 학습을 위한 입력의 크기를 줄이고, 처리속도를 높인다.- MFCC는 주로 주파수 정보를 사용하며 시간적 정보를 잘 반영하지 못한다. => LSTM, CNN과 같은 딥러닝 모델로 보완- 배경 소음이나 잡음에 취약하다 => ..

1. PSI란?- Population Stability Index- 시간에 따라 데이터 분포가 얼마나 변화했는지를 측정하는 지표- 모델의 성능 저하 가능성을 조기에 파악할 수 있다.- 신용 평가 모델이나 머신러닝 모델에서 데이터 드리프트(Data Drift)를 감지하는데 사용* 데이터 드리프트란? - 시간 경과나 환경 변화로 인해 모델이 사용하는 입력데이터의 분포가 초기 훈련 데이터의 분포와 달라지는 현상1) 특성 분포의 변화 (예: 온라인 쇼핑몰 구매 행동 패턴 분석시, 여름철 구매 데이터로 학습 후 겨울철 구매 데이터로 운영)2) 레벨 변화 (예: 대출 신청자 분석시, 학습 데이터는 불량 고객 비율이 10%였는데, 운영시 불량 고객 비율이 30%인 경우)3) 컨디셔널 드리프트: (예: 신용 점수와 대..

1. 혼동 행렬- 분류 모델의 성능을 평가하기 위해 예측 결과와 실제 레이블을 비교해 정리한 표- 모델이 얼마나 잘 예측했는지, 어떤 유형의 오류가 발생햇는지 파악할 수 있게 도와준다.1) 구성요소- Positive : 관심있는 사건, 대립가설 → 이진분류에서 1(양성, 불량, 이상,,,)- Negative: 정상, 평소, 귀무가설 - True: 맞춘거(True를 True로, False를 False로 예측)- False: 틀린거(True를 False로, False를 True로 예측) 2) 1종오류 - 귀무가설이 맞는데(Actual Negative) 대립가설이 맞다고 함(예측, Predicted Positive)=> 틀렸으니까 False, Positive로 예측했으니까 => FP- 위험한 경우: 공정성과 ..

1. 로지스틱 회귀분석- 확률은 0~1로 값이 제한되며, 0과 1근처에서 변화가 비대칭적이다 (0.1→0.2가 0.8→0.9보다 변화량 크다)- 확률을 로그오즈로 변환해 선형 모델을 만들고, 시그모이드 함수를 사용해 다시 0~1 범위의 확률로 변환- 선형 관계는 독립 변수와 종속 변수간의 영향을 직관적으로 이해할 수 있기 때문! 1) 오즈란?- 한 사건이 발생할 확률과 발생하지 않을 확률의 비율2) 오즈를 사용하는 이유- 해석의 일관성과 상대적 중요성 비교를 쉽게 하기 위해서- 확률만 사용하면 변화량이 같아도, 초기 값에 따라 변화의 중요성이 다르게 보이는 비일관성이 발생- 변수 중요성을 비교하거나 최적화 방향을 설정하기 어렵다- 오즈는 확률을 비율로 바꿔서 공평하게 비교 - p가 0이나 1에 가까울 경..
- Total
- Today
- Yesterday
- IH
- 빅데이터 분석기사
- 30분
- 스크랩
- SQL
- 줄넘기
- 아침
- 오픽
- Python
- 고득점 Kit
- 미라클모닝
- 경제
- 기초
- 티스토리챌린지
- 운동
- 영어회화
- 다이어트
- 오블완
- opic
- Ai
- 뉴스
- 습관
- 갓생
- C언어
- 루틴
- 아침운동
- 프로그래머스
- 실기
- ChatGPT
- llm
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |