1. 막대그래프- 길이를 통해 값의 크기를 비교하는데 유용!- 내림차순으로 정렬해야 비교하기 편하다- 특정 참조선(평균값, 중간값, 목표값 등)을 표현해 해당 막대가 그 참조선에 도달했는지 비교 가능 2. 버블차트- 원의 크기를 통해 표현- 정확한 값의 비교가 아닌 전체적인 데이터의 트렌드를 보거나 대시보드에서 필터로 유용 3. 트리맵- 계층 구조의 데이터를 표시하는데 적합한 시각화- 전체 대비 부분의 비율이 얼마나 되는지 비교- 사각형의 크기와 색상에 따라 데이터의 패턴을 확인하고, 많은 데이터를 한번에 볼 수 있음 4. 산점도- 2개의 연속형 데이터에 대한 상관관계를 분석하는데 가장 많이 사용되는 시각화- 데이터가 얼마나 퍼져 있는지 분포 확인- 상수 라인/ 평균 라인 / 사분위수 및 중앙값 / 추세..
1. MCFF란?- Mel-Frequency Cepstral Coefficients- 음성 신호의 주요 특징을 추출하는 대표적인 방법 중 하나- 음성 인식, 음성 인증 감정 분석 등 다양한 음향 처리 분야에서 널리 사용된다. 2. 왜 사용할까?- 사람의 귀는 고주파수보다는 저주파수(말소리의 주파수)에 더 민감하게 반응한다.- Mel 스케일을 사용해 주파수 축을 재조정하여 인간의 청각 특성에 맞게 변환한다.- 일반적으로 13~40개의 MFCC 계수를 사용하여 음성을 효율적으로 표현해 모델 학습을 위한 입력의 크기를 줄이고, 처리속도를 높인다.- MFCC는 주로 주파수 정보를 사용하며 시간적 정보를 잘 반영하지 못한다. => LSTM, CNN과 같은 딥러닝 모델로 보완- 배경 소음이나 잡음에 취약하다 => ..
1. PSI란?- Population Stability Index- 시간에 따라 데이터 분포가 얼마나 변화했는지를 측정하는 지표- 모델의 성능 저하 가능성을 조기에 파악할 수 있다.- 신용 평가 모델이나 머신러닝 모델에서 데이터 드리프트(Data Drift)를 감지하는데 사용* 데이터 드리프트란? - 시간 경과나 환경 변화로 인해 모델이 사용하는 입력데이터의 분포가 초기 훈련 데이터의 분포와 달라지는 현상1) 특성 분포의 변화 (예: 온라인 쇼핑몰 구매 행동 패턴 분석시, 여름철 구매 데이터로 학습 후 겨울철 구매 데이터로 운영)2) 레벨 변화 (예: 대출 신청자 분석시, 학습 데이터는 불량 고객 비율이 10%였는데, 운영시 불량 고객 비율이 30%인 경우)3) 컨디셔널 드리프트: (예: 신용 점수와 대..
1. 혼동 행렬- 분류 모델의 성능을 평가하기 위해 예측 결과와 실제 레이블을 비교해 정리한 표- 모델이 얼마나 잘 예측했는지, 어떤 유형의 오류가 발생햇는지 파악할 수 있게 도와준다.1) 구성요소- Positive : 관심있는 사건, 대립가설 → 이진분류에서 1(양성, 불량, 이상,,,)- Negative: 정상, 평소, 귀무가설 - True: 맞춘거(True를 True로, False를 False로 예측)- False: 틀린거(True를 False로, False를 True로 예측) 2) 1종오류 - 귀무가설이 맞는데(Actual Negative) 대립가설이 맞다고 함(예측, Predicted Positive)=> 틀렸으니까 False, Positive로 예측했으니까 => FP- 위험한 경우: 공정성과 ..
1. 로지스틱 회귀분석- 확률은 0~1로 값이 제한되며, 0과 1근처에서 변화가 비대칭적이다 (0.1→0.2가 0.8→0.9보다 변화량 크다)- 확률을 로그오즈로 변환해 선형 모델을 만들고, 시그모이드 함수를 사용해 다시 0~1 범위의 확률로 변환- 선형 관계는 독립 변수와 종속 변수간의 영향을 직관적으로 이해할 수 있기 때문! 1) 오즈란?- 한 사건이 발생할 확률과 발생하지 않을 확률의 비율2) 오즈를 사용하는 이유- 해석의 일관성과 상대적 중요성 비교를 쉽게 하기 위해서- 확률만 사용하면 변화량이 같아도, 초기 값에 따라 변화의 중요성이 다르게 보이는 비일관성이 발생- 변수 중요성을 비교하거나 최적화 방향을 설정하기 어렵다- 오즈는 확률을 비율로 바꿔서 공평하게 비교 - p가 0이나 1에 가까울 경..
1. 트리 기반 모델트리 사용 차이점의사결정나무앙상블-배깅(Random Forest)앙상블-부스팅(GBM)나무 갯수1개여러 개여러 개학습 데이터원본*랜덤 복원 추출(크기는 같음)처음 트리엔 원본 데이터→ 다음 트리부턴 잔차(실체-예측)노드 분할시 피처사용전체 피처 고려랜덤으로 뽑아 그 중 최고 피처 선택랜덤으로 뽑아그 중 최고 피처 선택나무 학습방식단일 모델 학습각 트리가 독립적으로병렬 학습이전 트리의 오류를순차적으로 학습예측결과단일 트리 결과각 트리 결과 평균(회귀모델)각 트리 결과 투표(분류보델)각 트리 결과 합(잔차 보정)예측 결과 예시점수 예측 모델트리 1 = 90점트리1 = 85점트리2 = 75점최종 예측 = (85+75)/2트리1 = 70점트리2 = 10점 (잔차 보정)트리 3 = 5점 (잔차..
1. 시계열 데이터란?- 시간의 흐름에 따라 관측된 데이터- 데이터는 시간 순서대로 정렬되어 있으며, 각 관측치는 특정 시점에서 수집된 값- 과거 데이터를 기반으로 미래를 예측하거나, 패턴과 변화를 분석하는데 사용된다. 2. 시계열 데이터의 주요 특성추세(Trend)계절성(Seasonality)주기성(Cycle)우연 변동(Random Variation)지속적으로 증가(↗) 하거나 감소(↙)주별, 월별, 계절별 등 일정한비교적 짧은 주기가 반복일정하지 않은 주기로,주기가 긴 경우의 변동랜덤하게 발생추세와 계절성을 제거 후 관찰 3. 평가 지표MAERMSESMAPE계산이 간단하고 직관적데이터 단위로 해석 가능큰 오차에 더 높은 가중치를 부여데이터 단위로 복원단위와 무관하고 오차를 비율로 나타냄,대칭적으로 정..
머신러닝에서 **이상치(Outlier)**는 데이터의 일반적인 패턴에서 크게 벗어난 값을 의미해요. 이상치는 모델 성능에 부정적인 영향을 줄 수 있기 때문에, 이를 적절히 처리하는 것은 중요한 단계입니다. 이 포스팅에서는 이상치의 정의와, 머신러닝 모델에서 이상치를 다루는 방법에 대해 설명하겠습니다.1. 이상치란 무엇인가?이상치는 데이터의 일반적인 분포에서 벗어난 값을 의미합니다. 이상치는 여러 가지 이유로 발생할 수 있습니다:데이터 입력 오류: 잘못된 값이 입력되었거나 측정 오류로 인해 발생.비정상적인 상황: 실제로 드물게 발생하는 극단적인 경우를 나타냄.특정 이벤트나 패턴: 외부 요인에 의해 데이터가 비정상적으로 변동하는 경우.이상치는 데이터 분석과 머신러닝 모델링에 부정적인 영향을 줄 수 있기 때문..
- Total
- Today
- Yesterday
- C언어
- IH
- SQL
- 프로그래머스
- 오블완
- ChatGPT
- 오픽
- 30분
- 운동
- 스크랩
- 습관
- 미라클모닝
- Python
- 아침운동
- 실기
- 영어회화
- 경제
- 뉴스
- Ai
- 갓생
- llm
- 줄넘기
- opic
- 아침
- 기초
- 고득점 Kit
- 티스토리챌린지
- 다이어트
- 루틴
- 빅데이터 분석기사
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |