1. 스크린 샷과 코드를 볼 수 있는 사이트https://paperswithcode.com/ Papers with Code - The latest in Machine LearningPapers With Code highlights trending Machine Learning research and the code to implement it.paperswithcode.com 2. 모델을 쉽게 다운로드 받을 수 있다https://modelzoo.co/#google_vignette https://modelzoo.co/#google_vignette modelzoo.co 3. 논문만 찾고 싶은 경우https://arxiv.org/ arXiv.org e-Print archiveChange to arXiv's p..
프로그래머스 알고리즘 고득점 kit 해시 - 해시는 해시 함수와 해시 테이블의 개념을 기반으로 한다.- 언제쓸까? 정보를 빨리 찾고 싶을때, 특히 string을 기반으로 정보를 관리할 때 (대부분 Key가 String), 중복을 확인할 때- 데이터가 너무 길거나 많을때, 한 번 계산한 해시 값을 재활용 할 수 있을 때(매번 데이터를 다 읽지 않아도 됨)* 간혹 서로 다른 데이터가 같은 해시 값을 가지는 충돌이 발생할 수 있어, 중요한 상황에서는 해시와 == 를 함께 사용- get/put/getorDefault 1. 파이썬 내장 함수 hash()- 입력 데이터를 특정 고유값을 가지는 정수(해시값)로 매핑하는 함수- 동일 값은 동일한 해시 값을 반환한다.- 숫자의 경우 데이터 타입은 관계 없다(int, f..
1. MCFF란?- Mel-Frequency Cepstral Coefficients- 음성 신호의 주요 특징을 추출하는 대표적인 방법 중 하나- 음성 인식, 음성 인증 감정 분석 등 다양한 음향 처리 분야에서 널리 사용된다. 2. 왜 사용할까?- 사람의 귀는 고주파수보다는 저주파수(말소리의 주파수)에 더 민감하게 반응한다.- Mel 스케일을 사용해 주파수 축을 재조정하여 인간의 청각 특성에 맞게 변환한다.- 일반적으로 13~40개의 MFCC 계수를 사용하여 음성을 효율적으로 표현해 모델 학습을 위한 입력의 크기를 줄이고, 처리속도를 높인다.- MFCC는 주로 주파수 정보를 사용하며 시간적 정보를 잘 반영하지 못한다. => LSTM, CNN과 같은 딥러닝 모델로 보완- 배경 소음이나 잡음에 취약하다 => ..
1. PSI란?- Population Stability Index- 시간에 따라 데이터 분포가 얼마나 변화했는지를 측정하는 지표- 모델의 성능 저하 가능성을 조기에 파악할 수 있다.- 신용 평가 모델이나 머신러닝 모델에서 데이터 드리프트(Data Drift)를 감지하는데 사용* 데이터 드리프트란? - 시간 경과나 환경 변화로 인해 모델이 사용하는 입력데이터의 분포가 초기 훈련 데이터의 분포와 달라지는 현상1) 특성 분포의 변화 (예: 온라인 쇼핑몰 구매 행동 패턴 분석시, 여름철 구매 데이터로 학습 후 겨울철 구매 데이터로 운영)2) 레벨 변화 (예: 대출 신청자 분석시, 학습 데이터는 불량 고객 비율이 10%였는데, 운영시 불량 고객 비율이 30%인 경우)3) 컨디셔널 드리프트: (예: 신용 점수와 대..
프로그래머스 SQL 고득점 kit 14일차( String, Date 6문제) 1. 문자열 중간에 특정 문자 삽입 : INSERT(원본 문자열, 새 문자열을 삽입할 위치, 대체할 문자길이, 삽입할 문자열)- 위치는 1부터 시작,- 0: 기존문자열을 삭제하지 않고 삽입만 함- n: 해당 길이만큼 기존 문자열을 대체SELECT INSERT('01053422914', 4, 3, '-') AS result;# 010-22914## 534을 -로 대체- 조건에 맞는 사용자 정보 조회하기SELECT B.WRITER_ID, U.NICKNAME, CONCAT(U.CITY,' ',U.STREET_ADDRESS1,' ',STREET_ADDRESS2 ) AS 전체주소, INSERT(INSERT(TLNO,..
프로그래머스 SQL 고득점 kit 13일차( JOIN 5문제, String, Date 13문제) 1. 날짜에 단순히 + / - 를하면, 문자열을 정수변환해서 잘못 계산한다20220916 - 20220807 = 109 2. 날짜/시간의 계산1) 빼기- 날짜: DATEDIFFSELECT DATEDIFF('2022-09-16', '2022-08-07') AS days_difference;# 40- 시간: TIMESTAMPDIFF-- 두 날짜의 시간 단위 차이SELECT TIMESTAMPDIFF(HOUR, '2022-08-07', '2022-09-16') AS hours_difference; 2) 더하기: DATE_ADD (SQL표준) 또는 ADDATE(MYSQL)-- 10일 더하기SELECT DATE_ADD..
Q. 정규화를 왜 해야할까요? 정규화의 방법은 무엇이 있나요? 1. 정규화(Regularization)란?- 모델의 과적합을 방지하기 위해 추가적인 제약(규제)를 부여하는 기법- 과적합(Overfitting)이란? 모델이 훈련 데이터를 지나치게 학습해, 데이터의 일반적인 패턴을 학습하기 보다는, 그 안에 존재하는 우연한 잡음(noise)나 특이한 패턴까지 암기해버리는 상태=> 실제 새로운 데이터에 대한 예측 성능이 떨어지기 때문에 이를 방지하기 위해 모델의 복잡도를 제어하거나 가중치를 제한함으로써 일반화 성능을 개선하는 것 2. 정규화의 방법1) L1 정규화 (Lasso 정규화) : 가중치의 절댓값 합(L1 norm)을 비용 함수에 추가- 가중치 벡터의 일부 요소를 완전히 0으로 만드는 특성 선택(Fea..
1. 오차와 편향오차(Error)편향(Bias)관측값(실제값)과 모델 예측값의 차이모델 예측값이 체계적으로 실제값보다 특정 방향으로 치우쳐 있는 정도 개별 예측 결과에서 발생하는 불규칙한 차이 노이즈에 의해 발생하는 경우가 많다샘플을 많이 늘려도 사라지지 않는 체계적인 오차 경향모델이 일관되게 결과를 높게/낮게 추정하는 경향모델의 가정이나 구조, 알고리즘 특성, 학습 과정 등으로 인해 생기는 시스템적인 오차모델 성능을 정량적으로 평가(MSE, MAE 등)할 때 사용모델 튜닝 과정에서 특정 하이퍼파라미터 설정 시 모델이 얼마나 정확한 결과를 내는지 비교할 때 활용모델이 전반적으로 한쪽 방향으로 치우쳐예측하는 경향이 있는지 살펴볼 때 사용 2. 편향과 분산 : 트레이드오프 관계(최적의 복잡도를 갖는 모델을 ..
- Total
- Today
- Yesterday
- 실기
- 오블완
- Python
- 미라클모닝
- 30분
- 경제
- Ai
- 티스토리챌린지
- 스크랩
- opic
- 뉴스
- 루틴
- 다이어트
- 갓생
- 기초
- 프로그래머스
- 고득점 Kit
- 습관
- 운동
- 오픽
- 영어회화
- 줄넘기
- C언어
- ChatGPT
- SQL
- 빅데이터 분석기사
- llm
- 아침
- IH
- 아침운동
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |