1. 트리 기반 모델트리 사용 차이점의사결정나무앙상블-배깅(Random Forest)앙상블-부스팅(GBM)나무 갯수1개여러 개여러 개학습 데이터원본*랜덤 복원 추출(크기는 같음)처음 트리엔 원본 데이터→ 다음 트리부턴 잔차(실체-예측)노드 분할시 피처사용전체 피처 고려랜덤으로 뽑아 그 중 최고 피처 선택랜덤으로 뽑아그 중 최고 피처 선택나무 학습방식단일 모델 학습각 트리가 독립적으로병렬 학습이전 트리의 오류를순차적으로 학습예측결과단일 트리 결과각 트리 결과 평균(회귀모델)각 트리 결과 투표(분류보델)각 트리 결과 합(잔차 보정)예측 결과 예시점수 예측 모델트리 1 = 90점트리1 = 85점트리2 = 75점최종 예측 = (85+75)/2트리1 = 70점트리2 = 10점 (잔차 보정)트리 3 = 5점 (잔차..
1. 시계열 데이터란?- 시간의 흐름에 따라 관측된 데이터- 데이터는 시간 순서대로 정렬되어 있으며, 각 관측치는 특정 시점에서 수집된 값- 과거 데이터를 기반으로 미래를 예측하거나, 패턴과 변화를 분석하는데 사용된다. 2. 시계열 데이터의 주요 특성추세(Trend)계절성(Seasonality)주기성(Cycle)우연 변동(Random Variation)지속적으로 증가(↗) 하거나 감소(↙)주별, 월별, 계절별 등 일정한비교적 짧은 주기가 반복일정하지 않은 주기로,주기가 긴 경우의 변동랜덤하게 발생추세와 계절성을 제거 후 관찰 3. 평가 지표MAERMSESMAPE계산이 간단하고 직관적데이터 단위로 해석 가능큰 오차에 더 높은 가중치를 부여데이터 단위로 복원단위와 무관하고 오차를 비율로 나타냄,대칭적으로 정..
시계열 팀프로젝트를 하면서 lstm이 기존 머신러닝 방법보다 성능이 훨씬 안좋은 적이 있었다.딥러닝은 데이터의 수가 작을 경우 과적합이 발생한다고 한다. 1. 데이터 수가 적은 경우 딥러닝이 적합하지 않은 이유1) 파라미터 수가 데이터 수를 초과예) 변수가 16개인 데이터에서 LSTM 레이어(64 units)하나만으로도 수천 개의 파라미터를 가진다.(4는 입력,망각,출력게이트, 셀상태업데이트의 입력에 대한 가중치)- 입력크기가 16일때, 입력가중치 = 16*4*64=4096, 은닉상태 64*4*64=16384, 바이어스 4*64=256 총 20736- Dense(64)의 경우 파라미터는 16*64+64=1088만약, 데이터가 1000개 샘플이라면 모델은 데이터보다 더 많은 파라미터를 학습하려 한다.=> ..
1. 뉴럴 네트워크 도식화 2. 활성화 함수 (Optimization Algorithm)- Activation Function, 신경망에서 입력값을 처리해 출력값을 변환하는 수학적 함수- 모델이 복잡한 문제를 해결할 수 있도록 데이터를 비선형적으로 변환한다(예: 직선이 아닌 곡선 모양으로 예측가능)- 활성화 함수가 없으면 layer가 있는 의미가 없기 때문에 중요하다활성화함수SigmoidSoftmaxTanhReLULeaky ReLU공식출력범위0 ~ 10 ~ 1-1 ~ 10 ~ 무한대- 무한대~ 무한대용도출력층(이진분류)출력층(다중분류)은닉층(양수/음수)은닉층(양수)ReLU 대안(양/음)*α:작은양수(0.01) 3. 최적화 알고리즘- 손실함수를 최소화 하기 위해 손실 함수의 기울기를 계산하고 가중치와 편..
1. 중요 신경망 모델 발전 과정~1980s1980s 후반1997201420172017 + 기본 신경망 FFNN다층퍼셉트론 MLP순환 신경망 RNNLSTMGRUTransformerGPT단방향(입력층, 은닉층, 출력층)순환구조(은닉층 출력이 다시 입력으로)RNN 기울기 소실 문제 해결, 긴 시퀀스 학습 가능LSTM보다 간단어텐션 메커니증병렬처리순환없이도 긴 의존성 학습 가능transformer의 디코더 구조 기반자연처리 혁신회귀, 이진분류,다중클래스시계열 예측음성 인식텍스트 생성긴 시퀀스 처리기계 번역음악 생성시계열 예측텍스트 분석NLP시계열 예측텍스트 생성대화형 AI코드 생성고객이탈예측신용카드사기탐지주식 예측날씨 예측문장 번역장기적 주식 예측기계 고장 예측실시간 음성 인식기계 번역질문응답시스템문서 요약..
[작업1유형] 1. loc[:9] : 리스트의 인덱싱과 다르게 9째 인덱스 "포함" 2. 특정 행과 열의 자료 조회 및 새로운 값 저장: loc[행,'열이름'], iloc[행,열] 3. 데이터 프레임의 정렬을 바꿨다면, loc을 사용하기 전에 reset_index(drop=True)를 해줘야 한다. [작업 3유형]※ 문제: 데이터 마님 빅분기 실기 기출 2회 ( https://www.datamanim.com/dataset/practice/ex2.html ) 1. 이항분포란?- 다음 조건을 만족하는 실험에서 성공 횟수의 분포1) 조건- 실험의 결과가 두 가지(성공/실패)로 나뉨- 각 실험이 독립적(개별 남성의 치과 방문 여부 독립)- 성공 확률이 p로 일정- 실험 횟수가 고정 2) 확률 구하기- P(X..
1. PromptTemlate비교클래스설명PromptTemplate가장 기본적인 프롬프트ChatPromptTemplate대화형 프롬프트, 메시지 기반의 입력 처리FewShotPromptTemplate몇 가지 예시를 포함한 프롬프트, 문맥 제공 2. PromptTemplatefrom langchain.prompts import PromptTemplate# 템플릿 정의template = PromptTemplate( input_variables=["name", "task"], template="Hello {name}, can you help me with {task}?")# 템플릿 사용output = template.format(name="Alice", task="coding")print(outpu..
1. 구현 방법 비교ConversationBufferMemoryRunnableWithMessageHistory대화 히스토리를 내부적으로 저장하는 메모리 객체대화 히스토리를 외부 데이터베이스 또는 메모리 저장소에서 단일 사용자가 지속적인 대화를 할때여러 사용자의 대화 세션을 관리해야 할 때대화 히스토리를 외부 데이터베이스에 저장할 필요가 없을때대화 히스토리를 외부 데이터 베이스나 클라우드에 저장할 때간단한 대화형 애플리케이션에서 빠르게 시작하고 싶을 때특정 세션별로 독립적인 히스토리가 필요할 때 2. ConversationBufferMemroy의 사용자별 메모리 분리from langchain.memory import ConversationBufferMemory# 사용자별 메모리 저장소user_memory_..
- Total
- Today
- Yesterday
- 아침
- Ai
- 프로그래머스
- SQL
- llm
- 빅데이터 분석기사
- 미라클모닝
- C언어
- 오픽
- 티스토리챌린지
- 루틴
- 갓생
- IH
- 스크랩
- 운동
- 뉴스
- opic
- 줄넘기
- 경제
- 고득점 Kit
- 아침운동
- 30분
- Python
- 실기
- ChatGPT
- 기초
- 습관
- 영어회화
- 오블완
- 다이어트
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |