티스토리 뷰
1. Reasoning(추론)
- 일반 모델(GPT-4o) : 질문 → 답
- 추론 모델(GPT-O1): 질문 → 생각 → 답
1) 특징
- 통계적 패턴에 기반해, 논리적으로 일관성 있는 응답을 생성하는 능력
- 정답보다는 과정을 생성하는 능력
- 대표적인 추론: Chain-of-Thought
- LLM은 암산이 어렵다
- Transformer 디코더 구조: 확률적인 단방향
- Dependency가 앞에만 존재(순차적으로 생성하면서 생각을 구성하는 구조)
2) 어떻게 문제를 풀까? OpenAI-o1의 출력은 6개의 패턴으로 분류된다.
- 전체적인 구조 파악
- 알려진 문제 해결법 적용
- 하위 문제 분할
- 자체 평가와 수정
- 추가 문맥 활용
- 제약 조건 강조
=> 6개의 능력을 발휘하려면 출력이 길어야 한다. 모델에게 생각할 시간과 공간을 주면 추론을 잘 할 수 있다.
=> 보통의 AI 접근: 모델에게 긴 출력하는 방법 가르치기(데이터 필요)
2. AI 모델 학습 방법
1) 파인튜닝: 모방으로 학습하기
- 미리 주어진 질문/답변으로 학습해서 기존 데이터셋과 최대한 유사하게 응답하도록
- 예: 질문1 생각1 답변1, 질문2 생각2 답변2 ...
2) 강화학습: 시행착오로 학습하기
- 정답을 맞출 때까지 알아서 해!, 정답을 맞추고 보상을 최대화 하도록
- 더 창의적이고 유연한 방식
- 예: 질문1 정답1, 1차시도-생각1답변1, 2차시도-생각2답변2, 3차시도-생각3답변3
3) 보통 AI 모델 만들때는 파인튜닝과 강화학습을 모두 이용한다
- 사전학습: 방대한 데이터로 학습 → 다음 단어 예측 모델
- 파인튜닝: 지시+응답 데이터로 학습 → 지시에 응답하는 모델
- 강화학습: 정답과 시행착오로 학습 → 더욱 개선된 모델
=> DeepSeek R1은 파인튜닝 단계를 생략했음
- 올바른 보상을 제공하면 모델이 스스로 고차원적인 모델 해결 방식을 개발하도록 유도할 수 있음 : 아하!
- 시행착오 횟수가 늘어나니까 더 깊게 생각하고 응답길이도 더 길어짐
3. 증류모델(Distillation)의 잠재력
- R1 모델 (671B) → 질문/추론+답변 80만개 추출 → 소형 모델(7B)을 파인튜닝 : 증류모델(7B)
※ 참고 자료 :
1) https://www.youtube.com/live/Z-ELkZ_azYM?si=l7jdETBwoNpfHguF
2) https://youtu.be/EnvAM6JVKZ4?si=ekApjflOHdzBSnpr
'AI > AI 서비스 개발' 카테고리의 다른 글
[AI 서비스 개발] 크롤링 방지 기법, 크롤링 정책 (0) | 2025.03.17 |
---|---|
[AI 서비스 개발] RAG의 패러다임 변화 (0) | 2025.03.16 |
[AI 서비스 개발] RAG 파이프라인 (0) | 2025.03.06 |
[AI 서비스 개발] 확장성을 고려한 K8S 기반 소프트웨어 아키텍처 설계 (0) | 2025.03.03 |
[AI 서비스 개발] AI 에이전트란? (0) | 2025.03.03 |
- Total
- Today
- Yesterday
- opic
- 기초
- 습관
- 운동
- 실기
- SQL
- 갓생
- 빅데이터 분석기사
- 티스토리챌린지
- 경제
- 줄넘기
- 30분
- 미라클모닝
- llm
- C언어
- 고득점 Kit
- 뉴스
- 영어회화
- Python
- ChatGPT
- 프로그래머스
- 아침운동
- 아침
- 스크랩
- 루틴
- 다이어트
- IH
- Ai
- 오픽
- 오블완
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |