티스토리 뷰

1. Reasoning(추론)

- 일반 모델(GPT-4o) : 질문 → 답

- 추론 모델(GPT-O1): 질문 → 생각 → 답

 

1) 특징

- 통계적 패턴에 기반해, 논리적으로 일관성 있는 응답을 생성하는 능력

- 정답보다는 과정을 생성하는 능력

- 대표적인  추론: Chain-of-Thought

- LLM은 암산이 어렵다

- Transformer 디코더 구조: 확률적인 단방향

- Dependency가 앞에만 존재(순차적으로 생성하면서 생각을 구성하는 구조)

 

2) 어떻게 문제를 풀까? OpenAI-o1의 출력은 6개의 패턴으로 분류된다.

- 전체적인 구조 파악

- 알려진 문제 해결법 적용

- 하위 문제 분할

- 자체 평가와 수정

- 추가 문맥 활용

- 제약 조건 강조

=> 6개의 능력을 발휘하려면 출력이 길어야 한다. 모델에게 생각할 시간과 공간을 주면 추론을 잘 할 수 있다.

=> 보통의 AI 접근: 모델에게 긴 출력하는 방법 가르치기(데이터 필요)

 

2. AI 모델 학습 방법

1) 파인튜닝: 모방으로 학습하기

- 미리 주어진 질문/답변으로 학습해서 기존 데이터셋과 최대한 유사하게 응답하도록

- 예: 질문1 생각1 답변1, 질문2 생각2 답변2 ...

 

2) 강화학습: 시행착오로 학습하기

- 정답을 맞출 때까지 알아서 해!, 정답을 맞추고 보상을 최대화 하도록 

- 더 창의적이고 유연한 방식

- 예: 질문1 정답1, 1차시도-생각1답변1, 2차시도-생각2답변2, 3차시도-생각3답변3

 

3) 보통 AI 모델 만들때는 파인튜닝과 강화학습을 모두 이용한다

- 사전학습: 방대한 데이터로 학습 → 다음 단어 예측 모델

- 파인튜닝: 지시+응답 데이터로 학습 → 지시에 응답하는 모델

- 강화학습: 정답과 시행착오로 학습 → 더욱 개선된 모델 

 

=> DeepSeek R1은 파인튜닝 단계를 생략했음

- 올바른 보상을 제공하면 모델이 스스로 고차원적인 모델 해결 방식을 개발하도록 유도할 수 있음 : 아하!

- 시행착오 횟수가 늘어나니까 더 깊게 생각하고 응답길이도 더 길어짐

 

3. 증류모델(Distillation)의 잠재력

- R1 모델 (671B) → 질문/추론+답변 80만개 추출 소형 모델(7B)을 파인튜닝 : 증류모델(7B)

 

※ 참고 자료 :
1) https://www.youtube.com/live/Z-ELkZ_azYM?si=l7jdETBwoNpfHguF
2) https://youtu.be/EnvAM6JVKZ4?si=ekApjflOHdzBSnpr

반응형
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2025/04   »
1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30
글 보관함