[AI 서비스 개발] LLM의 Reasoning, Deepseek R1, 파인튜닝과 강화학습
1. Reasoning(추론)
- 일반 모델(GPT-4o) : 질문 → 답
- 추론 모델(GPT-O1): 질문 → 생각 → 답
1) 특징
- 통계적 패턴에 기반해, 논리적으로 일관성 있는 응답을 생성하는 능력
- 정답보다는 과정을 생성하는 능력
- 대표적인 추론: Chain-of-Thought
- LLM은 암산이 어렵다
- Transformer 디코더 구조: 확률적인 단방향
- Dependency가 앞에만 존재(순차적으로 생성하면서 생각을 구성하는 구조)
2) 어떻게 문제를 풀까? OpenAI-o1의 출력은 6개의 패턴으로 분류된다.
- 전체적인 구조 파악
- 알려진 문제 해결법 적용
- 하위 문제 분할
- 자체 평가와 수정
- 추가 문맥 활용
- 제약 조건 강조
=> 6개의 능력을 발휘하려면 출력이 길어야 한다. 모델에게 생각할 시간과 공간을 주면 추론을 잘 할 수 있다.
=> 보통의 AI 접근: 모델에게 긴 출력하는 방법 가르치기(데이터 필요)
2. AI 모델 학습 방법
1) 파인튜닝: 모방으로 학습하기
- 미리 주어진 질문/답변으로 학습해서 기존 데이터셋과 최대한 유사하게 응답하도록
- 예: 질문1 생각1 답변1, 질문2 생각2 답변2 ...
2) 강화학습: 시행착오로 학습하기
- 정답을 맞출 때까지 알아서 해!, 정답을 맞추고 보상을 최대화 하도록
- 더 창의적이고 유연한 방식
- 예: 질문1 정답1, 1차시도-생각1답변1, 2차시도-생각2답변2, 3차시도-생각3답변3
3) 보통 AI 모델 만들때는 파인튜닝과 강화학습을 모두 이용한다
- 사전학습: 방대한 데이터로 학습 → 다음 단어 예측 모델
- 파인튜닝: 지시+응답 데이터로 학습 → 지시에 응답하는 모델
- 강화학습: 정답과 시행착오로 학습 → 더욱 개선된 모델
=> DeepSeek R1은 파인튜닝 단계를 생략했음
- 올바른 보상을 제공하면 모델이 스스로 고차원적인 모델 해결 방식을 개발하도록 유도할 수 있음 : 아하!
- 시행착오 횟수가 늘어나니까 더 깊게 생각하고 응답길이도 더 길어짐
3. 증류모델(Distillation)의 잠재력
- R1 모델 (671B) → 질문/추론+답변 80만개 추출 → 소형 모델(7B)을 파인튜닝 : 증류모델(7B)
※ 참고 자료 :
1) https://www.youtube.com/live/Z-ELkZ_azYM?si=l7jdETBwoNpfHguF
2) https://youtu.be/EnvAM6JVKZ4?si=ekApjflOHdzBSnpr