티스토리 뷰
1. 언어모델(Large Model)이란?
1) 확률/통계적 방법 (n-gram)
- 예시: 나는 오늘 점심에 뒤에 "피자를 먹었다" 가 나왔다는 것 => 과거에 "점심에" 뒤에 "피자"가 많이 나왔기 때문
- 1-gram(유니그램): 전체 문장을 한 단어씩 나누는 것 => "The / cat / sat / on / the / mat"
- 2-gram(바이그램): 전체 문장을 두 단어씩 나누는 것 => "The cat / cat sat / sat on / on the / the mat"
- 3-gram(트라이그램): 전체 문장을 세 단어씩 나누는 것 =>"The cat sat / cat sat on / sat on the / on the mat"
- 한계: 가능한 모든 n-gram을 DB에 저장하고 있어야 하고, n이 커질수록 문맥을 제대로 이해하지 못함
2) 신경망 언어 모델
- 신경망: 인간의 뇌에 있는 신경세포(뉴런)이 연결되어 정보를 처리하는 방식을 본따서 만드러짐
- 예시: 긍정(만족, 최고, 추천)과 부정(실망,나쁨,비추)과 같이 패턴 분석
- 입력층 =>은닉층 => 출력층으로 구성, 각 계층에는 여러 뉴런(노드)가 있으며 서로 연결 되어 있다.
- 대표 모델: RNN(Recurrent Neural Networks), LSTM(Long Short--Term Memory Networks, RNN보다 긴 문장을 기억)
3) 트랜스포머 아키텍처
- 등장: 2017년 구글 브레인에서 발표한 논문 "Attention Is All You Need"
- 각 단어를 개별적으로 이해하고 처리하는 과거와 달리 문장과 단라 전체를 처리할 수 있음 => 맥락 이해, 콘텐츠 생성, 요약 가능
- 대표 모델: BERT(Bidirectional Encoder Representations from Tranformers, 텍스트를 양방향으로 분석하여 맥락을 이해),
GPT(Generative Pretrained Transformer)
2. LLM이란?
- AI > 머신러닝 > 인공 신경망 > 딥러닝 > Gen AI > LLM
- Large Language Model, 인간의 언어를 처리하는 모델
- 대규모 데이터로 훈련된, 매우 큰 규모(모델의 파라미터 수)의 인공지능 기반 언어
- 파인튜닝: chatGPT같은 언어 모델을 나의 뎅터로 추가 학습 시키는 과정으로, 특화된 분야에 더욱 정교하게 사용할 수 있다.
- GPU(Graphoc Processing Unit)나 TPU(Tensor Processing Unit, 구글이 개발한 머시너닝 및 딥어닝 최적화 하드웨어)
- 대표 모델: 오픈AI GPT, 메타 LLaMA2(오픈소스), 구글 PalM2, 구글 Gemini
* 오픈소스란? 소스코드가 공개된 소프트웨어
- 프롬프트(질문), 컴플리션(답변)
1) LLG과 SML
- LLM: 700억개 이상의 파라미터를 갖는 대규모 언어 모델, 몇 달간의 학습이 필요, 배포를 위해 상당한 인프라 필요(클라우드 사용)
- SLM: 70억개 수준의 파라미터를 갖는 소규모 언어 모델, 일주일 정도면 학습 가능, 대포가 쉬움, 모바일 디바이스에서도 동작
2) 라이프사이클
- 데이터 수집: 다양한 형식의 데이터를 저작권, 개인정보 보호 등 법적 문제를 고려해 수집
- 데이터 정제: 중복 및 노이즈 제거
- 데이터 전처리: 토큰화(텍스트를 작은 단위로 나누는 과정), 정규화(대소문자 통일, 어간 추출을 통해 단어를 기본 형태로 변환)
- 데이터 형식 변경
- 모델설계: 주로 트랜스포머 모델 기반, 하이퍼파라미터(계층 수, 학습률, 배치 크기 등) 설정
- 모델학습, 모델링: 모델이 데이터로부터 중요한 특징이나 관계를 학습하고 일반화된 패턴이나 규칙을 만드는 것
- 모델평가 및 검증: 정확도, 정밀도, 재현율, F1점수, ROC곡선 및 AUC
- 배포 및 유지보수: 배포 이후 윤리적 문제를 위해 사용자들의 질문과 답변을 지속적으로 검사해야 한다.
3. 파인튜닝
- 전이학습: 이미 학습된 모델을 새로운 작업에 적응하는 것
- 파인튜닝: 전이학습의 한 형태로, 모델을 특정 분야나 작업에 최적화시키기 위해 추가적인 학습을 시키는 과정
- 파인튜닝을 위해서는 훈련을 위해 질문-답변 형식의 데이터 준비가 어렵고, 클라우드 등의 비용이 높아 RAG를 더 선호한다.
4. RAG
- RAG란? Retrieval-Augmented Generation
- 정보 검색과 생성을 결합한 인공지능 모델, 특히 복잡하고 정보가 필요한 질문에 답변하기 위해 설계됨
1) 정보 검색(Retrieval): 사용자로 부터 질문 입력> 쿼리(DB나 콘텐츠 저장소에서 질문과 관련된 문서나 정보 검색)> 가장 관련성 높은 문서와 사용자의 질문을 결합하여 LLM에 정보 전달
2) 텍스트 생성(Generation): 사용자의 질문과 정보검색 결과가 전달됨 > 해당 정보를 바탕으로 답변 생성
5. 퓨샷러닝
- 특정 작업이나 분야에서 충분한 양의 학습 데이터를 확보하기 어려울 경우 활용
- 제로샷 러닝: 학습 과정에서 보지 못한 데이터에 예측을 수행
- 원샷러닝: 이미지 한 개만 학습했는데도 잘 분류할 수 있는 것
- 퓨샷러닝: 매우 제한된 예시로부터 잘 분류할 수 있는 것
6. LLM 활용 시 주의사항
- 정보 필터링: 개인정보가 입력되지 않도록 필터링
- 법적인 규제
- 할루시네이션: 모델이 부정확하거나 고나련 없는 정보를 생성하는 현상(정확한 답변을 원할 경우, temperature를 0으로 설정)
- 보안: PaaS(클라우드 제조사가 인프라 제공 및 운영들 담당)형태로 서비스되는 마이크로소프트 애저 오픈 AI사용 등
- 편향과 공정성
- 투명성: LLM이 왜 그런 대답을 했는지 사용자에게 설명하는 능력이 부족함 => 특정상황에서 어떻게 행동할지 예측하기 어려움
※ 참고: 랭체인으로 LLM 기반의 AI 서비스 개발하기[서지영 지음]
'AI > AI 서비스 개발' 카테고리의 다른 글
[AI 서비스 개발] LLM + RAG (1) | 2024.11.15 |
---|---|
[AI 서비스 개발] LLM 프레임워크 Langchain (8) | 2024.11.13 |
[AI 서비스 개발] 데이터 연결, ETL(데이터 추출, 변환,적재) (0) | 2024.11.12 |
[AI 서비스 개발] 가상환경 생성 (0) | 2024.11.12 |
[AI 서비스 개발] RAG와 랭체인 (2) | 2024.11.11 |
- Total
- Today
- Yesterday
- 줄넘기
- 갓생
- llm
- 스크랩
- 티스토리챌린지
- 영어회화
- C언어
- 오픽
- Ai
- 오블완
- ChatGPT
- 운동
- 아침운동
- 다이어트
- 빅데이터 분석기사
- 실기
- 루틴
- 기초
- IH
- 30분
- 습관
- 뉴스
- 경제
- SQL
- Python
- 프로그래머스
- 미라클모닝
- opic
- 고득점 Kit
- 아침
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |