티스토리 뷰

1. 언어모델(Large Model)이란?

1) 확률/통계적 방법 (n-gram)

- 예시: 나는 오늘 점심에 뒤에 "피자를 먹었다" 가 나왔다는 것 => 과거에 "점심에" 뒤에 "피자"가 많이 나왔기 때문

- 1-gram(유니그램): 전체 문장을 한 단어씩 나누는 것 => "The / cat / sat / on / the / mat"

- 2-gram(바이그램): 전체 문장을 두 단어씩 나누는 것 => "The cat / cat sat / sat on / on the / the mat"

- 3-gram(트라이그램): 전체 문장을 세 단어씩 나누는 것 =>"The cat sat / cat sat on / sat on the / on the mat"

- 한계: 가능한 모든 n-gram을 DB에 저장하고 있어야 하고, n이 커질수록 문맥을 제대로 이해하지 못함

 

2) 신경망 언어 모델

- 신경망: 인간의 뇌에 있는 신경세포(뉴런)이 연결되어 정보를 처리하는 방식을 본따서 만드러짐

- 예시: 긍정(만족, 최고, 추천)과 부정(실망,나쁨,비추)과 같이 패턴 분석

- 입력층 =>은닉층 => 출력층으로 구성, 각 계층에는 여러 뉴런(노드)가 있으며 서로 연결 되어 있다.

- 대표 모델: RNN(Recurrent Neural Networks), LSTM(Long Short--Term Memory Networks, RNN보다 긴 문장을 기억)

 

3) 트랜스포머 아키텍처

- 등장: 2017년 구글 브레인에서 발표한 논문 "Attention Is All You Need"

- 각 단어를 개별적으로 이해하고 처리하는 과거와 달리 문장과 단라 전체를 처리할 수 있음 => 맥락 이해, 콘텐츠 생성, 요약 가능

- 대표 모델: BERT(Bidirectional Encoder Representations from Tranformers, 텍스트를 양방향으로 분석하여 맥락을 이해),

GPT(Generative Pretrained Transformer)

 

2. LLM이란?

- AI >  머신러닝 > 인공 신경망 > 딥러닝 > Gen AI > LLM

- Large Language Model, 인간의 언어를 처리하는 모델

- 대규모 데이터로 훈련된, 매우 큰 규모(모델의 파라미터 수)의 인공지능 기반 언어

- 파인튜닝: chatGPT같은 언어 모델을 나의 뎅터로 추가 학습 시키는 과정으로, 특화된 분야에 더욱 정교하게 사용할 수 있다.

- GPU(Graphoc Processing Unit)나 TPU(Tensor Processing Unit, 구글이 개발한 머시너닝 및 딥어닝 최적화 하드웨어)

- 대표 모델: 오픈AI GPT, 메타 LLaMA2(오픈소스), 구글 PalM2, 구글 Gemini

* 오픈소스란? 소스코드가 공개된 소프트웨어

- 프롬프트(질문), 컴플리션(답변)

 

1) LLG과 SML

- LLM: 700억개 이상의 파라미터를 갖는 대규모 언어 모델, 몇 달간의 학습이 필요, 배포를 위해 상당한 인프라 필요(클라우드 사용)

- SLM: 70억개 수준의 파라미터를 갖는 소규모 언어 모델, 일주일 정도면 학습 가능, 대포가 쉬움, 모바일 디바이스에서도 동작

 

2) 라이프사이클

- 데이터 수집: 다양한 형식의 데이터를 저작권, 개인정보 보호 등 법적 문제를 고려해 수집

- 데이터 정제: 중복 및 노이즈 제거

- 데이터 전처리: 토큰화(텍스트를 작은 단위로 나누는 과정), 정규화(대소문자 통일, 어간 추출을 통해 단어를 기본 형태로 변환)

- 데이터 형식 변경

- 모델설계: 주로 트랜스포머 모델 기반, 하이퍼파라미터(계층 수, 학습률, 배치 크기 등) 설정

- 모델학습, 모델링: 모델이 데이터로부터 중요한 특징이나 관계를 학습하고 일반화된 패턴이나 규칙을 만드는 것

- 모델평가 및 검증: 정확도, 정밀도, 재현율, F1점수, ROC곡선 및 AUC

- 배포 및 유지보수: 배포 이후 윤리적 문제를 위해 사용자들의 질문과 답변을 지속적으로 검사해야 한다.

 

3. 파인튜닝

- 전이학습: 이미 학습된 모델을 새로운 작업에 적응하는 것

- 파인튜닝: 전이학습의 한 형태로, 모델을 특정 분야나 작업에 최적화시키기 위해 추가적인 학습을 시키는 과정

- 파인튜닝을 위해서는 훈련을 위해 질문-답변 형식의 데이터 준비가 어렵고, 클라우드 등의 비용이 높아 RAG를 더 선호한다.

 

4. RAG

- RAG란? Retrieval-Augmented Generation

- 정보 검색과 생성을 결합한 인공지능 모델, 특히 복잡하고 정보가 필요한 질문에 답변하기 위해 설계됨

1) 정보 검색(Retrieval): 사용자로 부터 질문 입력> 쿼리(DB나 콘텐츠 저장소에서 질문과 관련된 문서나 정보 검색)> 가장 관련성 높은 문서와 사용자의 질문을 결합하여 LLM에 정보 전달

2) 텍스트 생성(Generation): 사용자의 질문과 정보검색 결과가 전달됨 > 해당 정보를 바탕으로 답변 생성

 

5. 퓨샷러닝

- 특정 작업이나 분야에서 충분한 양의 학습 데이터를 확보하기 어려울 경우 활용

- 제로샷 러닝: 학습 과정에서 보지 못한 데이터에 예측을 수행

- 원샷러닝: 이미지 한 개만 학습했는데도 잘 분류할 수 있는 것

- 퓨샷러닝: 매우 제한된 예시로부터 잘 분류할 수 있는 것

 

6. LLM 활용 시 주의사항

- 정보 필터링: 개인정보가 입력되지 않도록 필터링

- 법적인 규제

- 할루시네이션: 모델이 부정확하거나 고나련 없는 정보를 생성하는 현상(정확한 답변을 원할 경우, temperature를 0으로 설정)

- 보안: PaaS(클라우드 제조사가 인프라 제공 및 운영들 담당)형태로 서비스되는 마이크로소프트 애저 오픈 AI사용 등

- 편향과 공정성

- 투명성: LLM이 왜 그런 대답을 했는지 사용자에게 설명하는 능력이 부족함 => 특정상황에서 어떻게 행동할지 예측하기 어려움

 

 

 

※ 참고: 랭체인으로 LLM 기반의 AI 서비스 개발하기[서지영 지음]

 

반응형
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2025/01   »
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31
글 보관함