1. RAG란?- Retrieval-Augmented Generation의 약자로, 텍스트 생성 모델과 정보 검색 시스템을 결합한 AI 기술- 정보 검색(Retrieval)과 생성( Generation)의 단계로 나뉜다.- 데이터베이스 사용 외에도 외부 api를 활용해 "검색"한 결과를 LLM에 전달하고 답을 "생성"하면 RAG라고 할 수 있다. 2. RAG 구현시 사용한 라이브러리# 파일 읽어오기from langchain.document_loaders import TextLoader # 텍스트 파일from PyPDF2 import PdfReader # PDF 파일# 문서를 청크로 분할from langchain.text_splitter import RecursiveCharacterTextSplitte..
Q. 요즘같은 빅데이터(?)시대에는 정규성 테스트가 의미 없다는 주장이 있습니다. 맞을까요? 1. 정규성 테스트란? - 데이터가 정규 분포를 따르는지 여부를 확인하는 것입니다. 2. 왜 하나요?- 정규성 가정을 필요로 하는 특정 통계 분석이나 모델을 사용하는 경우- 표본이 작거나 특정 표본의 특성을 분석해야 하는 경우- 표본이 작고 정규성을 띠지 않으면, 데이터의 중심 경향이나 분포를 평균과 표준편차만으로 설명하기 어렵기 때문에, 정규성 검정을 통해 정규에 가깝다고 확인되어야 신뢰구간이나 가설 검정을 수행할 때 더 높은 신뢰성을 가질 수 있습니다.- 비모수적 모델이나, 비정규 분포를 처리하는 모델은 생략해도 무방합니다. - 데이터가 정규성을 띠지 않더라도 표본 크기가 크면 중심극한정리에 따라 데이터의 평..
Q. 정규화를 왜 해야할까요? 정규화의 방법은 무엇이 있나요?- ❌ 정규화(Normalization) 는 데이터가 특정한 분포를 따르게 하려는 것이 아니라 범위를 조정하는데 목적이 있다.* 데이터가 정규분포를 따르는지를 확인하는 것을 정규성(Normality) 검정이라고 합니다.※ 정규화(Regularization) : 과적합을 방지하기 위해 추가적인 규제(L1- 가중치의 절대값의 합, L2 규제- 가중치의 제곱의 합을 비용함수에 추가)를 부여해 일반화 성능을 개선하는 것 1. 정규화(Normalization)란?- 정규화는 각 데이터들의 범위를 일정하게 조절하여 피처들을 비슷한 스케일로 맞춰주는 것 2. 왜 해야할까?- 피처의 크기 차이로 인해 편향되는 것을 줄이고 각 변수들의 영향을 균형있게 학습하..
1. API연결# API 연결import osos.environ["OPENAI_API_KEY"] = "sk로 시작하는 자기 API Key 입력" 2. llm에 입력할 템플릿 작성# 템플릿 작성from langchain import PromptTemplatetemplate = "서울에서 프렌차이즈점이 아닌 유명한 {food} 맛집 세 곳 추천해줘"prompt = PromptTemplate( input_variables=["food"], template=template) 3. llm 생성# 모델 생성from langchain.chat_models import ChatOpenAIllm = ChatOpenAI(temperature=0, model='gpt-4') 4. 모델에 전달 및 예측 결과 반환..
1. ETL이란?- Extract, Transform, Load- 데이터를 한 곳에서 다른 곳으로 옮기는 과정(데이터 연결)1) 추출(Extract): 여러 출처(DB, 파일, 웹서비스 등)로부터 필요한 데이터를 가져온다2) 변환(Transform): 추출한 데이터를 분석하고, 필요한 형태(텍스트 → 벡터, 임베딩)로 변환한다.3) 적재(load): 데이터베이스나 데이터웨어하우스에 저장, 벡터를 저장/관리/검색할 수 있는 기능 제공
다른 프로젝트와 격리하고, 파이썬 및 라이브러리 특정 버전 사용을 위해 가상 환경을 생성하여 프로젝트를 진행하고자 한다. 1. 준비: anaconda3 설치 : https://www.anaconda.com/download/success- anaconda prompt 또는 vscode 터미널 창 준비 2. 생성(llm은 대신 다른 이름으로 저장 가능)conda create -n llm python=3.8 3. 확인conda env list4. (참고) 삭제conda env remove -n llm5. 실행activate llm 6. vs code에서 주피터 노트북 사용- 상단 바에서 검색 시 >입력 후 검색(예. >>python: Select Interpreter) 7. 해당 가상관경에 필요한 라이브러리 ..
1. AWS란?- 아마존에서 제공하는 클라우드 플랫폼- 실시간 데이터 처리와 배치 데이터 처리 가능 2. EC2란?- 크기가 유연하게 변경되는 가상 서버 기능- 인스턴스가 실행되고 있을 때만 비용을 지불1) 비용 지불방법- 온디맨드: 시간당 정해진 금액을 지불(최소 60초), 개발 기간이 비교적 짧으며 소프트웨어 검증 및 테스트 단계에서 많이 사용- 리저브드: 1~3년 정도 싸게 임대, 하지만 인스턴스의 크기를 늘리거나 줄일 수 없다.- 스팟: 내가 제안한 경매 가격일 때만 실행, 하지만 인스턴스가 언제 켜지고 꺼질지 미리 알 수 없다. 2) EBS- EC2의 스토리지, 인스턴스가 종료되어도 EBS안에 들어있는 데이터는 여전히 존재한다- 가용영역: 메인 서버에서 만들어지는 일종의 복사본(백업용)- 타..
1. RAG란?- Retrieval-Augmented Cegeration1) 정보 검색(Retrieval): LLM이 텍스트를 생성할 때 관련 정보를 찾아 보고2) 텍스트 생성(Generation) 그 정보를 활용하여 새로운 텍스트를 만드는 기술 2. 정보 검색1) 질문/키워드 입력(쿼리)2) 해당 쿼리와 관련된 정보를 DB나 인터넷에서 찾음3) 유사도 검색: 검색 엔진이 쿼리와 DB에 있는 문서들 사이의 유사도를 계산- 키워드 검색: 사용자가 입력한 단어나 구를 DB나 인터넷에서 직접 찾는 방식- 시맨틱 검색: 단어의 의미와 문맥을 이해하여 보다 관련성 높은 결과를 제공하는 기술 4) 랭킹처리: 검색 결과를 가장 관련이 높다고 판단되는 문서부터 순서대로 나열- 유사도 계산: 문서나 단어 사이의 관련성이..
- Total
- Today
- Yesterday
- llm
- 아침운동
- 루틴
- SQL
- C언어
- 경제
- 프로그래머스
- 줄넘기
- Python
- 실기
- 미라클모닝
- 다이어트
- 오픽
- 오블완
- 스크랩
- 뉴스
- 운동
- 기초
- 30분
- 아침
- IH
- Ai
- opic
- 빅데이터 분석기사
- 갓생
- 고득점 Kit
- 티스토리챌린지
- ChatGPT
- 영어회화
- 습관
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |