1. 생성형 인공지능- 인공지능 기술의 한 종류로서 이미지, 비디오, 오디오, 텍스트 등을 포함한 대량의 데이터를 학습하여 사람과 유사한 방식으로 문맥과 의미를 이해하고 새로운 데이터를 자동으로 생성해주는 기술 1) 기존 AI 기술과의 차이점- 기존 AI 기술이 회귀, 분류, 군집화 등 판별적인 AI 기술이었다면, 생성형 AI 기술은 이용자가 요구한 질문이나 과제를 해결하기 위해 주어진 데이터를 기반으로 패턴과 규칙을 학습하고 이를 통해 새로운 컨텐츠를 생성하는 기술 2) LLM- 대규모 언어 모델은 일반적으로 수백억 개 이상의 파라미터를 포함하는 인공지능 모델을 의미하며, 복잡한 언어 패턴과 의미를 학습하고 다양한 추론 작업에 대해 우수한 성능을 보유 3) GPT- 대규모 언어 모델로서, 도서, 웹 문..
1. Wav2Vec- Facebook에서 개발한 self-Supervised 음성 표현 학습 모델- 음성 신호 → 의미 있는 벡터 임베딩으로 변환해주는 모델 1) 핵심 구조- 음성 신호에서 프레임 단위 특징 추출- transformer 구조 + self supervised 방식으로 개선해 라벨 없이 음성 표현을 미리 학습하고, 소량의 라벨 데이터로 fine-tuning이 가능- 활용 분야: 음성인식(ARS)- 목소리를 텍스트로 변환, 스피커 검증: 누가 말했는지 식별, 음성 임베딩- 음성 특성 추출하여 분류, 클러스터링 등 활용- 라벨이 없는 음성 데이터로 미리 학습 가능,작은 학습 데이터로도 높은 성능- Hugging Face의 facebook/wav2vec2-base로 바로 사용 가능 2. Speec..
1. 프롬프트 엔지니어링이란?- 생성형 AI 모델이 원하는 결과를 생성하도록 유도하는 명령어(프롬프트)를 설계하고, 최적화 하는 과정- 인간의 의도를 AI가 정확히 이해하고, 그에 맞는 출력을 생성할 수 있도록 돕는 역할 2. 주요 프롬프트 엔지니어링 기법- chain of Thought (CoT) 프롬프팅: 모델이 문제를 단계별로 해결하도록 유도하여, 복잡한 추론을 수행하게 하는 방식- ReAct: 모델이 추론과 행동을 번갈아 수행하며 복잡한 작업을 해결하도록 하는 방식- Self-Consistency Prompting(자기일관성 프롬프트 기법): 동일한 프롬프트를 여러 번 실행하여 다양한 응답을 생성하고, 그 중 가장 일관된 응답을 선택하는 방식 3. RAG- 외부 지식 소스에서 정보를 검색해, ..
1. 환경 차이로 생기는 오류를 방지하기 위해- 어떤 운영체제든 동일한 환경에서 실행됨- 예: 윈도우에서 잘 되던 코드가 리눅스 배포서버에서는 오류나는 경우- 어떻게? Docker는 컨테이너 안에 리눅스 기반 OS계층을 포함하고 있어서, 리눅스 환경을 가상화 한다.=> 어떤 OS를 사용하던, 컨테이너 안에선 동일한 리눅스 환경이 보장된다.- 그럼 windows에서 작성한 Docker 이미지가 리눅스 서버에서 100% 똑같이 동작할까?=> 대부분의 경우 동일하게 동작하지만, 만약 윈도우 전용 경로(/, \)나 한글 인코딩을 사용하는 경우 문제가 발생할 수 있다=> Docker에서는 가능한 리눅스 기반 이미지를 사용하고, 환경 독립적인 코드 작성이 중요하다 2. 배포가 편하다- 직접 서버에 적속해서 설치, ..
1. 미니포지란?- conda : 패키지/가상환경 관리도구(명령어) - anaconda: conda + python + 데이터 과학관련 수백개 패키지 포함 배포판 - miniconda: conda + python만 있는 최소한의 anaconda => 기본 채널은 defaults, 상업적으로 사용시 유료- miniforge: miniconda와 같은데, 기본 채널이 conda-forge, 상업 제한 없음- defaults: Anaconda,Inc의 상업 채널, conda install 로 패키지 설치시 해당 채널에서 가져옴- conda-forege : conda 패키지를 위한 커뮤니티 채널(공개적으로 빌드, 배포, 유지보수)* 파이썬 내장 가상환경 도구 venv는 DS/AI 패키지 설치시 문제가 많아 co..
1. requests란?- Python에서 HTTP 요청을 쉽게 보낼 수 있도록 도와주는 라이브러리- 웹 페이지에서 데이터를 가져오거나 API와 통신할 때 사용 2. API란?- 프로그램 간 데이터를 주고받을 수 있도록 규칙을 정해놓은 인터페이스 3. 인터페이스란?- 서로 다른 시스템, 소프트웨어, 또는 하드웨어가 소통할 수 있도록 규칙을 정해놓은 것 4. HTTP 요청이란?- 클라이언트(사용자)가 서버(웹사이트, API)에 데이터를 요청하는 방식- GET, POST, PUT(PETCH-기존 것을 수정), DELETE* 자바스크립트 fetch는 어디서 가져오는 것 5. 크롤링이란?- 웹사이트에서 자동으로 데이터를 수집하는 과정- requests 등 6. 스크래핑이란?- 크롤링한 데이터에서 필요한 정보만 ..
1. robots.txt 설정- robots.txt 파일을 통해 크롤러의 접근을 차단* robots.txt는 웹사이트 루트 디렉토리에 위치하는 텍스트파일, - 하지만 robots.txt는 강제성이 없고, 직접 만든 python 크롤러(requests 등)들은 무시할 수 있다.User-agent: *Disallow: /admin/Disallow: /private/Allow: /public/2. HTTP 헤더 및 User-Agent 차단- 웹 서버에서 특정 User-Agent(봇 식별자)를 감지하고 차단- 예를 들어, scrapy, selenium, python-urllib과 같은 크롤링 관련 User-Agent를 차단 if ($http_user_agent ~* (Scrapy|Selenium|Python-u..
1. 기존의 GPT의 한계1) 할루시네이션 - 잘못된 정보를 자신감 있게 제시2) 최신 정보 반영이 안됨 - 학습 데이터의 컷오프3) 도메인특화 - 고유 정보는 없음4) 지식의 불분명한 출처 2. RAG- 기존의 LLM 답변 생성하는 과정에 검색을 추가하여 답변에 참고할만한 정보를 제공 (문맥 제공) 1) Naive RAG: 검색-실행 [사전단계]- Indexing: PDF, Word, Markdown 등에서 텍스트 데이터를 추출- Chunking: 작은 단위로 분할- Embedding: vector로 인코딩- database: 임베딩된 vector를 저장 [실행단계]- Retrieve: database에서 질문에 답변하기 위한 정보 검색- Generation: 검색된 정보를 문맥(Context)에 추..
- Total
- Today
- Yesterday
- 아침
- 30분
- 미라클모닝
- 갓생
- 티스토리챌린지
- 다이어트
- 프로그래머스
- 고득점 Kit
- 습관
- IH
- 경제
- Python
- 빅데이터 분석기사
- Ai
- 오픽
- 기초
- opic
- 스크랩
- 영어회화
- 운동
- 루틴
- llm
- 아침운동
- 뉴스
- 실기
- 줄넘기
- C언어
- 오블완
- SQL
- ChatGPT
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |