Q. 엔트로피(Entropy)와 Information Gain에 대해 설명해주세요. 1. 엔트로피란?- 주로 의사결정 트리나, 데이터 분석 시 데이터셋이 얼마나 정돈되어있는지, 혼란스러운지 데이터의 불확실성을 측정할 때 사용- 데이터의 불확실성을 측정하는 척도- 엔트로피가 0 : 완전 확실 → 완벽하게 분류된 상태 (모델의 분류가 명확)- 엔트로피가 항상 낮은 상태를 목표로 하면 과적합의 문제가 발생할 수 있다.- 확률이 균등하게 분포된다 → 엔트로피가 높다 2. 정보이득이란?- 주로 의사결정 트리, 랜덤 포레스트에서 사용됨- 특정 속성을 기준으로 데이터를 분할 했을 때 엔트로피가 얼마나 감소했는지를 측정- 분할 후 분류가 명확할수록(엔트로피가 감소할 수록) 정보 이득이 크다- 의사결정 트리에서 분할 기..
1. 진행 순서- PDF를 참고해서 답변하는 chatbot을 만들고 싶은데, 답별할 때 해당 정보가 있는 page 번호를 알려줬으면 했다.- 원래 페이지 번호를 정상적으로 가져오는 경우도 있지만, 나의 경우에는 에러가 나서 따로 페이지번호를 추가해줬다.PDF 파일 로드 > 페이지 번호 추가(메타데이터) > 텍스트 분할 (문장) > 임베딩 > 벡터 데이터베이스 저장/로드 > 검색 쿼리 및 결과 출력 > 테스트 2. pdf 파일 로드와 페이지 번호 추가# 1. PDF 로드loader = PyPDFLoader("2021_Guidelines_Beer.pdf")documents = loader.load()# 2. 각 페이지에 페이지 번호 추가for i, doc in enumerate(documents): d..
1. BaseModel- 클라이언트가 보낸 데이터가 기대한 형식인지 검증할 때 (숫자대신 문자열이 들어왔을 때 에러 처리) 사용- 가독성을 높이고 유지보수를 쉽게 하기 위해서 사용- 데이터 변환(JSON ↔ python 객체)을 자동 처리한다.from pydantic import BaseModelclass Item(BaseModel): name: str price: float description: str | None = None # 선택적 필드item = Item(name="Apple", price=1.2)print(item.dict()) # {'name': 'Apple', 'price': 1.2, 'description': None} 2. Field- pydantic에서 제공하는..
프로그래머스 SQL 고득점 kit 10일차( GROUP BY 8문제) 1. 문자열과 숫자열"km"등의 단위를 표기하기 위해 concat을 쓸 경우, 문자열이 되기 때문에 해당 컬럼을 기준으로 정렬할 경우 문자열 순서로 정렬이 되므로 주의한다.SELECT ROUTE, CONCAT(ROUND(SUM(D_BETWEEN_DIST),1),"km") AS TOTAL_DISTANCE, CONCAT(ROUND(AVG(D_BETWEEN_DIST),2),"km") AS AVERAGE_DISTANCEFROM SUBWAY_DISTANCEGROUP BY ROUTEORDER BY ROUND(SUM(D_BETWEEN_DIST),1) DESC
- Total
- Today
- Yesterday
- 미라클모닝
- 경제
- Ai
- 프로그래머스
- 30분
- 다이어트
- 오픽
- 영어회화
- IH
- 오블완
- llm
- 빅데이터 분석기사
- C언어
- 스크랩
- 실기
- 고득점 Kit
- SQL
- 운동
- 루틴
- 아침
- Python
- 아침운동
- 기초
- 티스토리챌린지
- opic
- 뉴스
- 습관
- 줄넘기
- ChatGPT
- 갓생
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |