1. 언어모델(Large Model)이란?1) 확률/통계적 방법 (n-gram)- 예시: 나는 오늘 점심에 뒤에 "피자를 먹었다" 가 나왔다는 것 => 과거에 "점심에" 뒤에 "피자"가 많이 나왔기 때문- 1-gram(유니그램): 전체 문장을 한 단어씩 나누는 것 => "The / cat / sat / on / the / mat"- 2-gram(바이그램): 전체 문장을 두 단어씩 나누는 것 => "The cat / cat sat / sat on / on the / the mat"- 3-gram(트라이그램): 전체 문장을 세 단어씩 나누는 것 =>"The cat sat / cat sat on / sat on the / on the mat"- 한계: 가능한 모든 n-gram을 DB에 저장하고 있어야 하고, ..
1. API란? - API는 Application Programming Interface의 약자로, 응용 프로그램 인터페이스입니다.- 서로 다른 소프트웨어나 프로그램이 서로 통신하고 데이터를 주고 받을 수 있도록 돕는 중간 다리 역할을 합니다.- API를 통해 직접 코드를 작성하지 않고도 필요한 기능을 다른 프로그램으로부터 가져와 사용할 수 있습니다. 2. Open API란?- 누구나 접근할 수 있도록 공개된 API를 말합니다.- 예시: 구글 맵스 API를 사용해 특정 위치 정보를 쉽게 가져와 앱에 연동- API 키를 발급받아 접근 권한을 얻고, 문서와 가이드를 통해 개발 방법을 지원 받습니다.- 새로운 앱이나 서비스가 기존 플랫폼의 기능을 더 쉽게 활용하도록 하여 빠른 서비스 확장과 혁신을 가능하게 합..
머신러닝에서 **이상치(Outlier)**는 데이터의 일반적인 패턴에서 크게 벗어난 값을 의미해요. 이상치는 모델 성능에 부정적인 영향을 줄 수 있기 때문에, 이를 적절히 처리하는 것은 중요한 단계입니다. 이 포스팅에서는 이상치의 정의와, 머신러닝 모델에서 이상치를 다루는 방법에 대해 설명하겠습니다.1. 이상치란 무엇인가?이상치는 데이터의 일반적인 분포에서 벗어난 값을 의미합니다. 이상치는 여러 가지 이유로 발생할 수 있습니다:데이터 입력 오류: 잘못된 값이 입력되었거나 측정 오류로 인해 발생.비정상적인 상황: 실제로 드물게 발생하는 극단적인 경우를 나타냄.특정 이벤트나 패턴: 외부 요인에 의해 데이터가 비정상적으로 변동하는 경우.이상치는 데이터 분석과 머신러닝 모델링에 부정적인 영향을 줄 수 있기 때문..
데이터 분석에서 **특성 선택(Feature Selection)**과 **특성 엔지니어링(Feature Engineering)**은 모델의 성능을 향상시키고, 예측력을 높이는 데 필수적인 단계입니다. 이 과정은 데이터를 단순히 입력하는 것이 아니라, 데이터를 최적화된 형태로 변환하여 모델이 더 정확하고 효율적으로 학습할 수 있도록 돕는 역할을 합니다.이번 포스팅에서는 특성 선택과 특성 엔지니어링이 무엇인지, 그리고 어떻게 수행하는지에 대해 알아보겠습니다.1. 특성 선택(Feature Selection)이란?**특성 선택(Feature Selection)**은 모델 학습에 꼭 필요한 **중요한 특성(변수)**만 남기고, 불필요한 특성은 제거하는 과정입니다. 머신러닝 모델은 많은 특성에 노출될 때 과적합(o..
데이터 분석 프로젝트에서 성공적인 결과를 얻기 위해서는 올바른 **데이터 탐색(Exploratory Data Analysis, EDA)**과 전처리가 필수적입니다. 이 단계는 데이터를 이해하고, 모델링을 위한 준비 작업을 하는 핵심 과정입니다. 이번 포스팅에서는 데이터를 탐색하고 시각화하는 방법, 그리고 데이터 전처리 과정에 대해 알아보겠습니다.1. 데이터 탐색(EDA)의 중요성**데이터 탐색(Exploratory Data Analysis, EDA)**는 수집된 데이터를 분석하기 전에 기본적인 통계 정보를 파악하고, 데이터의 분포와 관계를 탐구하는 과정입니다. 이를 통해 데이터를 더 깊이 이해하고, 분석에 필요한 인사이트를 도출할 수 있습니다.1.1 데이터 구조 이해데이터 탐색의 첫 단계는 데이터의 구조..
데이터 분석 프로젝트에서 가장 중요한 첫 단계는 바로 데이터 수집입니다. 좋은 데이터 없이는 어떤 분석도 유의미한 결과를 내기 어렵기 때문에, 이 과정은 매우 중요합니다. 데이터 수집 단계에서는 프로젝트 목표에 맞는 데이터를 찾아내고, 이를 올바르게 수집하는 것이 핵심입니다.이번 포스팅에서는 데이터 수집의 의미와 방법, 그리고 주의해야 할 점들에 대해 알아보겠습니다.1. 데이터 수집이란?데이터 수집은 분석에 필요한 데이터를 찾고, 이를 체계적으로 저장하는 과정입니다. 이 과정에서는 데이터의 출처가 중요하며, 신뢰할 수 있는 데이터를 수집하는 것이 분석 결과의 신뢰성에 큰 영향을 미칩니다.데이터 수집은 프로젝트의 목적에 따라 정형 데이터(숫자, 표 형태) 또는 비정형 데이터(텍스트, 이미지, 비디오 등)를..
1. 문제 정의 및 목표 설정목표 설정: 분석의 최종 목표를 정의하고 해결하려는 문제를 명확히 한다.가설 설정: 해결하고자 하는 질문을 바탕으로 가설을 세운다.2. 데이터 수집데이터 원천 탐색: 필요한 데이터를 어디서 얻을지 결정한다. (데이터베이스, API, 웹 크롤링 등)데이터 수집: 데이터를 수집하고 저장한다. (파일 형식: CSV, Excel, SQL 등)3. 데이터 전처리데이터 클렌징: 결측치, 이상치, 중복 데이터 등을 처리한다.데이터 변환: 데이터 형식 변환, 정규화, 범주형 변수 인코딩 등.특성 선택 및 추출: 모델링에 적합한 특징을 선택하고 필요시 새로운 특성을 추출한다.4. 데이터 탐색(EDA: Exploratory Data Analysis)기술 통계 분석: 데이터의 기초적인 분포, 중..
* 불균형 데이터 캐글 연습https://www.kaggle.com/code/dogdriip/iqr-outlier-smote-oversampling IQR을 이용한 Outlier 탐지 + SMOTE OversamplingExplore and run machine learning code with Kaggle Notebooks | Using data from Credit Card Fraud Detectionwww.kaggle.com 1. np.log1p 1.1 로그: 큰 수를 계산하기 편하게 작은 수로 표현하기 위해 생김 1.2 지수: 로그를 역산하여 원래 값을 찾기 위해 생김 1.3 자연상수(e): (1+1/x)^x가 x가 무한대로 갈때 그 값이 무리수로 수렴하고, 이 무리수를 표현하기 위해 e기호..
- Total
- Today
- Yesterday
- Ai
- 운동
- 아침운동
- llm
- Python
- 아침
- 고득점 Kit
- 티스토리챌린지
- ChatGPT
- 뉴스
- 루틴
- 미라클모닝
- IH
- SQL
- 경제
- 스크랩
- 영어회화
- 프로그래머스
- C언어
- 줄넘기
- 30분
- opic
- 다이어트
- 오블완
- 실기
- 빅데이터 분석기사
- 갓생
- 기초
- 습관
- 오픽
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |