데이터 분석에서 **특성 선택(Feature Selection)**과 **특성 엔지니어링(Feature Engineering)**은 모델의 성능을 향상시키고, 예측력을 높이는 데 필수적인 단계입니다. 이 과정은 데이터를 단순히 입력하는 것이 아니라, 데이터를 최적화된 형태로 변환하여 모델이 더 정확하고 효율적으로 학습할 수 있도록 돕는 역할을 합니다.이번 포스팅에서는 특성 선택과 특성 엔지니어링이 무엇인지, 그리고 어떻게 수행하는지에 대해 알아보겠습니다.1. 특성 선택(Feature Selection)이란?**특성 선택(Feature Selection)**은 모델 학습에 꼭 필요한 **중요한 특성(변수)**만 남기고, 불필요한 특성은 제거하는 과정입니다. 머신러닝 모델은 많은 특성에 노출될 때 과적합(o..
데이터 분석 프로젝트에서 성공적인 결과를 얻기 위해서는 올바른 **데이터 탐색(Exploratory Data Analysis, EDA)**과 전처리가 필수적입니다. 이 단계는 데이터를 이해하고, 모델링을 위한 준비 작업을 하는 핵심 과정입니다. 이번 포스팅에서는 데이터를 탐색하고 시각화하는 방법, 그리고 데이터 전처리 과정에 대해 알아보겠습니다.1. 데이터 탐색(EDA)의 중요성**데이터 탐색(Exploratory Data Analysis, EDA)**는 수집된 데이터를 분석하기 전에 기본적인 통계 정보를 파악하고, 데이터의 분포와 관계를 탐구하는 과정입니다. 이를 통해 데이터를 더 깊이 이해하고, 분석에 필요한 인사이트를 도출할 수 있습니다.1.1 데이터 구조 이해데이터 탐색의 첫 단계는 데이터의 구조..
데이터 분석 프로젝트에서 가장 중요한 첫 단계는 바로 데이터 수집입니다. 좋은 데이터 없이는 어떤 분석도 유의미한 결과를 내기 어렵기 때문에, 이 과정은 매우 중요합니다. 데이터 수집 단계에서는 프로젝트 목표에 맞는 데이터를 찾아내고, 이를 올바르게 수집하는 것이 핵심입니다.이번 포스팅에서는 데이터 수집의 의미와 방법, 그리고 주의해야 할 점들에 대해 알아보겠습니다.1. 데이터 수집이란?데이터 수집은 분석에 필요한 데이터를 찾고, 이를 체계적으로 저장하는 과정입니다. 이 과정에서는 데이터의 출처가 중요하며, 신뢰할 수 있는 데이터를 수집하는 것이 분석 결과의 신뢰성에 큰 영향을 미칩니다.데이터 수집은 프로젝트의 목적에 따라 정형 데이터(숫자, 표 형태) 또는 비정형 데이터(텍스트, 이미지, 비디오 등)를..
1. 문제 정의 및 목표 설정목표 설정: 분석의 최종 목표를 정의하고 해결하려는 문제를 명확히 한다.가설 설정: 해결하고자 하는 질문을 바탕으로 가설을 세운다.2. 데이터 수집데이터 원천 탐색: 필요한 데이터를 어디서 얻을지 결정한다. (데이터베이스, API, 웹 크롤링 등)데이터 수집: 데이터를 수집하고 저장한다. (파일 형식: CSV, Excel, SQL 등)3. 데이터 전처리데이터 클렌징: 결측치, 이상치, 중복 데이터 등을 처리한다.데이터 변환: 데이터 형식 변환, 정규화, 범주형 변수 인코딩 등.특성 선택 및 추출: 모델링에 적합한 특징을 선택하고 필요시 새로운 특성을 추출한다.4. 데이터 탐색(EDA: Exploratory Data Analysis)기술 통계 분석: 데이터의 기초적인 분포, 중..

* 불균형 데이터 캐글 연습https://www.kaggle.com/code/dogdriip/iqr-outlier-smote-oversampling IQR을 이용한 Outlier 탐지 + SMOTE OversamplingExplore and run machine learning code with Kaggle Notebooks | Using data from Credit Card Fraud Detectionwww.kaggle.com 1. np.log1p 1.1 로그: 큰 수를 계산하기 편하게 작은 수로 표현하기 위해 생김 1.2 지수: 로그를 역산하여 원래 값을 찾기 위해 생김 1.3 자연상수(e): (1+1/x)^x가 x가 무한대로 갈때 그 값이 무리수로 수렴하고, 이 무리수를 표현하기 위해 e기호..
[1] 사분위수1. 정의데이터를 정렬하고 4개의 동일한 부분으로 나눈 값1) Q0: 최소값 (0% 지점) : 데이터셋의 최솟값2) Q1: 1사분위수 (하위 25% 지점) : Q1의 위치: (n+1)/43) Q2: 중앙값 또는 2사분위수 (50% 지점) - 데이터셋의 개수(n)가 홀수인 경우: (n+1)/2 위치의 값- 데이터셋의 개수(n)가 짝수인 경우: ( (n/2) + (n/2+1) ) / 2 위치의 값4) Q3: 3사분위수 (하위 75% 지점, 즉 상위 25%) : 3/4 * (n+1)5) Q4: 최대값 (100% 지점) : 데이터셋의 최댓값 2. 선형보간법- 보간(Interpolation): 두 개의 값 사이에 있는 위치에서 값을 추정하는 방법- 선형보간법 : 두 점 사이의 직선을 따라 중간값을 ..
1. 정의각 비트를 반전시키는 역할을 합니다. 즉, 0을 1로, 1을 0으로 바꾸는 연산 2. 계산방법예) ~51) 2진수로 변환 :5를 2진수로 변환하면 000001012) 비트반전 : 00000101 비트반전 → 111110103) 10진수로 변환: 11111010 비트반전+1 → 00000101 +1 = 00000111 →6이고, 1로 시작한 음수이므로 -6▶ 어차피 다시 반전해서 +1을하고, 마지막에 -부호를 달아주면 되기 때문에결과적으로는 (십진수+1) 후 부호반전을 해주면 된다. 3. 음수의 2진수 변환(2의 보수: two's complement )1) 양수의 이진수로 변환: 5를 8비트 이진수로 표현하면: 000001012) 00000101의 0과 1 반전: 111110103) 1을 더함..

학습내용예시[1] math 모듈 최대공약수 gcdimport math def solution(denum1, num1, denum2, num2): denum = denum1 * num2 + denum2 * num1 num = num1 * num2 gcd = math.gcd(denum, num) return [denum//gcd, num//gcd] print(solution(9,2,1,3)) # [29,6][2] dict의 value기준으로 내림차순color_dict = {'red':3, 'yellow':5, 'blue':1} color_sorted = sorted(color_dict.items(), key= lambda x: x[1], reverse = True) print(c..
- Total
- Today
- Yesterday
- IH
- 경제
- C언어
- 오픽
- 아침운동
- 다이어트
- 실기
- 줄넘기
- llm
- 티스토리챌린지
- 영어회화
- 습관
- 30분
- 갓생
- Python
- 스크랩
- 기초
- 루틴
- 빅데이터 분석기사
- 뉴스
- ChatGPT
- 프로그래머스
- Ai
- 미라클모닝
- SQL
- 운동
- 고득점 Kit
- 오블완
- opic
- 아침
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 | 31 |