데이터 분석 프로젝트에서 가장 중요한 첫 단계는 바로 데이터 수집입니다. 좋은 데이터 없이는 어떤 분석도 유의미한 결과를 내기 어렵기 때문에, 이 과정은 매우 중요합니다. 데이터 수집 단계에서는 프로젝트 목표에 맞는 데이터를 찾아내고, 이를 올바르게 수집하는 것이 핵심입니다.이번 포스팅에서는 데이터 수집의 의미와 방법, 그리고 주의해야 할 점들에 대해 알아보겠습니다.1. 데이터 수집이란?데이터 수집은 분석에 필요한 데이터를 찾고, 이를 체계적으로 저장하는 과정입니다. 이 과정에서는 데이터의 출처가 중요하며, 신뢰할 수 있는 데이터를 수집하는 것이 분석 결과의 신뢰성에 큰 영향을 미칩니다.데이터 수집은 프로젝트의 목적에 따라 정형 데이터(숫자, 표 형태) 또는 비정형 데이터(텍스트, 이미지, 비디오 등)를..
1. 문제 정의 및 목표 설정목표 설정: 분석의 최종 목표를 정의하고 해결하려는 문제를 명확히 한다.가설 설정: 해결하고자 하는 질문을 바탕으로 가설을 세운다.2. 데이터 수집데이터 원천 탐색: 필요한 데이터를 어디서 얻을지 결정한다. (데이터베이스, API, 웹 크롤링 등)데이터 수집: 데이터를 수집하고 저장한다. (파일 형식: CSV, Excel, SQL 등)3. 데이터 전처리데이터 클렌징: 결측치, 이상치, 중복 데이터 등을 처리한다.데이터 변환: 데이터 형식 변환, 정규화, 범주형 변수 인코딩 등.특성 선택 및 추출: 모델링에 적합한 특징을 선택하고 필요시 새로운 특성을 추출한다.4. 데이터 탐색(EDA: Exploratory Data Analysis)기술 통계 분석: 데이터의 기초적인 분포, 중..
[1] 사분위수1. 정의데이터를 정렬하고 4개의 동일한 부분으로 나눈 값1) Q0: 최소값 (0% 지점) : 데이터셋의 최솟값2) Q1: 1사분위수 (하위 25% 지점) : Q1의 위치: (n+1)/43) Q2: 중앙값 또는 2사분위수 (50% 지점) - 데이터셋의 개수(n)가 홀수인 경우: (n+1)/2 위치의 값- 데이터셋의 개수(n)가 짝수인 경우: ( (n/2) + (n/2+1) ) / 2 위치의 값4) Q3: 3사분위수 (하위 75% 지점, 즉 상위 25%) : 3/4 * (n+1)5) Q4: 최대값 (100% 지점) : 데이터셋의 최댓값 2. 선형보간법- 보간(Interpolation): 두 개의 값 사이에 있는 위치에서 값을 추정하는 방법- 선형보간법 : 두 점 사이의 직선을 따라 중간값을 ..
1. 정의각 비트를 반전시키는 역할을 합니다. 즉, 0을 1로, 1을 0으로 바꾸는 연산 2. 계산방법예) ~51) 2진수로 변환 :5를 2진수로 변환하면 000001012) 비트반전 : 00000101 비트반전 → 111110103) 10진수로 변환: 11111010 비트반전+1 → 00000101 +1 = 00000111 →6이고, 1로 시작한 음수이므로 -6▶ 어차피 다시 반전해서 +1을하고, 마지막에 -부호를 달아주면 되기 때문에결과적으로는 (십진수+1) 후 부호반전을 해주면 된다. 3. 음수의 2진수 변환(2의 보수: two's complement )1) 양수의 이진수로 변환: 5를 8비트 이진수로 표현하면: 000001012) 00000101의 0과 1 반전: 111110103) 1을 더함..
학습내용예시[1] math 모듈 최대공약수 gcdimport math def solution(denum1, num1, denum2, num2): denum = denum1 * num2 + denum2 * num1 num = num1 * num2 gcd = math.gcd(denum, num) return [denum//gcd, num//gcd] print(solution(9,2,1,3)) # [29,6][2] dict의 value기준으로 내림차순color_dict = {'red':3, 'yellow':5, 'blue':1} color_sorted = sorted(color_dict.items(), key= lambda x: x[1], reverse = True) print(c..
[1] 예외처리 Exception Handling (1) 예외 Exception 1) 예상 가능한 예외- 발생 여부를 사전에 인지할 수 있는 예외- 사용자의 잘못된 입력, 파일 호출 시 파일 없음- 개발자가 반드시 명시적(if문, try~except문)으로 정의해야함 2) 예상 불가능한 예외- 인터프리터 과정에서 발생하는 예외, 개발자 실수- 리스트의 범위를 넘어가는 값 호출, 정수 0으로 나눔- 수행 불가시 인터프리터가 자동 호출 3) 예외 발생 시 후속조치- 없는 파일 호출 → 파일 없음을 알림- 게임 이상 종료 → 게임 정보 저장 (2) try ~ except 문법 : if문은 로직적인 문제, excpetion은 잘못된것(파일이 비었을때 등)을 처리할때 사용* try: 항상 실행되고, 예외를 ..
[1] 모듈과 패키지(1) 모듈 : 어떤 대상의 부분 혹은 조각(작은 프로그램 조각들)- 프로그램 모듈화 시키면 다른 프로그램을 이용하기 쉬움- 예시: API, Random(Built-in Module)- 파이썬의 모듈 == .py파일- 사용: 같은 폴더에 .py파일(모듈)저장 후 import문 사용해서 모듈을 호출, 사용은 모둘명.함수명(파라미터)같은 폴더 내파일1: fah_converter.py파일2: app.pydef convert_c_to_f(cel_value): return cel_value * 9.0 / 5 + 32test1 = "GGG" print(test1)if __name__ == '__main__': test2 = "HHHH" print(test2)import fah_conv..
[1] 클래스의 특징구분예시(1)상속 (Inheritance) 부모클래스로 부터 속성과 Method를 물려받은 자식 클래스를 생성하는 것class Person(object): # 초기 상속은 object가 기준임 def __init__(self, name, age, gender): self.name = name self.age = age self.gender = gender class Korean(Person): def __init__(self, name, age, gender, salary, hire_date): # 속성 지정 안해도 부모클래스 Person로부터 상속받아 속성, 함수 사용 가능 super().__init__(name, age, gender) # sup..
- Total
- Today
- Yesterday
- 뉴스
- 프로그래머스
- 오픽
- 아침
- 고득점 Kit
- 다이어트
- 영어회화
- IH
- Python
- 실기
- C언어
- 오블완
- 스크랩
- llm
- 운동
- 습관
- 줄넘기
- 30분
- ChatGPT
- 미라클모닝
- Ai
- 티스토리챌린지
- 빅데이터 분석기사
- SQL
- 루틴
- 갓생
- 아침운동
- 경제
- opic
- 기초
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |