[빅데이터 분석기사 실기] 9회 실기 시험 준비(시험 환경 확인)

brave_sol 2024. 11. 20. 13:18

1. 라이브러리 확인

- 제공된 라이브러리(63개)만 사용할 수 있으며, 시험 중 추가 설치 불가

- beautifulsoup4, selenium도 있었지만 requests가 없는거 보니 크롤링 문제는 안나올 것 같다.

# 데이터프레임, 연산 기본
pandas
numpy

# 시각화(EDA)
matplotlib
seaborn

# 통계, 모델링
scipy
statsmodels
scikit-learn
xgboost
lightgbm

- 이름/사용법이 생각 안날 때: help, dir

from sklearn import ensemble

# 모듈의 설명 출력(사용 예시 등)
help(ensemble)


# 모듈내 포함된 클래스/함수 탐색
print(dir(ensemble))  # RandomForestClassifier, GradientBoostingClassifier 등 나열

※ 참고

1. 라이브러리: 코드의 집합, (예: scikit-learn)

2. 모듈: 라이브러리 내부의 더 작은 기능 단위, (예: sklearn.ensemble)

3. 클래스: 모듈 내부에서 특정 작업을 수행하는 객체 정의, (예: RandomForestClassifier)

4. 메서드: 클래스 내부의 함수, (예: fit(), predict())

5. 파라미터: 클래스 내부, 클래스 인스턴스(모델)를 생성할때 설정 (예: max_depth)

6. 속성: 모델 학습 후 클래스 내부에 저장되는 값 (예: feature_importances_)

from sklearn.ensemble import RandomForestClassifier

# RandomForestClassifier 클래스 생성
model = RandomForestClassifier(n_estimators=100, random_state=42)

# 메서드 사용
model.fit(X_train, y_train)  # 모델 학습
predictions = model.predict(X_test)  # 예측
accuracy = model.score(X_test, y_test)  # 평가

# 속성 접근
print("Feature Importances:", model.feature_importances_)  # 속성 출력

2. 주의 사항

- 한줄씩 실행 불가

- 실행 시간이 1분 미만(초과시 실행 중단)

- 작성 중인 코드 주기적으로 저장 권장

- csv 파일 생성시 지시된 컬럼명, 파일명 생성(별도 디렉토리 지정 금지), 예측 결과 칼럼 1개만 생성(인덱스 제거)

import pandas as pd

y_pred  = [0,1,0,0,0,1]
sub = pd.DataFrame({"pred":y_pred})
sub
sub.to_csv('result.csv',index=False)

df = pd.read_csv('result.csv')
df