AI/빅데이터분석기사(통계)
[빅데이터 분석기사 실기] 9회 실기 시험 준비(시험 환경 확인)
brave_sol
2024. 11. 20. 13:18
1. 라이브러리 확인
- 제공된 라이브러리(63개)만 사용할 수 있으며, 시험 중 추가 설치 불가
- beautifulsoup4, selenium도 있었지만 requests가 없는거 보니 크롤링 문제는 안나올 것 같다.
# 데이터프레임, 연산 기본
pandas
numpy
# 시각화(EDA)
matplotlib
seaborn
# 통계, 모델링
scipy
statsmodels
scikit-learn
xgboost
lightgbm
- 이름/사용법이 생각 안날 때: help, dir
from sklearn import ensemble
# 모듈의 설명 출력(사용 예시 등)
help(ensemble)
# 모듈내 포함된 클래스/함수 탐색
print(dir(ensemble)) # RandomForestClassifier, GradientBoostingClassifier 등 나열
※ 참고
1. 라이브러리: 코드의 집합, (예: scikit-learn)
2. 모듈: 라이브러리 내부의 더 작은 기능 단위, (예: sklearn.ensemble)
3. 클래스: 모듈 내부에서 특정 작업을 수행하는 객체 정의, (예: RandomForestClassifier)
4. 메서드: 클래스 내부의 함수, (예: fit(), predict())
5. 파라미터: 클래스 내부, 클래스 인스턴스(모델)를 생성할때 설정 (예: max_depth)
6. 속성: 모델 학습 후 클래스 내부에 저장되는 값 (예: feature_importances_)
from sklearn.ensemble import RandomForestClassifier
# RandomForestClassifier 클래스 생성
model = RandomForestClassifier(n_estimators=100, random_state=42)
# 메서드 사용
model.fit(X_train, y_train) # 모델 학습
predictions = model.predict(X_test) # 예측
accuracy = model.score(X_test, y_test) # 평가
# 속성 접근
print("Feature Importances:", model.feature_importances_) # 속성 출력
2. 주의 사항
- 한줄씩 실행 불가
- 실행 시간이 1분 미만(초과시 실행 중단)
- 작성 중인 코드 주기적으로 저장 권장
- csv 파일 생성시 지시된 컬럼명, 파일명 생성(별도 디렉토리 지정 금지), 예측 결과 칼럼 1개만 생성(인덱스 제거)
import pandas as pd
y_pred = [0,1,0,0,0,1]
sub = pd.DataFrame({"pred":y_pred})
sub
sub.to_csv('result.csv',index=False)
df = pd.read_csv('result.csv')
df
반응형