[데이터분석] 트리 모델, 배깅과 부스팅

AI/데이터분석

brave_sol 2024. 12. 1. 23:14

1. 트리 기반 모델

* 배깅(Bagging = Bootstrap(부트스트랩) + Aggregating(결합))

** Out-of-Bag 데이터(OOB): 복원 추출로 인해 일부 데이터는 특정 트리의 학습에 포함되지 않아(약 37%) 이를 활용해 성능을 평가할 수 있다.

*** Gradient : -잔차 = -(실제값 - 예측값)

2. 의사결정나무

- 데이터를 조건에 따라 반복적으로 분할하여 그룹 내 데이터가 최대한 비슷하게 되도록 나눈다.

1) 예측나무 모델 (Regressor): 분류된 관측값들의 평균값으로 예측

2) 분류나무 모델(Classifier): 분류된 관측값들의 비율 중 가장 큰 값(다수결)으로 예측

- 분할과정

1) 각 피처에 대해 여러 임계값으로 데이터를 나누는 시도를 한다.

2) 각 분할에 대해 지니지수, 엔트로피, 정보 이득 등의 값을 계산한다.

3) 불순도를 가장 많이 줄이는(정보 이득이 가장 큰) 분할 기준을 선택

4) 해당 관정을 반복한다.

- 분할기준

예측나무(회귀문제)		분류나무(분류문제)
n: 데이터수 y: 실제값, y_bar: 그룹의 평균값, y_hat: 예측값		p: 클래스i에 속할 확률, c: 클래스의 개수
분산	RSS	지니지수	엔트로피	정보이득
				부모그룹 엔트로피 - 자식그룹 엔트로피
분할 후 각 그룹의 분산을 최소화	그룹 내 예측값과 실제값의 차이 최소화	그룹의 불순도 측정	그룹의 불확실성 측정	분할전후 엔트로피 감소를 계산
값이 작을수록 잘 설명	값이 작을수록 잘 설명	값이 작을수록 순수	값이 작을수록 순수	값이 클수록 잘 설명