그래디언트 부스팅

그래디언트 부스팅 (Gradient Boosting) #

그래디언트 부스팅(Gradient Boosting)은 약한 학습기들을 순차적으로 학습시켜 강한 학습기를 만드는 앙상블 기법이다. 각 단계에서 이전 모델들의 오차를 줄이는 방향으로 새로운 모델을 학습하며, 손실 함수의 기울기(gradient)를 이용해 최적화를 수행한다. 현재 캐글을 비롯한 많은 데이터 과학 경진대회에서 가장 널리 사용되는 알고리즘 중 하나이다.

그래디언트 부스팅의 기본 원리 #

1. 순차적 학습 #

각 모델이 이전 모델들의 잔차(residual)를 학습
매 단계마다 예측 성능이 점진적으로 향상
편향(bias)을 효과적으로 감소시킴

2. 기울기 기반 최적화 #

손실 함수 L(y, F(x))에 대해 기울기를 계산하고, 이 기울기를 새로운 모델의 타겟으로 사용:

$$r_{im} = -\left[\frac{\partial L(y_i, F(x_i))}{\partial F(x_i)}\right]_{F=F_{m-1}}$$

그래디언트 부스팅 알고리즘 #

1. 기본 알고리즘 #

초기화: $F_0(x) = \arg\min_\gamma \sum_{i=1}^{n} L(y_i, \gamma)$
반복 (m = 1 to M):
- 기울기 계산: $r_{im} = -\frac{\partial L(y_i, F_{m-1}(x_i))}{\partial F_{m-1}(x_i)}$
- 기울기에 대해 약한 학습기 훈련: $h_m(x)$
- 최적 스텝 크기 계산: $\gamma_m = \arg\min_\gamma \sum_{i=1}^{n} L(y_i, F_{m-1}(x_i) + \gamma h_m(x_i))$
- 모델 업데이트: $F_m(x) = F_{m-1}(x) + \gamma_m h_m(x)$
최종 모델: $F_M(x) = \sum_{m=0}^{M} \gamma_m h_m(x)$

2. 정규화된 그래디언트 부스팅 #

과적합을 방지하기 위해 학습률 ν를 도입:

$$F_m(x) = F_{m-1}(x) + \nu \gamma_m h_m(x)$$

여기서 0 < ν ≤ 1이며, 작은 값일수록 더 많은 단계가 필요하지만 일반화 성능이 향상된다.

주요 구현체 #

1. XGBoost (Extreme Gradient Boosting) #

특징:

2차 테일러 근사: 손실 함수를 2차까지 근사하여 더 정확한 최적화
정규화: L1, L2 정규화를 목적 함수에 직접 포함
병렬 처리: 트리 구축 과정의 병렬화
결측값 처리: 자동으로 결측값을 처리하는 메커니즘

목적 함수:

$$\text{Obj}^{(t)} = \sum_{i=1}^{n} l(y_i, \hat{y}_i^{(t-1)} + f_t(x_i)) + \Omega(f_t)$$

여기서 $\Omega(f_t) = \gamma T + \frac{1}{2}\lambda ||\omega||^2$는 정규화 항이다.

2. LightGBM (Light Gradient Boosting Machine) #

특징:

리프 우선 트리 성장: 레벨 우선 대신 리프 우선으로 트리 구축
그래디언트 기반 원사이드 샘플링(GOSS): 기울기가 큰 샘플에 집중
독점적 특성 묶음(EFB): 상호 배타적 특성들을 묶어 메모리 절약
카테고리 특성 최적화: 범주형 변수의 효율적 처리

3. CatBoost (Categorical Boosting) #

특징:

순서형 부스팅: 타겟 리키지를 방지하는 순서형 부스팅
카테고리 특성 처리: 범주형 변수의 자동 인코딩
대칭 트리: 균형 잡힌 트리 구조 강제
과적합 탐지: 자동 조기 종료 메커니즘

4. HistGradientBoosting (Scikit-learn) #

특징:

히스토그램 기반: 특성값을 히스토그램으로 변환하여 속도 향상
그래디언트 클리핑: 이상치의 영향을 줄이는 기울기 클리핑
결측값 지원: 네이티브 결측값 처리

하이퍼파라미터 튜닝 #

1. 핵심 매개변수 #

n_estimators (부스팅 단계 수):

너무 적으면: 과소적합
너무 많으면: 과적합, 훈련 시간 증가
일반적 범위: 100-10000

learning_rate (학습률):

작은 값: 더 많은 트리 필요, 더 나은 일반화
큰 값: 빠른 수렴, 과적합 위험
일반적 범위: 0.01-0.3

max_depth (트리 최대 깊이):

얕은 트리: 과소적합 위험
깊은 트리: 과적합 위험
일반적 범위: 3-10

2. 정규화 매개변수 #

subsample (서브샘플링 비율):

각 트리 훈련시 사용할 샘플 비율
과적합 방지와 훈련 속도 향상
일반적 범위: 0.8-1.0

colsample_bytree (특성 샘플링):

각 트리에서 사용할 특성 비율
랜덤성 증가로 과적합 방지
일반적 범위: 0.8-1.0

손실 함수별 그래디언트 #

1. 회귀 문제 #

평균 제곱 오차 (MSE):

$$L(y, F) = \frac{1}{2}(y - F)^2$$

$$r = y - F$$

평균 절대 오차 (MAE):

$$L(y, F) = |y - F|$$

$$r = \text{sign}(y - F)$$

2. 분류 문제 #

로그 손실 (이진 분류):

$$L(y, F) = \log(1 + \exp(-2yF))$$

$$r = \frac{2y}{1 + \exp(2yF)}$$

교차 엔트로피 (다중 클래스):

$$L(y, F) = -\sum_{k=1}^{K} y_k \log(p_k)$$

성능 최적화 기법 #

1. 조기 종료 (Early Stopping) #

검증 세트의 성능이 개선되지 않으면 훈련을 중단:

과적합 방지
훈련 시간 단축
최적 반복 횟수 자동 결정

2. 교차 검증 #

KFold: 일반적인 교차 검증
StratifiedKFold: 클래스 분포를 유지하는 교차 검증
TimeSeriesSplit: 시계열 데이터용 교차 검증

3. 특성 중요도 #

각 특성이 분할에 기여하는 정도를 측정:

분할 기반: 특성이 사용된 분할 횟수
이득 기반: 특성으로 인한 손실 감소량
순열 중요도: 특성을 섞었을 때 성능 변화

실제 적용 사례 #

1. 테이블형 데이터 경진대회 #

캐글, DrivenData 등에서 압도적 성능
정형 데이터에서 딥러닝보다 우수한 경우가 많음
특성 공학과 결합시 강력한 성능

2. 금융 분야 #

신용 평가: 대출 승인/거부 예측
사기 탐지: 이상 거래 탐지
알고리즘 트레이딩: 주가 예측

3. 마케팅 #

고객 생애 가치: CLV 예측
추천 시스템: 순위 학습
A/B 테스트: 효과 측정

4. 제조업 #

품질 관리: 불량품 예측
예측 정비: 장비 고장 예측
공급망 최적화: 수요 예측

장점과 단점 #

장점 #

높은 예측 성능: 테이블형 데이터에서 최고 수준
특성 중요도: 해석 가능한 특성 중요도 제공
결측값 처리: 자동 결측값 처리 (일부 구현체)
다양한 목적 함수: 회귀, 분류, 순위 등 다양한 문제 지원
정규화: 과적합 방지 메커니즘 내장

단점 #

순차적 학습: 병렬화에 제한적
하이퍼파라미터 민감성: 많은 튜닝 필요
과적합 위험: 잘못 조정시 과적합 쉬움
해석의 어려움: 개별 예측에 대한 해석 어려움
계산 복잡성: 대용량 데이터에서 훈련 시간 오래 걸림

최적화 전략 #

1. 베이지안 최적화 #

Optuna: 효율적인 하이퍼파라미터 탐색
Hyperopt: TPE 알고리즘 기반 최적화
Scikit-Optimize: 가우시안 프로세스 기반

2. 다중 목적 최적화 #

성능과 훈련 시간의 트레이드오프
모델 크기와 정확도의 균형
해석 가능성과 성능의 조화

3. 앙상블 전략 #

다중 시드: 다른 랜덤 시드로 여러 모델 훈련
다중 폴드: 교차 검증의 각 폴드별 모델 결합
다중 구현체: XGBoost, LightGBM, CatBoost 결합