태그: 배깅
이 태그가 포함된 글들입니다. (총 2개)
랜덤포레스트
랜덤포레스트 (Random Forest) #
랜덤포레스트(Random Forest)는 여러 개의 의사결정나무를 조합하여 예측 성능을 향상시키는 앙상블(Ensemble) 학습 기법이다. 배깅(Bagging)과 무작위 특성 선택을 결합하여 개별 의사결정나무의 단점을 보완하고, 더 안정적이고 정확한 예측을 제공한다.
랜덤포레스트 이름의 의미 #
“랜덤포레스트"라는 이름은 두 가지 핵심 개념에서 유래되었다:
-
포레스트(Forest, 숲): 여러 개의 의사결정나무(Decision Tree)들이 모여 하나의 “숲"을 이룬다는 의미이다. 하나의 나무가 아닌 많은 나무들이 함께 작동하여 더 강력한 예측력을 만들어낸다.
-
랜덤(Random, 무작위): 각 나무를 학습할 때 두 가지 무작위성을 도입한다:
앙상블 기법
앙상블 기법 (Ensemble Methods) #
앙상블 기법(Ensemble Methods)은 여러 개의 기본 학습 알고리즘(base learner)을 결합하여 단일 알고리즘보다 더 좋은 예측 성능을 달성하는 기계학습 방법론이다. “집단 지성"의 원리를 활용하여 개별 모델의 약점을 보완하고 전체적인 안정성과 정확도를 향상시킨다.
앙상블의 기본 원리 #
1. 편향-분산 트레이드오프 #
- 편향(Bias): 모델의 예측값과 실제값 간의 차이
- 분산(Variance): 다른 훈련 데이터에 대한 모델 예측의 변동성
- 노이즈(Noise): 데이터 자체의 불확실성
전체 오차:
$$\text{Error} = \text{Bias}^2 + \text{Variance} + \text{Noise}$$2. 앙상블의 효과 #
- 편향 감소: 부스팅 기법을 통해 달성
- 분산 감소: 배깅 기법을 통해 달성
- 과적합 방지: 여러 모델의 평균화 효과
앙상블의 종류 #
1. 동질적 앙상블 (Homogeneous Ensemble) #
같은 종류의 알고리즘을 여러 개 사용: