의사결정나무

의사결정나무 (Decision Tree) #

의사결정나무(Decision Tree)는 데이터의 특성을 기준으로 트리 구조를 만들어 분류나 회귀를 수행하는 지도학습 알고리즘이다. 트리의 각 노드에서 특정 조건을 만족하는지에 따라 데이터를 분할하며, 최종적으로 잎 노드(leaf node)에서 예측값을 결정한다.

한국어로 번역하면 조금 어색해서 실무에서는 “디씨션트리”라고 그냥 읽는다.

의사결정나무는 사람의 의사결정 과정과 유사한 방식으로 작동한다. 예를 들어, “날씨가 맑은가?”, “온도가 25도 이상인가?“와 같은 질문들을 순차적으로 하면서 최종 결정에 도달하는 과정과 같다.

트리는 다음과 같은 구성 요소로 이루어진다:

의사결정나무에서 가장 중요한 것은 어떤 특성을 기준으로 데이터를 분할할지 결정하는 것이다. 주요 분할 기준은 다음과 같다:

지니 불순도는 노드의 불순도를 측정하는 지표로, 값이 낮을수록 순수한 노드를 의미한다.

$$\text{Gini}(t) = 1 - \sum_{i=1}^{c} p_i^2$$

여기서 $p_i$는 노드 t에서 클래스 i의 비율이고, c는 클래스의 개수이다.

엔트로피는 정보 이론에서 나온 개념으로, 노드의 무질서 정도를 측정한다.

$$\text{Entropy}(t) = -\sum_{i=1}^{c} p_i \log_2(p_i)$$

정보 이득은 분할 전후의 엔트로피 감소량을 나타낸다.

$$\text{Information Gain} = \text{Entropy}(\text{parent}) - \sum_{j} \frac{N_j}{N} \text{Entropy}(\text{child}_j)$$

과적합을 방지하기 위해 트리의 크기를 줄이는 과정이다.

트리를 만들면서 미리 성장을 제한하는 방법:

완전한 트리를 만든 후 불필요한 가지를 제거하는 방법:

범주형 목표 변수를 예측하는 트리로, 지니 불순도나 엔트로피를 분할 기준으로 사용한다.

연속형 목표 변수를 예측하는 트리로, 평균 제곱 오차(MSE)를 분할 기준으로 사용한다.

의사결정나무는 다양한 분야에서 활용된다:

의사결정나무는 단독으로 사용되기보다는 앙상블 방법의 기본 모델로 많이 활용된다:

의사결정나무의 성능은 다음과 같은 지표로 평가할 수 있다:

의사결정나무는 해석 가능성과 사용 편의성 때문에 데이터 분석의 첫 번째 선택지로 자주 사용된다. 특히 비즈니스 환경에서 의사결정 과정을 설명해야 하는 경우에 매우 유용한 알고리즘이다.