Ward 연결법 (Ward Linkage) #
Ward 연결법은 계층적 클러스터링에서 사용되는 연결 기준(linkage criterion) 중 하나로, 클러스터 내 분산의 증가를 최소화하는 방향으로 클러스터를 병합하는 방법이다. 이 방법은 비교적 균등한 크기의 구형 클러스터를 생성하는 경향이 있다.
주요 개념 #
- 클러스터 내 제곱합 (Within-cluster Sum of Squares, WSS): 각 클러스터 내 데이터 포인트들과 클러스터 중심 간의 거리 제곱합이다.
- Ward 거리: 두 클러스터를 병합했을 때 증가하는 WSS의 양을 의미한다.
- 분산 최소화: 병합 시 전체 분산의 증가량을 최소화하는 것을 목표로 한다.
알고리즘 특징 #
- 각 단계에서 클러스터 내 분산의 증가를 최소화하는 두 클러스터를 병합한다.
- 덴드로그램(dendrogram)을 생성하여 계층적 구조를 시각화할 수 있다.
- 비교적 균등한 크기의 클러스터를 형성하는 경향이 있다.
- 구형에 가까운 클러스터에 가장 적합하다.
계산 방법 #
두 클러스터 A와 B를 병합할 때의 Ward 거리는 다음과 같이 계산된다:
$$\Delta(A,B) = \frac{|A| \cdot |B|}{|A| + |B|} \|\mu_A - \mu_B\|^2$$여기서:
- |A|, |B|는 각각 클러스터 A, B의 크기
- μA, μB는 각각 클러스터 A, B의 중심
장점과 단점 #
-
장점
- 구형 클러스터에 매우 효과적이다.
- 비교적 균등한 크기의 클러스터를 생성한다.
- 이론적 기반이 탄탄하다.
- 덴드로그램을 통한 시각적 해석이 용이하다.
-
단점
- 구형이 아닌 클러스터에는 적합하지 않다.
- 계산 복잡도가 높아 대용량 데이터에 부적합하다.
- 이상치에 민감할 수 있다.
Ward 연결법은 계층적 클러스터링에서 가장 널리 사용되는 방법 중 하나로, 특히 균등한 크기의 구형 클러스터를 찾고자 할 때 매우 효과적이다.