스펙트럴 클러스터링 (Spectral Clustering) #
스펙트럴 클러스터링은 그래프 이론과 선형 대수학을 기반으로 하는 클러스터링 알고리즘이다. 데이터를 그래프로 표현하고, 그래프의 라플라시안 행렬의 고유벡터(eigenvector)를 사용하여 클러스터를 형성한다.
주요 개념 #
- 유사도 그래프: 데이터 포인트들을 노드로, 유사도를 엣지로 표현한 그래프이다.
- 라플라시안 행렬: 그래프의 구조적 특성을 나타내는 행렬이다.
- 고유벡터: 라플라시안 행렬의 고유벡터를 사용하여 차원을 축소한 후 클러스터링을 수행한다.
알고리즘 단계 #
- 데이터 포인트 간의 유사도를 계산하여 유사도 행렬을 구성한다.
- 유사도 행렬로부터 라플라시안 행렬을 계산한다.
- 라플라시안 행렬의 고유벡터를 구한다.
- 가장 작은 k개의 고유값에 해당하는 고유벡터로 새로운 특성 공간을 구성한다.
- 새로운 특성 공간에서 K-means 등의 클러스터링을 수행한다.
장점과 단점 #
-
장점
- 복잡한 형태의 클러스터를 효과적으로 찾을 수 있다.
- 비선형 클러스터 구조를 잘 처리한다.
- 이론적 기반이 탄탄하다.
-
단점
- 계산 비용이 높다.
- 매개변수 조정이 복잡할 수 있다.
- 대용량 데이터에 적용하기 어렵다.
스펙트럴 클러스터링은 복잡한 기하학적 구조를 가진 데이터에서 클러스터를 찾는 데 매우 효과적인 알고리즘이다.