스펙트럴 클러스터링

스펙트럴 클러스터링 (Spectral Clustering) #

스펙트럴 클러스터링은 그래프 이론과 선형 대수학을 기반으로 하는 클러스터링 알고리즘이다. 데이터를 그래프로 표현하고, 그래프의 라플라시안 행렬의 고유벡터(eigenvector)를 사용하여 클러스터를 형성한다.

주요 개념 #

  • 유사도 그래프: 데이터 포인트들을 노드로, 유사도를 엣지로 표현한 그래프이다.
  • 라플라시안 행렬: 그래프의 구조적 특성을 나타내는 행렬이다.
  • 고유벡터: 라플라시안 행렬의 고유벡터를 사용하여 차원을 축소한 후 클러스터링을 수행한다.

알고리즘 단계 #

  1. 데이터 포인트 간의 유사도를 계산하여 유사도 행렬을 구성한다.
  2. 유사도 행렬로부터 라플라시안 행렬을 계산한다.
  3. 라플라시안 행렬의 고유벡터를 구한다.
  4. 가장 작은 k개의 고유값에 해당하는 고유벡터로 새로운 특성 공간을 구성한다.
  5. 새로운 특성 공간에서 K-means 등의 클러스터링을 수행한다.

장점과 단점 #

  • 장점

    • 복잡한 형태의 클러스터를 효과적으로 찾을 수 있다.
    • 비선형 클러스터 구조를 잘 처리한다.
    • 이론적 기반이 탄탄하다.
  • 단점

    • 계산 비용이 높다.
    • 매개변수 조정이 복잡할 수 있다.
    • 대용량 데이터에 적용하기 어렵다.

스펙트럴 클러스터링은 복잡한 기하학적 구조를 가진 데이터에서 클러스터를 찾는 데 매우 효과적인 알고리즘이다.