OPTICS

OPTICS (Ordering Points To Identify the Clustering Structure) #

OPTICS는 DBSCAN의 확장된 형태로, 다양한 밀도를 가진 클러스터를 효과적으로 찾을 수 있는 밀도 기반 클러스터링 알고리즘이다. DBSCAN과 달리 고정된 ε 값 대신 클러스터링 순서(ordering)를 생성하여 다양한 밀도 수준에서 클러스터를 추출할 수 있다.

주요 개념 #

  • 핵심 거리 (Core Distance): 특정 포인트가 핵심 포인트가 되기 위한 최소 반경이다.
  • 도달 거리 (Reachability Distance): 한 포인트에서 다른 포인트로의 도달 가능성을 나타내는 거리이다.
  • 클러스터링 순서: 데이터 포인트들의 처리 순서로, 도달 거리를 기준으로 정렬된다.

알고리즘 특징 #

  • DBSCAN보다 유연하여 다양한 밀도의 클러스터를 동시에 처리할 수 있다.
  • 클러스터링 결과를 시각화하여 데이터 구조를 이해하기 쉽다.
  • 매개변수 설정이 DBSCAN보다 상대적으로 용이하다.

장점과 단점 #

  • 장점

    • 다양한 밀도의 클러스터를 효과적으로 식별할 수 있다.
    • 클러스터 구조를 시각적으로 분석할 수 있다.
    • DBSCAN의 한계를 개선한 알고리즘이다.
  • 단점

    • 계산 복잡도가 높아 대용량 데이터에 부적합할 수 있다.
    • 결과 해석이 DBSCAN보다 복잡할 수 있다.

OPTICS는 복잡한 밀도 분포를 가진 데이터에서 클러스터 구조를 파악하는 데 매우 유용한 알고리즘이다.