OPTICS (Ordering Points To Identify the Clustering Structure) #
OPTICS는 DBSCAN의 확장된 형태로, 다양한 밀도를 가진 클러스터를 효과적으로 찾을 수 있는 밀도 기반 클러스터링 알고리즘이다. DBSCAN과 달리 고정된 ε 값 대신 클러스터링 순서(ordering)를 생성하여 다양한 밀도 수준에서 클러스터를 추출할 수 있다.
주요 개념 #
- 핵심 거리 (Core Distance): 특정 포인트가 핵심 포인트가 되기 위한 최소 반경이다.
- 도달 거리 (Reachability Distance): 한 포인트에서 다른 포인트로의 도달 가능성을 나타내는 거리이다.
- 클러스터링 순서: 데이터 포인트들의 처리 순서로, 도달 거리를 기준으로 정렬된다.
알고리즘 특징 #
- DBSCAN보다 유연하여 다양한 밀도의 클러스터를 동시에 처리할 수 있다.
- 클러스터링 결과를 시각화하여 데이터 구조를 이해하기 쉽다.
- 매개변수 설정이 DBSCAN보다 상대적으로 용이하다.
장점과 단점 #
-
장점
- 다양한 밀도의 클러스터를 효과적으로 식별할 수 있다.
- 클러스터 구조를 시각적으로 분석할 수 있다.
- DBSCAN의 한계를 개선한 알고리즘이다.
-
단점
- 계산 복잡도가 높아 대용량 데이터에 부적합할 수 있다.
- 결과 해석이 DBSCAN보다 복잡할 수 있다.
OPTICS는 복잡한 밀도 분포를 가진 데이터에서 클러스터 구조를 파악하는 데 매우 유용한 알고리즘이다.