태그: 밀도기반
이 태그가 포함된 글들입니다. (총 2개)
Mean Shift
Mean Shift #
Mean Shift는 비모수적(non-parametric) 밀도 기반 클러스터링 알고리즘으로, 데이터의 확률 밀도 함수의 모드(mode)를 찾아 클러스터를 형성한다. 각 데이터 포인트를 확률 밀도가 가장 높은 지점으로 이동시켜 클러스터의 중심을 찾는다.
주요 개념 #
- 커널 밀도 추정: 각 데이터 포인트 주변의 확률 밀도를 추정한다.
- 그래디언트 상승: 밀도 함수의 그래디언트 방향으로 데이터 포인트를 이동시킨다.
- 모드 탐색: 확률 밀도 함수의 극값(모드)을 찾아 클러스터 중심으로 설정한다.
알고리즘 단계 #
- 각 데이터 포인트에서 시작한다.
- 주변 윈도우 내의 데이터 포인트들의 평균을 계산한다.
- 현재 포인트를 계산된 평균 위치로 이동시킨다.
- 수렴할 때까지 2-3단계를 반복한다.
- 같은 모드로 수렴하는 포인트들을 하나의 클러스터로 그룹화한다.
장점과 단점 #
-
장점
OPTICS
OPTICS (Ordering Points To Identify the Clustering Structure) #
OPTICS는 DBSCAN의 확장된 형태로, 다양한 밀도를 가진 클러스터를 효과적으로 찾을 수 있는 밀도 기반 클러스터링 알고리즘이다. DBSCAN과 달리 고정된 ε 값 대신 클러스터링 순서(ordering)를 생성하여 다양한 밀도 수준에서 클러스터를 추출할 수 있다.
주요 개념 #
- 핵심 거리 (Core Distance): 특정 포인트가 핵심 포인트가 되기 위한 최소 반경이다.
- 도달 거리 (Reachability Distance): 한 포인트에서 다른 포인트로의 도달 가능성을 나타내는 거리이다.
- 클러스터링 순서: 데이터 포인트들의 처리 순서로, 도달 거리를 기준으로 정렬된다.
알고리즘 특징 #
- DBSCAN보다 유연하여 다양한 밀도의 클러스터를 동시에 처리할 수 있다.
- 클러스터링 결과를 시각화하여 데이터 구조를 이해하기 쉽다.
- 매개변수 설정이 DBSCAN보다 상대적으로 용이하다.
장점과 단점 #
-
장점