계층적

태그: 계층적

이 태그가 포함된 글들입니다. (총 1개)

BIRCH

BIRCH (Balanced Iterative Reducing and Clustering using Hierarchies) #

BIRCH는 대용량 데이터셋을 효율적으로 처리할 수 있는 계층적 클러스터링 알고리즘이다. 메모리 사용량을 최소화하면서 점진적으로 클러스터를 구성하며, CF(Clustering Feature) 트리 구조를 사용하여 데이터를 요약한다.

주요 개념 #

CF (Clustering Feature): 클러스터의 요약 정보를 담고 있는 3개 값의 튜플 (N, LS, SS)이다.
- N: 클러스터 내 데이터 포인트의 수
- LS: 데이터 포인트들의 선형 합
- SS: 데이터 포인트들의 제곱 합
CF Tree: 클러스터링 특징들을 계층적으로 저장하는 균형 트리 구조이다.
임계값 (Threshold): 새로운 데이터 포인트가 기존 클러스터에 병합될지 결정하는 기준이다.

알고리즘 특징 #

메모리 효율적이며 대용량 데이터를 처리할 수 있다.
단일 스캔으로 클러스터링을 수행한다.
점진적(incremental) 클러스터링이 가능하다.
구형(spherical) 클러스터에 가장 적합하다.

장점과 단점 #

장점

BIRCH 클러스터링 군집분석 계층적

← 모든 태그 보기