군집분석, 군집화, 클러스터링(Clustering)은 모두 같은 의미로 사용됩니다.
통계학에서는 군집분석이라고 하고, 기계학습에서는 클러스터링이라고 부릅니다. 클러스터링을 한국어로 번역하면 군집화가 됩니다. 패턴인식에서는 클러스터링을 양자화(Quantization) 또는 코딩(Coding)이라고 부르기도 합니다. 자세한 설명은 생략하겠습니다.
클러스터링은 여러 개체를 그룹으로 묶는 것을 의미합니다. 어떤 방법을 사용하든 주어진 개체들을 여러 그룹으로 묶으면 그것을 클러스터링이라고 합니다.
컴퓨터공학(computer science)에서의 클러스터링은 여러 서버나 플랫폼을 하나로 묶어 선형 확장성을 보장하고 대규모 트래픽을 처리하거나 병렬 연산을 수행할 수 있도록 하는 것을 의미합니다. 이는 기계학습과 데이터마이닝에서의 클러스터링과는 구분해야 합니다.
데이터 분석 또는 데이터 마이닝에서는 비슷한 개체를 묶는 것을 의미합니다. 흔히 군집화라고 번역되므로 군집화와 클러스터링은 같은 용어로 생각할 수 있습니다. 여기서는 클러스터링이라는 원어를 그대로 한글로 적어 사용하겠습니다.
클러스터링은 원래 기계학습의 비지도학습(Unsupervised Learning) 기법 중 하나로 분류되며, 세그멘테이션 기법의 일종으로도 볼 수 있습니다. 모든 학술 분야에서 다루어지지만, 데이터마이닝 분야에서 더 많이 사용되므로 데이터마이닝으로 분류하였습니다.