군집분석 - Clustering

군집분석 - clustering

군집분석, 군집화, 클러스터링(Clustering)은 모두 같은 뜻이라고 봐도 무방하다.

통계학에서는 군집분석이라고 부르며 기계학습에서는 클러스터링이라고 부른다. 그리고 클러스터링을 한국어로 바꾸면 군집화가 된다. 클러스터링은 패턴인식에서는 양자화(Quantization) 또는 코딩(Coding)이라고 부르기도 한다. 설명이 매우 길어지므로 여기서는 자세한 얘기는 생략한다.

클러스터링은 하면 여러 개체를 묶는 것을 말한다. 어떤 방법을 사용해서든 주어진 개체들을 여러 개의 그룹으로 묶으면 그것을 클러스터링이라고 부를 수 있다.

보통 컴퓨터공학(computer science)에서의 클러스터링은 여러 서버나 플랫폼을 하나로 묶어 선형확장성 같은 것을 보장하고 대규모 트래픽을 처리하거나 병렬 연산을 수행할 수 있도록 하는 것을 말하는데 기계학습과 데이터마이닝에서 말하는 클러스터링과는 구분을 할 필요가 있다.

데이터 분석 또는 데이터 마이닝에서는 개체를 비슷한 것끼리 묶는 것을 말한다. 흔히 군집화라고 번역해서 표현하므로 군집화와 클러스터링은 같은 용어로 생각하면 되는데 여기에서는 클러스터링이라고 원어를 그대로 한글로 적는 것을 사용할 것이다.

클러스터링은 원래 기계학습의 비교사학습(Unsupervisoed Learning)의 기법 중 하나로 분류할 수 있는데 세그멘테이션 기법의 일종이라고도 볼 수 있어 모든 학술 분야에서 두루 다루며 데이터마이닝 분야에서 용도가 더 많아 데이터마이닝으로 분류하였다.