분류 (Classification) #
분류(Classification)는 데이터마이닝과 기계학습에서 가장 널리 사용되는 지도학습(Supervised Learning) 기법 중 하나다. 분류의 목적은 주어진 데이터(입력, feature)가 어떤 범주(클래스, class)에 속하는지 예측하는 것이다. 즉, 이미 정답(레이블, label)이 주어진 데이터를 바탕으로 학습하여, 새로운 데이터가 들어왔을 때 그 데이터가 어떤 클래스에 속하는지 자동으로 판별하는 모델을 만드는 과정이다.
분류의 예시 #
-
이메일이 스팸인지 아닌지 판별(스팸 필터링)
-
사진 속 동물이 고양이인지 개인지 구분
-
환자의 진단 결과가 질병 유무로 분류
-
고객이 상품을 구매할지 여부 예측
분류는 매우 많은 분야에서 사용된다. 활용할 수 있는 곳이 많기 때문이다. 그래서 기계학습에서 주로 해결하려고 하는 문제는 대부분 분류와 관련된 것이다.
분류의 주요 알고리즘 #
기본 알고리즘 #
- 의사결정나무(Decision Tree): 트리 구조로 규칙 기반 분류
- 로지스틱 회귀(Logistic Regression): 선형 분류의 기본, 확률적 해석 가능
- 나이브 베이즈(Naive Bayes): 베이즈 정리 기반, 텍스트 분류에 효과적
- 서포트 벡터 머신(SVM): 마진 최대화를 통한 강력한 분류
- k-최근접 이웃(k-NN): 거리 기반 인스턴스 학습
고급 알고리즘 #
- 신경망(Neural Networks): 복잡한 비선형 패턴 학습
- 앙상블 기법(Ensemble Methods): 여러 모델 결합으로 성능 향상
- 랜덤 포레스트(Random Forest): 의사결정나무 기반 앙상블
- 그래디언트 부스팅(Gradient Boosting): 순차적 오차 보정으로 성능 극대화
통계적 분류 기법 #
- 선형 판별 분석(LDA): 차원 축소와 분류를 동시에 수행
- 이차 판별 분석(QDA): 이차 결정 경계를 가진 유연한 분류
분류의 절차 #
- 데이터 수집 및 전처리: 입력 데이터와 정답(레이블) 준비, 결측치 처리, 특성 선택 등
- 모델 학습(Training): 학습 데이터를 이용해 분류 모델을 학습
- 모델 평가(Evaluation): 테스트 데이터를 이용해 모델의 성능(정확도, 정밀도, 재현율 등) 평가
- 예측(Prediction): 새로운 데이터에 대해 분류 결과 예측
분류와 회귀의 차이 #
분류는 결과가 미리 정의된 범주(예: 스팸/비스팸, 질병/무질병 등)로 나누는 문제이고, 회귀(Regression)는 연속적인 수치 값을 예측하는 문제다.
참고 #
분류는 실제 산업, 의료, 금융, 마케팅 등 다양한 분야에서 활용되며, 데이터마이닝의 핵심적인 분석 기법 중 하나다. 분류 문제를 잘 해결하기 위해서는 데이터의 특성, 적절한 알고리즘 선택, 성능 평가 방법에 대한 이해가 중요하다.