분류

분류 (Classification) #

분류(Classification)는 데이터마이닝과 기계학습에서 가장 널리 사용되는 지도학습(Supervised Learning) 기법 중 하나다. 분류의 목적은 주어진 데이터(입력, feature)가 어떤 범주(클래스, class)에 속하는지 예측하는 것이다. 즉, 이미 정답(레이블, label)이 주어진 데이터를 바탕으로 학습하여, 새로운 데이터가 들어왔을 때 그 데이터가 어떤 클래스에 속하는지 자동으로 판별하는 모델을 만드는 과정이다.

분류의 예시 #

  • 이메일이 스팸인지 아닌지 판별(스팸 필터링)

  • 사진 속 동물이 고양이인지 개인지 구분

  • 환자의 진단 결과가 질병 유무로 분류

  • 고객이 상품을 구매할지 여부 예측

    분류는 매우 많은 분야에서 사용된다. 활용할 수 있는 곳이 많기 때문이다. 그래서 기계학습에서 주로 해결하려고 하는 문제는 대부분 분류와 관련된 것이다.

분류의 주요 알고리즘 #

기본 알고리즘 #

고급 알고리즘 #

통계적 분류 기법 #

분류의 절차 #

  1. 데이터 수집 및 전처리: 입력 데이터와 정답(레이블) 준비, 결측치 처리, 특성 선택 등
  2. 모델 학습(Training): 학습 데이터를 이용해 분류 모델을 학습
  3. 모델 평가(Evaluation): 테스트 데이터를 이용해 모델의 성능(정확도, 정밀도, 재현율 등) 평가
  4. 예측(Prediction): 새로운 데이터에 대해 분류 결과 예측

분류와 회귀의 차이 #

분류는 결과가 미리 정의된 범주(예: 스팸/비스팸, 질병/무질병 등)로 나누는 문제이고, 회귀(Regression)는 연속적인 수치 값을 예측하는 문제다.

참고 #

분류는 실제 산업, 의료, 금융, 마케팅 등 다양한 분야에서 활용되며, 데이터마이닝의 핵심적인 분석 기법 중 하나다. 분류 문제를 잘 해결하기 위해서는 데이터의 특성, 적절한 알고리즘 선택, 성능 평가 방법에 대한 이해가 중요하다.