분류

태그: 분류

이 태그가 포함된 글들입니다. (총 2개)

분류

분류 (Classification) #

분류(Classification)는 데이터마이닝과 기계학습에서 가장 널리 사용되는 지도학습(Supervised Learning) 기법 중 하나다. 분류의 목적은 주어진 데이터(입력, feature)가 어떤 범주(클래스, class)에 속하는지 예측하는 것이다. 즉, 이미 정답(레이블, label)이 주어진 데이터를 바탕으로 학습하여, 새로운 데이터가 들어왔을 때 그 데이터가 어떤 클래스에 속하는지 자동으로 판별하는 모델을 만드는 과정이다.

분류의 예시 #

  • 이메일이 스팸인지 아닌지 판별(스팸 필터링)

  • 사진 속 동물이 고양이인지 개인지 구분

  • 환자의 진단 결과가 질병 유무로 분류

  • 고객이 상품을 구매할지 여부 예측

선형 판별 분석

선형 판별 분석 (Linear Discriminant Analysis, LDA) #

선형 판별 분석(Linear Discriminant Analysis, LDA)은 차원 축소와 분류를 동시에 수행할 수 있는 통계적 기법이다. 클래스 간의 분산은 최대화하고 클래스 내의 분산은 최소화하는 방향으로 데이터를 투영하여 최적의 판별 축을 찾는다. LDA는 1936년 로널드 피셔(Ronald Fisher)에 의해 개발되어 “피셔의 선형 판별"이라고도 불린다.

LDA의 기본 개념 #

1. 목적 #

  • 클래스 분리: 서로 다른 클래스를 최대한 멀리 떨어뜨림
  • 클래스 집중: 같은 클래스 내의 데이터는 가능한 한 가깝게 모음
  • 차원 축소: 분류에 유용한 저차원 공간으로 데이터 투영

2. 기본 가정 #

  • 정규분포: 각 클래스의 데이터가 다변량 정규분포를 따름
  • 동일한 공분산: 모든 클래스가 같은 공분산 행렬을 가짐
  • 선형 분리: 클래스들이 선형적으로 분리 가능

LDA의 수학적 원리 #

1. 클래스 간 분산과 클래스 내 분산 #

클래스 내 분산 행렬 (Within-class scatter matrix):