텍스트마이닝 - Text Mining

개요 - overview

텍스트마이닝(Text mining)은 데이터마이닝의 일부라고 볼 수 있다.

데이터마이닝이 수치데이터와 범주형데이터를 집중적으로 보는 반면에 텍스트마이닝은 텍스트데이터를 중점적으로 다룬다.

텍스트마이닝의 별도의 세부항목으로 따로 다루는 이유는 텍스트데이터를 다루는 것이 수치데이터를 다루는 것과는 프로세싱이나 처리방법이 많이 다르기 때문이다.

데이터에서 통찰을 얻고 가치를 찾는다는 목적은 같지만 방법이 다르기 때문에 별도로 취급하는 경우도 많다.

텍스트마이닝을 잘 하기 위해서는 형태소분석기나 구문분석기와 같은 자연어처리 도구를 잘 사용할 수 있어야 하며 그외에 다루는 언어에 대해서도 잘 알고 있어야한다.

예를들어 한글 및 한국어로 된 텍스트를 잘 처리하려면 한글 및 한국어에 대한 문법이나 언어구조등에서도 알고 있는 것이 유리하다.

텍스트마이닝을 위해서 필요한 것들

어떤 언어를 대상으로 하더라도 비슷할 것이라고 생각하지만 한글 및 한국어를 기준으로 설명하면 기본으로 2가지 것이 필요하다.

  • 형태소 분석기
  • 대용량 데이터 처리 플랫폼

대용량 데이터 처리 플랫폼은 텍스트 데이터가 소량이면 필요하지 않는 것이 아니냐는 의문을 가질 수도 있다. 하지만 소량의 텍스트데이터에서 쓸만한 가치를 찾는 것은 매우 어려운 일이다. 텍스트마이닝은 대량의 텍스트데이터를 가지고 수행해야 쓸만한 정보를 찾아낼 수 있고 활용하기 쉽다. 그래서 텍스트 데이터는 사실상 대량이라는 전제가 필요하다.