텍스트마이닝 - Text Mining

개요 - overview

텍스트마이닝(Text mining)은 데이터마이닝의 일부라고 볼 수 있다. 데이터마이닝이 수치데이터와 범주형데이터를 집중적으로 보는 반면에 텍스트마이닝은 데이터마이닝 중에서도 텍스트데이터를 주로 다루는 것을 말한다.

텍스트마이닝의 별도의 세부항목으로 따로 다루는 이유는 텍스트데이터를 다루는 것이 수치데이터를 다루는 것과는 프로세싱이나 처리방법이 많이 다르고 사용하는 방법들도 조금 다르기 때문이다. 하지만 데이터에서 통찰을 얻고 가치를 찾는다는 목적은 같다.

텍스트마이닝을 잘 하기 위해서는 형태소분석기나 구문분석기와 같은 자연어처리 도구를 잘 사용할 수 있어야 하며 그외에 다루는 언어에 대해서도 잘 알고 있어야한다. 그래서 텍스트마이닝은 자연어처리와 함께 학습하는 경우가 많다.

예를들어 한글 및 한국어로 된 텍스트를 잘 처리하려면 한글 및 한국어에 대한 문법이나 언어구조등에서도 알고 있는 것이 유리하다.

텍스트마이닝을 위해서 필요한 것들

어떤 언어를 대상으로 하더라도 비슷할 것이라고 생각하지만 한글 및 한국어를 기준으로 설명하면 기본으로 2가지 것이 필요하다.

  • 형태소 분석기
  • 구문 분석기
  • 각종 테스트 처리 도구
  • 대용량 데이터 처리 플랫폼

대용량 데이터 처리 플랫폼은 텍스트 데이터가 소량이면 필요하지 않는 것이 아니냐는 의문을 가질 수도 있다. 하지만 소량의 텍스트데이터에서 쓸만한 가치를 찾는 것은 매우 어려운 일이다. 텍스트마이닝은 대량의 텍스트데이터를 가지고 수행해야 쓸만한 정보를 찾아낼 수 있고 활용하기 쉽다. 그래서 텍스트 데이터는 사실상 대량이라는 전제가 필요하다.

텍스트마이닝을 위한 기술

텍스트마이닝의 아래 3가지 학술 분야의 혼합체라고 할 수 있다.

  • 자연어처리 기술 (NLP)
  • 정보검색 기술(Information Retrieval)
  • 데이터마이닝 기술 (Data Mining)

위의 것들은 모두 대학원 이상에서 다루는 하나의 세부 전공 분야이지만 서로 관련이 깊다.