자연어처리 - Natural Language Processing

자연어처리(Natural Language Processing)은 줄여서 NLP(엔엘피)라고 한다.

자연어 혹은 자연언어는 인간이 사용하는 언어를 말한다. 언어에는 컴퓨터가 사용하는 이진수로 변환하는 컴퓨터랭귀지도 있다.

그래서 구분을 명확히 하기 위해서 자연어는 인위적이 아닌 자연발생적으로 생겨난 인간이 사용하는 언어를 말한다.

저연어처리는 인간이 사용하는 언어를 컴퓨터가 사용할 수 있게 처리하는 것을 말한다. 애플의 시리(Siri)와 같은 음성인식이나 광학문자판독을 통해서 책에서 글자를 읽어들이거나 웹페이지에서 사람이 작성한 글을 로봇을 이용해서 크롤하고 해석한 후 어떤 것이 핵심어이고 어떤 것이 주제어인가 등을 알아내기도 하며 글쓴이의 감정이나 상태등을 알아내기도 한다.

이런 것과 관련된 것을 통칭 자연어처리라고 말하는 것이다.

자언어 처리는 더 구체적으로 말하면 형태소분석기, 구문분석기와 같은 사람이 작성한 글이나 대화를 컴퓨터를 통해 해석할 수 있게 하는 소프트웨어를 개발하거나 연구하고 그런 것들을 이용해서 실제로 작업하는 것이라고 이해하면 된다.

자연어처리와 관련된 소프트웨어의 종류는 다음과 같은 것들이 있다.

  • 세그멘터
  • 형태소분석기
  • 구문분석기
  • 개체명인식기

세그멘터

띄어쓰기를 해주는 것인데 문법적인 띄어쓰기보다는 검색엔진을 위해 색인어를 추출하기 위해 단어를 잘라주는 것을 말한다. 단어를 자를 때 검색에 유리하게 할 수도 있고 문법적으로 맞도록 할 수도 있다.
한국어는 품사를 기준으로 잘게 자르는 경향이 많다. 그렇게 해야 전문 검색에 유리하기 때문이다.

형태소분석기

형태소를 구분하고 무엇인지 알려주는 것을 말한다. 형태소는 정의상 설명을 하게 되면 매우 길어지는데 품사라고 생각하면 이해하기 쉬울 것이다.
명사, 동사, 조사, 형용사 등과 같은 것이다.

구문분석기

주어, 목적어, 서술어와 같은 형태로 품사보다는 단위가 더 높은 논리적 레벨까지를 처리해주는 것이다.

개체명인식기

개체명이라고하면 상품명, 사람이름, 주소, 건물이름, 책의 제목, 영화 제목, 노래 제목 등의 어떤 특정한 개체의 이름을 찾아내는 것이다.
고유명사를 찾아내는 것이라고 생각하면 쉽다.