자연어처리 - Natural Language Processing

자연어처리(Natural Language Processing)은 줄여서 NLP(엔엘피)라고 한다.

자연어 혹은 자연언어는 인간이 사용하는 언어를 말한다. 언어에는 컴퓨터가 사용하는 이진수로 변환하는 컴퓨터랭귀지도 있다.

구분을 위해서 자연어는 인위적이 아닌 자연발생적으로 생겨난 인간이 사용하는 언어를 말한다.

저연어처리는 인간이 사용하는 언어를 컴퓨터가 사용할 수 있게 처리하는 것을 말한다. 애플의 시리(Siri)와 같은 음성인식이나 광학문자판독을 통해서 책에서 글자를 읽어들이거나 웹페이지에서 사람이 작성한 글을 로봇을 이용해서 크롤하고 해석한 후 어떤 것이 핵심어이고 어떤 것이 주제어인가 등을 알아내기도 하며 글쓴이의 감정이나 상태등을 알아내기도 한다.

이런 것과 관련된 것을 통칭 자연어처리라고 한다.

자언어 처리는 더 구체적으로 말하면 형태소분석기, 구문분석기와 같은 사람이 작성한 글이나 대화를 컴퓨터를 통해 해석할 수 있게 하는 소프트웨어를 개발하거나 연구하고 그런 것들을 이용해서 실제로 작업하는 것을 말하는 것이라고 이해하면 된다.

자연어처리와 관련된 소프트웨어의 종류는 다음과 같은 것들이 있다.

  • 세그멘터
  • 형태소 분석기
  • 구문분석기
  • 개체명인식기

형태소분석기

형태소를 구분하고 무엇인지 알려주는 것을 말한다.

구문분석기

주어, 목적어, 서술어와 같은 형태로 품사보다는 단위가 더 높은 논리적 레벨까지를 처리해주는 것이다.

개체명인식기

개체명이라고하면 상품명, 사람이름, 주소, 건물명 등의 어떤 특정한 개체를 말한다.