자연어처리(Natural Language Processing)은 줄여서 NLP라고 쓰며 “엔엘피”라고 읽는다.
자연어 또는 자연언어는 인간이 사용하는 언어를 말한다. 언어에는 컴퓨터가 사용하는 이진수로 변환하는 컴퓨터랭귀지도 포함되므로 구분을 명확히 하기 위해서 자연어는 인위적이 아닌 자연발생적으로 생겨난 인간이 사용하는 언어를 말한다.
저연어처리는 인간이 사용하는 언어를 컴퓨터가 사용할 수 있게 처리하는 것을 말한다. 애플의 시리(Siri)와 같은 음성인식이나 광학문자판독을 통해서 책에서 글자를 읽어들이거나 웹페이지에서 사람이 작성한 글을 로봇을 이용해서 크롤하고 해석한 후 어떤 것이 핵심어이고 어떤 것이 주제어인가 등을 알아내기도 하며 글쓴이의 감정이나 상태등을 알아내기도 한다.
jtllr2 자연어처리라고 말하는 것이다.
자언어 처리는 더 구체적으로 말하면 형태소분석기, 구문분석기와 같은 사람이 작성한 글이나 대화를 컴퓨터를 통해 해석할 수 있게 하는 소프트웨어를 개발하거나 연구하고 그런 것들을 이용해서 실제로 작업하는 것이라고 이해하면 된다.
자연어처리와 관련된 소프트웨어의 종류는 다음과 같은 것들이 있다.
세그멘터는 띄어쓰기를 해주는 것인데 문법적인 띄어쓰기보다는 검색엔진을 위해 색인어를 추출하기 위해 단어를 잘라주는 것을 말한다.
단어를 자를 때 검색에 유리하게 할 수도 있고 문법적으로 맞도록 할 수도 있다.
영어는 세그멘터가 없고 한국어, 중국어, 일본어와 같이 띄어쓰기가 없거나 잘 지켜지지 않는 언어에는 필요하다.
한국어 세그멘터는 품사를 기준으로 잘게 자르는 경향이 많다. 그렇게 해야 전문 검색에 유리하기 때문이다.
검색엔진에는 형태소분석기를 사용하거나 최소한 워드 세그멘터를 사용해서 색인을 한다.
형태소를 구분하고 무엇인지 알려주는 것을 말한다. 형태소는 정의상 설명을 하게 되면 매우 길어지는데 품사라고 생각하면 이해하기 쉬울 것이다.
명사, 동사, 조사, 형용사 등과 같은 것이고 일반적으로 알리진 품사 외에도 파생명사나 숫자, 외국어, 문장기호도 형태소에 포함된다.
주어, 목적어, 서술어와 같은 형태로 품사보다는 단위가 더 높은 논리적 레벨까지를 처리해주는 것이다.
개체명이라고하면 상품명, 사람이름, 주소, 건물이름, 책의 제목, 영화 제목, 노래 제목 등의 어떤 특정한 개체의 이름을 찾아내는 것이다.
고유명사를 찾아내는 것이라고 생각하면 쉽다.