형태소분석기는 자연어처리에 사용하는 소프트웨어 또는 모듈이다. 이름처럼 형태소를 분석하기 위한 것이다. 형태소분석기가 뭔지 이해하려면 먼저 형태소가 뭔지 알아야한다.
형태소는 “더 이상 쪼갤 수 없는 뜻을 가진 최소 단위"라고 정의하는데 일반적으로는 품사를 뜻한다고 생각하면 쉽지만 어간,접미사, 접두사, 파생접미사, 특수기호같은 것도 형태소로 포함하기 때문이 흔히 생각하는 품사보다는 갯수가 많다고 생각하면 된다.
형태소분석은 문장에서 형태소를 각각 분리하고 형태소의 종류를 알아내는 것이다.
쉽게 얘기하면 문장에 있는 각 품사들을 쪼개고 어떤 품사인지 표시하는 것이다.
품사를 각각 분리하고 표시하는 것이 필요한 이유는 문장에서 품사를 꺼내오면 여러가지 처리가 가능한데. 대표적으로 명사를 꺼내오면 문장이 어떤 내용과 관련이 있는지 요약을 하고 주제를 찾아내기 쉬워진다.
“나는 오늘 광화문에 갔다.” 라는 문장을 형태소분석을 하면
“나<명사> 는<조사> 오늘<명사> 광화문<명사> 에<조사> 갔다<동사> .<문장부호>”
이와같이 된다. 여기에서 명사만 보면 “나"와 “광화문”인데 이 명사들만으로 이 문장은 “나"와 “광화문”에 관련이 있다는 것을 알아낼 수 있다.