한국어 형태소 분석기 - Korean pos tagger

오픈소스 한국어 형태소 분석기

한나눔 (Hananum)

  • 명칭: 한나눔
  • 관리: Kaist
  • 개발언어: Java
  • 알고리즘: HMM
  • 학습사전: 세종계획 산출물
  • 소스 오픈 여부: 오픈
  • 구분분석기: 없음

꼬꼬마 (KKMA)

  • 명칭: 꼬꼬마
  • 관리: Seoul University
  • 개발언어: Java
  • 알고리즘: ?
  • 학습사전: 세종계획 산출물
  • 소스 오픈 여부: Open 별도 요청
  • 구분분석기: 일부 탑재

메카브 KO (Mecab)

  • 명칭: 메카브 KO (Mecab), 은전한닢
  • 관리: 은전한닢 프로젝트 커뮤니티
  • 개발언어: C/C++
  • 알고리즘: CRF
  • 학습사전: 세종계획 산출물 (일부)
  • 소스 오픈 여부: 오픈
  • 구분분석기: 없음

NTT에서 사용하던 일본어 형태소 분석기를 한국어 용으로 변환한 것이다. 영문을 읽으면 “미캡”이라고 읽어야 하겠지만 일본인이 제작한 것이고 일본어 소개페이지에 카타가나로 “메카부”라고 적혀 있어 여기에도 그렇게 기재하였다.

UTagger

상용 한글/한국어 형태소 분석기

KLT

  • 명칭: KLT200(구 HAM)
  • 관리: 국민대학교
  • 개발언어: 강승식 교수님 랩
  • 알고리즘: C
  • 학습사전: 모름
  • 소스 오픈 여부: 아님
  • 구분분석기: 없음

KOMA

  • 명칭: KOMA
  • 관리: 고려대학교 임해창 교수님 NLP랩
  • 개발언어: C/C++
  • 알고리즘: HMM?
  • 학습사전: 세종계획 산출물
  • 소스 오픈 여부: 아님
  • 구분분석기: 없음

현재 다음소프트 형태소분석기의 원형으로 알려져 있지만 많이 다르다.

BASIS

  • 명칭: Basis
  • 관리: Basis
  • 개발언어: C
  • 알고리즘: 모름
  • 학습사전: 모름
  • 소스 오픈 여부: No
  • 구분분석기: No

한국어의 경우 국민대 강승식교수님의 형태소분석기가 OEM으로 내장되어 있었으나 현재의 상태는 알 수 없다.


최종수정일: 2021-08-03 11:50
Copyright by IntoTheData all rights reserverd.