LLM | 인투더데이터 데이터 사이언스 위키

LLM (Large Language Model) #

초거대언어모델이라고 할 수 있다. 언어모델은 원래 다른 모델에 비해서 용량이 크다. 초거대언어모델은 Large Lnaguage Model이 원어이지만 초거대언어모델이라고 하는 것이 맞다. 그 규모가 매우 크기 때문이다.

LLM은 수십억 개에서 수조 개의 매개변수를 가진 대규모 신경망 모델이다. 이러한 거대한 규모 덕분에 다음과 같은 특징을 보인다:

Claude: Anthropic에서 개발한 헌법적 AI(Constitutional AI) 기반의 안전성 중심 모델
Claude 2: 향상된 성능과 더 긴 컨텍스트 윈도우를 제공하는 후속 모델
Claude 3: Haiku, Sonnet, Opus 세 가지 버전으로 출시된 최신 시리즈
- Claude 3 Haiku: 빠른 응답 속도에 최적화된 경량 모델
- Claude 3 Sonnet: 성능과 속도의 균형을 맞춘 중간 모델
- Claude 3 Opus: 가장 강력한 성능을 제공하는 플래그십 모델
Claude 3.5: Claude 3의 개선된 버전으로 더욱 향상된 추론 능력과 코딩 성능을 제공
- Claude 3.5 Sonnet: 기존 Claude 3 Opus와 비슷한 성능을 더 빠른 속도로 제공하는 모델
- Claude 3.5 Haiku: 경량화된 모델의 성능을 크게 향상시킨 버전
Claude 4: Claude 4
Claude 4: 2024년 후반에 출시 예정인 Anthropic의 차세대 모델로, 더욱 향상된 추론 능력과 안전성을 목표로 개발 중이다. 멀티모달 기능의 확장과 더 긴 컨텍스트 처리 능력이 기대되고 있다.

대량의 텍스트 데이터를 사용하여 언어의 패턴과 구조를 학습하는 단계이다. 주로 다음 단어 예측(Next Token Prediction) 작업을 통해 이루어진다.

특정 작업이나 도메인에 맞게 모델을 추가로 훈련시키는 과정이다. 상대적으로 적은 양의 데이터로도 효과적인 성능 향상이 가능하다.

인간의 선호도를 반영하여 모델의 출력을 개선하는 훈련 방법이다. ChatGPT와 같은 모델에서 중요하게 사용되는 기법이다.

모델이 사실과 다른 정보를 그럴듯하게 생성하는 문제이다. 특히 사실 확인이 중요한 분야에서는 주의가 필요하다.

훈련 데이터에 포함된 사회적, 문화적 편향이 모델의 출력에 반영될 수 있다.

LLM의 훈련과 추론에는 막대한 컴퓨팅 자원이 필요하며, 이는 환경적, 경제적 부담을 야기한다.

모델의 내부 작동 방식을 이해하기 어려워 예측 결과에 대한 설명이 제한적이다.

LLM 기술은 계속해서 발전하고 있으며, 다음과 같은 방향으로 진화할 것으로 예상된다:

LLM은 인공지능 분야의 혁신적인 발전을 이끌고 있으며, 앞으로도 다양한 분야에서 인간의 언어 능력을 보완하고 확장하는 역할을 할 것으로 기대된다.