93. GPT: The Model That Predicts the Next Word Forever

개요

GPT 모델은 이전 토큰을 바탕으로 다음 단어를 예측하는 자기회귀(autoregressive) 방식으로 작동하며, 이 과정에서 문법, 사실, 추론 능력 등 언어 이해 전반을 학습한다.

주요 내용

* 자기회귀 생성 방식: GPT는 텍스트를 토큰 단위로 생성하며, 각 단계에서 생성된 토큰은 이전 모든 토큰을 조건으로 삼아 확률 분포를 계산하고 다음 토큰을 선택한다. 이 과정은 종료 토큰이 생성되거나 최대 길이에 도달할 때까지 반복된다.
* 모델 구조: GPT는 기본적으로 디코더-온리 트랜스포머(decoder-only transformer) 구조를 가지며, CausalSelfAttention, GPTBlock, MiniGPT와 같은 구성 요소로 이루어진다. 임베딩과 출력 헤드가 가중치를 공유하는 Weight tying 기법이 사용된다.
* 훈련 및 성능: 수십억 개의 토큰으로 훈련된 GPT 모델은 문법, 사실, 추론, 스타일, 코드 등 다양한 능력을 학습한다. GPT-1, GPT-2, GPT-3, GPT-4로 발전하면서 성능이 향상되었으며, 특히 GPT-4는 업무 방식에 변화를 가져왔다.
* 생성 제어 파라미터:
* Temperature: 로짓(logits)에 적용되어 출력의 무작위성을 조절한다. 온도가 낮으면 보수적이고 반복적인 출력이, 높으면 무작위적이고 비일관적인 출력이 나온다. 일반적으로 창의적인 글쓰기에는 0.7~1.0, 코딩이나 사실 기반 작업에는 0.2~0.5가 권장된다.
* Top-k Sampling: 확률이 높은 상위 k개의 토큰만 고려하여 샘플링한다.
* Top-p (Nucleus) Sampling: 누적 확률이 p를 초과하는 가장 작은 토큰 집합에서 샘플링한다.
* HuggingFace 라이브러리 활용: HuggingFace의 transformers 라이브러리를 사용하여 GPT-2 모델을 쉽게 로드하고 텍스트 생성을 수행할 수 있다. pipeline 기능을 사용하면 간단하게 텍스트 생성기를 만들 수 있으며, do_sample, temperature, top_k, top_p 등의 파라미터를 조절하여 생성 방식을 제어할 수 있다.
* GPT가 학습하는 것: 다음 단어를 잘 예측하기 위해 GPT는 문법, 사실, 추론, 스타일, 코드 생성 등 다양한 능력을 암묵적으로 학습한다. 이는 모델 크기를 확장했을 때 놀라운 emergent behavior를 보여주는 이유이다.
* 주요 개념 요약: 자기회귀(Autoregressive), Temperature, Greedy, Top-k, Top-p (nucleus sampling), Perplexity, Weight tying, Pre-norm 등이 설명된다.

시사점

GPT 모델이 단순히 다음 단어를 예측하는 것을 넘어, 복잡한 언어 이해 및 생성 능력을 갖추게 되는 원리를 이해하는 것은 LLM 기술의 발전 방향과 활용 방안을 모색하는 데 중요하다. 또한, Temperature, Top-k, Top-p와 같은 생성 파라미터를 조절하여 원하는 스타일과 내용의 텍스트를 생성하는 실무적 기술을 습득할 수 있다.

원문 읽기 →
원문을 불러오는 중...

댓글

GitHub Discussions