논문제목 : Improving Language Understanding by Generative Pre-Training
저자 : Alec Radford, Karthik Narasimhan, Tim Salimans, Ilya Sutskever
논문링크
https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf
1. Introduction
자연어 이해 분야에서는 다양한 과제들이 존재하지만, 각 문제를 해결할 충분한 라벨 데이터가 부족해 모델 학습이 어렵다. 이를 극복하기 위해 GPT는 대규모 비지도 텍스트 데이터를 활용하는 생성적 사전학습(generative pre-training) 방식을 도입했다.
생성적 사전학습은 텍스트 시퀀스에서 다음 단어를 예측하는 언어 모델링 작업을 수행함으로써, 모델이 문법, 문맥, 의미 구조를 자연스럽게 학습하도록 한다. 이를 통해 모델은 풍부한 언어 표현을 내재화한다.
사전학습된 모델은 이후 각 자연어 이해 태스크에 맞춰 판별적 미세조정(discriminative fine-tuning)을 거친다. 이때 모델 아키텍처는 거의 변경하지 않고, 태스크 특성에 맞는 입력 변환만 적용해 효율적으로 다양한 과제에 적응할 수 있도록 설계되었다.
모델 아키텍처로 Transformer를 사용하는데, 이는 셀프 어텐션 메커니즘으로 긴 문맥 정보를 효과적으로 처리하며, 기존의 순환 신경망(RNN) 대비 안정적인 학습이 가능하다. 미세조정 시에도 입력 시퀀스를 단일 연속 토큰 시퀀스로 처리하는 traversal-style 방식을 사용해 간단하게 태스크별 입력을 변환한다.
간단하게 보는 GPT구조


2. Related Work
GPT 연구는 자연어 처리에서 반지도 학습(semi-supervised learning) 범주에 속한다. 반지도 학습은 일부 라벨 데이터와 대규모 비지도 데이터를 함께 활용해 시퀀스 라벨링, 텍스트 분류 등 다양한 NLP 과제에 적용되어 왔다.
초기 연구들은 비지도 데이터를 활용해 단어나 구 단위 통계 정보를 추출해 지도학습 모델 특징으로 사용했고, 이후 단어 임베딩 기술 발전과 함께 레이블 없는 말뭉치에서 학습한 임베딩을 다양한 과제에 전이하는 방식이 보편화되었다. 다만 이들 접근은 주로 단어 단위에 집중했다.
최근 연구들은 문장이나 구 등 상위 수준의 의미 표현 학습에 집중하고 있다. 문장 임베딩(sentence embedding)이나 구 단위 표현은 여러 자연어 이해 태스크에서 효과적인 벡터 표현으로 활용된다.
비지도 사전학습(unsupervised pre-training)은 반지도 학습의 특별한 경우로, 주로 좋은 초기화 값을 찾는 데 초점을 둔다. 이미지 인식, 음성 인식, 기계 번역 등 다양한 분야에서 사전학습이 모델 일반화에 긍정적 영향을 주는 것으로 밝혀졌다.
GPT와 가장 가까운 연구들은 언어 모델링 목표로 사전학습한 후 지도학습 태스크에 맞춰 미세조정하는 방식을 택했다. 과거 LSTM 기반 모델은 장기 의존성 포착에 한계가 있었으나, GPT는 Transformer를 활용해 더 긴 범위 문맥을 효과적으로 학습한다.
또한 기존 연구 중 일부는 사전학습 모델의 내부 표현을 추가 특징으로 활용해 태스크를 학습했으나, 이는 태스크별 모델 파라미터 증가 문제를 낳았다. GPT는 미세조정 시 모델 구조 변경을 최소화해 전이 효율성을 극대화했다.
마지막으로, 보조 학습 목표(auxiliary training objectives)를 추가하는 접근도 존재한다. 예를 들어 품사 태깅, 개체명 인식, 언어 모델링을 보조 목표로 활용해 주요 태스크 성능을 향상시킨 사례가 있다. GPT 역시 미세조정 과정에서 언어 모델링 손실을 보조 목표로 사용해 추가 성능 향상을 달성했다.
GPT는 이러한 연구 흐름 위에서 Transformer 아키텍처와 긴 문맥 학습, 전이 효율성을 모두 만족시키는 혁신적인 접근법을 제시했다.
3. GPT 학습 Framework
3.1 비지도 사전학습 (Unsupervised Pre-training)
- 대규모 라벨 없는 텍스트 말뭉치(BooksCorpus)를 활용해 다음 단어 예측 언어 모델링을 수행한다.
- Transformer 디코더 구조를 사용해, 입력 토큰 임베딩과 위치 임베딩을 결합하여 긴 문맥 내 단어 간 관계를 효과적으로 학습한다.
- 멀티헤드 셀프 어텐션과 위치별 피드포워드 네트워크를 반복 적용한다

3.2 지도 미세조정 (Supervised Fine-tuning)
- 사전학습된 모델 파라미터를 초기값으로 사용해 각 태스크별 데이터에 맞춰 모델을 다시 학습한다.
- 입력 시퀀스를 Transformer에 통과시킨 후, 최종 층 출력을 선형 분류층에 연결해 예측한다.
- 미세조정 시 기존 언어 모델링 손실에 적절한 가중치를 곱한 보조 손실을 추가해 학습 성능과 일반화를 동시에 향상시킨다.
태스크별 입력 변환
GPT는 원래 연속된 텍스트 시퀀스 처리를 전제로 설계되었기에, 논리 추론, 질문 응답 등 구조화된 입력이 필요한 태스크에서는 입력 형식 변환이 필요하다.
- 문장 논리추론(Textual Entailment): 전제문과 가설문을 구분자 토큰($)으로 연결해 하나의 시퀀스로 만든다.
- 의미 유사도(Similarity): 두 문장을 각각 처리 후 결과를 합산해 최종 출력 생성.
- 질문 응답(Question Answering): 문서, 질문, 후보 답변을 구분자 토큰으로 나눠 독립 처리하고, 소프트맥스 확률 분포로 정답 예측.
4. Experiments
- 사전학습 데이터는 BooksCorpus로, 7000권 이상의 미출간 도서를 포함하며 긴 문맥 학습에 적합하다.
- 모델은 12층 Transformer 디코더 구조로, 각 층은 12개 멀티헤드 셀프 어텐션과 3072차원 피드포워드 네트워크로 구성된다.
- Adam 옵티마이저로 100 에폭 동안 512 토큰 길이 시퀀스를 미니배치 단위로 학습하며, Dropout, L2 정규화, GELU 활성화, BPE 토크나이징을 사용했다.
평가 Task 및 결과
- 자연어 추론(NLI): SNLI, MultiNLI 등 5개 데이터셋에서 문장 쌍의 함의, 모순, 중립 관계를 분류
- 질문 응답(Question Answering): RACE, Story Cloze 테스트로 긴 문서 내 복합 추론 능력을 평가
- 문장 유사도(Sentence Similarity): MSR Paraphrase, Quora Question Pairs 등에서 의미 동등성 판단
- 문장 분류(Classification): CoLA(문장 문법성), SST-2(감성 분석) 포함
GPT는 대부분 태스크에서 기존 최첨단 모델과 경쟁하거나 능가하는 성능을 보였다. 특히 자연어 추론과 질문 응답에서 뛰어난 추론 및 긴 문맥 이해 능력을 입증했고, GLUE 벤치마크 등 멀티태스크 평가에서도 높은 점수를 기록했다.
5. Analysis

1. 사전학습 층 수의 영향
- X축: 전이한 Transformer 층 수 (0 ~ 12층)
- Y축 (왼쪽): RACE Dev 성능 (% 정확도)
- Y축 (오른쪽): MultiNLI Dev 성능 (% 정확도)
- 선 색상 및 종류:
- 파란색 실선: RACE Dev
- 파란색 점선: RACE Train
- 주황색 실선: MultiNLI Dev
- 주황색 점선: MultiNLI Train
해석:
- 층 수가 많을수록 성능이 오른다. 특히 MultiNLI Dev 성능은 전이 층 수가 12에 가까워질수록 거의 9% 이상 향상됨.
- 학습 데이터와 평가 데이터 간 성능 차이도 함께 증가하지만, Dev 기준으로도 충분히 이득을 본다.
- 이는 Transformer의 각 층이 고유한 유용한 표현을 학습하고 있음을 의미
2. 사전학습 업데이트 수에 따른 제로샷 성능 변화
- X축 (로그 스케일): 사전학습 업데이트 횟수 (예: 10³ ~ 10⁶)
- Y축: 각 태스크별 상대 성능 (baseline~state-of-the-art 사이 정규화됨)
- 선 색상:
- 파란색: Sentiment analysis (감정 분석)
- 초록색: Winograd schema resolution (문맥 기반 의미 추론)
- 주황색: Linguistic acceptability (문법적 수용성 판단)
- 빨간색: Question answering (질문 응답)
- 검정 실선: Transformer 모델
- 회색 점선: LSTM 모델
해석:
- 사전학습 업데이트가 증가할수록 거의 모든 태스크에서 성능이 꾸준히 상승
- Transformer는 대부분의 태스크에서 LSTM보다 훨씬 높은 제로샷 성능을 기록
- 특히 감정 분석(SST-2), 문법성 판단(CoLA), QA 태스크에서도 명확한 개선이 나타남
- 이는 GPT가 사전학습만으로도 일반적인 언어 이해 능력을 갖췄다는 증거
Ablation Study
- 보조 언어 모델링 손실을 미세조정에서 제외하면 일부 태스크에서 성능 저하가 발생, 특히 데이터가 큰 태스크에서 보조 목표의 중요성을 확인했다.
- Transformer는 LSTM보다 평균 5.6점 높은 성능을 보여 장기 의존성 학습에 유리함을 입증했다.
사전학습 없이 지도학습만 진행하면 평균 14.8% 성능 저하가 나타나, 사전학습이 모델 성능과 일반화에 결정적임을 강조했다.
6. Conclusion
본 연구는 생성적 사전학습과 판별적 미세조정을 결합한 단일 범용 모델을 통해 강력한 자연어 이해를 달성하는 프레임워크를 제시한다.
대규모 연속 텍스트로 사전학습함으로써 모델은 풍부한 세계 지식과 장기 의존성 처리 능력을 자연스럽게 습득하고, 이를 다양한 판별 과제에 성공적으로 전이했다.
12개 데이터셋 중 9개에서 기존 최고 성능을 경신하며, 비지도 사전학습이 판별적 태스크 성능 향상의 핵심임을 입증했다. 또한 Transformer 아키텍처와 긴 문맥을 담은 텍스트 데이터가 이 접근법에 특히 효과적임을 보여준다.
'딥러닝' 카테고리의 다른 글
| [딥러닝] BERT 논문읽기 (0) | 2025.05.22 |
|---|---|
| [딥러닝] Transformer 논문 읽기 (1) | 2025.05.12 |
| [딥러닝] LSTM의 gate (초간단 정리) (0) | 2025.05.05 |
| [딥러닝] Seq2Seq 논문 읽기 (0) | 2025.05.05 |
| [딥러닝] GRU 논문읽기 (0) | 2025.03.30 |