BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

Notice

Notice

Recent Posts

Recent Comments

Link

« 2025/02 »
일	월	화	수	목	금	토
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28

Tags more

Archives

관리 메뉴

𝘚𝘭𝘰𝘸 𝘣𝘶𝘵 𝘴𝘵𝘦𝘢𝘥𝘺

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding - BERT 바닥까지 이해하기 본문

machine learning

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding - BERT 바닥까지 이해하기

.23 2025. 2. 24. 20:42

남들 DeepSeek 읽을때 이제서야 BERT 읽고 정리한다

https://arxiv.org/abs/1810.04805

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

We introduce a new language representation model called BERT, which stands for Bidirectional Encoder Representations from Transformers. Unlike recent language representation models, BERT is designed to pre-train deep bidirectional representations from unla

arxiv.org

NLP계의 조상님, 혁신, 어쩌고였던 "그" 논문

마침 발표할 기회가 찾아 와서 읽고 정리해보았습니다.

Abstract

BERT란?

Bidirectional Encoder Representation from Transformers

직역하면 Transformer 기반 양방향 인코더 representation

Label 되지 않은 text를 모든 layer의 왼쪽, 오른쪽 문맥 모두에서 공동으로(jointly) conditioning*

* conditioning: 어떤 정보를 입력(조건)으로 사용하여 모델을 학습하거나 예측을 수행하는 것

→ 문장의 왼쪽과 오른쪽 정보를 동시에 고려하여 모델이 학습

Pre-trained BERT 모델은 단 하나의 additional output layer로 fine-tuning → 다양한 범위의 task(e.g. 질의응답, 언어추론 등) 처리 가능한 모델 생성 가능

Introduction

BERT가 뭔데?; Language model pre-training

사전 학습된 언어 모델들은 대표적으로 다음과 같은 자연어 처리 문제(downstream task)를 해결해왔다.

문장 단위로 해석하면 sentence-level task, 문장을 쪼개어 해석하면 token-level task라고 한다.

✔️ Sentence-level task(자연어 추론, paraphrasing): 문장 전체의 의미를 이해하고, 문장 간 관계를 판단하는 task

- 자연어 추론(Natural language inference): 주어진 두 문장이 포함(entailment) / 모순(contradiction) / 중립(neutral) 관계인지 분류
e.g. 하늘은 청명하다. / 비가 오지 않는다. → 포함 관계

- 문장 유사도 판별(paraphrasing): 두 문장이 같은 의미를 갖고 있는지 판단하는 task
e.g. 그는 차를 새로 샀다. / 그 자동차는 그에 의해 구매되었다. → paraphrase

- 감정 분석(Sentiment analysis): 문장이 긍정적인지, 부정적인지 분류하는 task

✔️ Token-level task(named-entity recognition, question-answering): 문장 내 개별 단어나 구(phrase)의 의미를 예측하는 task

- Named-Entity Recognition(NER, 개체명 인식): 문장에서 사람, 장소, 조직명 등 태깅하는 태스크

e.g. 애플(Apple)은 스티브 잡스에 의해 캘리포니아에서 설립되었다.

Apple → 기업
스티브 잡스 → 인물
캘리포니아 → 지명

- Question Answering(QA): 문장에서 질문에 대한 정답이 되는 부분을 찾아내는 태스크

e.g.

문장: 애플(Apple)은 스티브 잡스에 의해 캘리포니아에서 설립되었다.

Q. 누가 애플을 설립했는가?

→ A. 스티브 잡스

- Part-of-Speech Tagging(POS, 품사 태깅): 문장의 각 단어에 대해 품사를 부여하는 태스크

원랜 어떻게 했는데?; **Downstream task* 에 pre-trained language representation 적용하기 위한 기존의 전략**

* downstream task: 자연어처리로 해결하고자 하는 문제

앞서 소개한 다양한 downstream task들을 처리하기 위해 사전학습 언어 모델들은 다양하게 진화해왔는데,

모델을 어떻게 학습하느냐에 따라 크게 Feature-based approach와 Fine-tuning based approach로 나눌 수 있다.

✔️ Feature-based approach

- 사전학습된 representation을 추가적 feature로 포함하는 task별 구조 사용

- 즉, 사전학습된 표현 → task 별 모델에 붙이는 방식, 따라서 task 별 모델 추가적으로 필요

- 사전학습된 모델 자체는 건들지 않고, 해당 모델에서 나온 표현만 사용

다시 말하자면 얘는 pre-trained model(ELMo, …) 등을 그냥 단순히 feature extractor로만 사용 → task 처리를 위한 모델은 별도로 정의

✔️ Fine-tuning based approach

- 최소한의 task별 파라미터 도입,모든 파라미터 fine-tuning하여 task에서 학습

- 즉, 사전학습된 모델 자체를 task별로 fine-tuning을 진행하여 학습하는 방식

- 사전 학습된 모델을 fine-tuning → 그 모델로 task 학습 진행

얘는 pre-trained model 자체를 학습해서 task까지 처리함. BERT 역시 fine-tuning based approach

→ 둘 다 결국은 pre-training 과정까지는 동일한 목적 수행(문장으로부터 representation 생성)

기존 방식들의 특징:

- 이러한 방식들은 pre-trained representation 능력 제한(특히 fine-tuning 기반 방법론들)

- 그 representation을 얻을 때 단방향 언어 모델(unidirectional language model) 사용

그래서 왜 BERT가 제안이 되었는데?; 기존 pre-trained language model들의 한계

✔️ 단방향(unidirectional) 학습

→ pre-training 도중 활용될 수 있는 구조(architecture) 선택에 제한됨.

- OpenAI GPT같은 친구들은 left-to-right architecture 사용 → 모든 토큰은 이전 토큰만 참고(attend) 가능함(causal masking)

- 단방향 학습모델은 문맥 파악이 어렵기 때문에 sentence-level task나 fine-tuning 기반 모델이 token-level task를 해결하려 할 때 최적의 결과를 도출할 수 없음

OpenAI GPT: auto-regressive model*

* auto-regressive model: 자기회귀 모형, 출력 변수가 자신의 이전 값과 확률적 항에 선형적으로 의존함

The cat sat on the mat.

→ GPT에서 'sat' 처리(추론) 시, ‘The’, ‘cat’ 만 참고 가능, 이후 ‘on’, ‘the’, ‘mat’은 볼 수 없음. 이후 단어를 보려 하면 정답지(’sat’)를 보게 될 수 있음.

뭐가 새롭지?; Contribution

✔️ 언어 표현(language representation)을 위한 양방향 사전 학습 모델 제안

- 마스킹 처리된 언어 모델 사용 → 좌우 문맥 동시에 파악 → 더 깊은 문맥 파악을 가능하게 하는 양방향 심층 표현 학습(deep bidirectional representation) 가능

✔️ 사전 학습된 표현은 많은 task별 architecture의 필요성을 줄여줄 수 있음 → 굳이 representation learning에 새로운 architecture를 설계하지 않아도 됨

- 예전에는 각 NLP 태스크마다 맞춤형 모델이 필요했다.

- Task-specific한/복잡한 구조 없이 BERT를 통해 좋은 성능 낼 수 있음

BERT는: [fine-tuning 기반 사전 학습 언어모델]

✔️ MLM(Masked-Language Model) 사용하여 단방향 모델의 한계 극복

- 입력 문장의 일부 토큰을 무작위로 마스킹 진행

- 목적은 문장의 문맥’만’ 파악하여 마스킹 된 단어의 원래 id 예측

- 단방향 사전학습 모델과 비교했을 때 MLM은 양방향의 문맥을 융합하여 deep bidirectional Transformer 사전 학습 가능

✔️ NSP(Next Senetence Prediction; 다음 문장 예측) 수행

- 이어지는 문장쌍을 하나의 입력 문장/시퀀스로 사용하여 사전 학습(pre-training) 진행

Model Architecture

BERT의 모델 구조: multi-layer bidirectional Transfomer encoder → 실제 Transformer의 encoder와 거의 유사한 구조를 사용함

실험을 위해 사용한 모델로는 BERT_BASE, BERT_LARGE

✔️ BERT_BASE

- L (encoder layer): 12

- H (hidden size(토큰당 학습되는 차원의 길이)): 768

- 최대 512개 토큰까지 입력 가능 → 최대 입력 데이터의 크기는 (512, 768)

- A (Self-attention head): 12

- feed-forward/filter size to be 4H (3072 for the H=768)

✔️ BERT_LARGE

- L: 24

- H: 1024

- A: 16

- feed-forward/filter size to be 4H (4096 for the H=1024)

BERT

학습 단계: 사전 학습(pre-training) & 미세 조정(fine-tuning).

Pre-training 단계를 통해 범용적인 언어 패턴을 학습한 후, fine-tuning 단계를 통해 자연어 처리 문제 (NLP downstream task) 를 해결한다. 예를 들자면, 사전 학습 단계는 단어사전을 만드는 과정이고, 미세 조정 단계에서는 단어사전을 기반으로 전공 용어 사전을 만든다.

✔️ Pre-training: label 되지 않은 데이터로 pre-trainned task(MLM / NSP) 수행하며 represenation 학습

- 즉, 사람이 정답(라벨)을 제공하지 않은 문장들을 학습(self-supervised learning 관점 → 모델이 label 스스로 생성)

✔️ Fine-tuning: 사전 학습된 parameter로 초기화 → downstream task의 labeled data 활용하여 parameter들 fine-tuning 수행(supervised learning의 영역)

BERT의 가장 큰 특징은 task에 관계 없이 단일 구조를 사용한다는 점이다.

- 사전 학습에 사용하는 모델 구조와 미세 조정을 위해 설계된 모델에는 거의 차이 존재하지 않음. Fine-tuning 단계에서 task에 맞는 layer(e.g. 문장 분류를 위한 분류기) 추가하여 학습 진행함

Input/Output Representations

✔️ 입력 표현(input representation)

- 입력 시퀀스는 단일 문장, 문장 쌍(질의응답, 자연어 추론 등에 사용) 전부 커버 가능하다.

- 각 문장들을 토큰화하여 표현한다. 이때, 토큰화에는 WordPiece embedding을 사용한다.

・ WordPiece는 3만여개의 token vocabulary로 구성되어있다.

・ 입력 시퀀스들은 WordPiece 토크나이저를 기준으로 토큰화를 하되, 토큰은 subword를 기준(subword-level)으로 진행된다.

e.g. "I love cats" → ["I", "love", "cats"], "unhappiness" → ["un", "##happiness"], "electroencephalography" → ["electro", "##ence", "##phal", "##ography"]

이후 각 토큰별로 ‘Token embeddings’ + ‘Segment Embeddings’ + ‘Position Embeddings’를 연산 후 concat하여 최종 input embedding 또는 representation 구성한다.

💡 Input representation vs Output representation ?

- Input representation은 transformer Encoder에 입력되는 Token, Segment, Position Embedding의 조합이다.

- Output Representation은 Transformer Encoder를 거친 후 생성되는 최종 Hidden Representation으로, 다양한 다운스트림 태스크에서 활용된다.

특징 1. 입력 표현의 항상 가장 처음 토큰은 [CLS]

- 이 토큰의 최종 학습 결과는 문장 전체의 정보를 압축한 벡터(aggregate sequence representation)

- 문장 단위 분류(Classification Task)를 진행할 때, 전체 문장의 의미를 대표하는 벡터로 사용됨

특징 2. QA task를 위해 두 문장쌍을 같이 학습하는 경우, 두 문장 간 구분에는 [SEP] 토큰 사용

- Segment embeddings: 각 토큰이 문장 A 또는 문장 B에 속하는지를 나타내는 "Segment Embedding"을 추가적으로 학습 ⬅️ Transformer와 다른점

✔️ Output representation

- Transformer Encoder의 최종 벡터

- Token + Position + Segment Embedding(입력 표현)과 동일한 차원, 동일한 형태

BERT BASE모델에서는 입, 출력 벡터 모두 (입력 토큰 수 x 768), BERT LARGE 모델에서는 (입력 토큰 수 x 1024)

- 다만, downstream task에 최적화된 정교한 embedding 결과 출력

Pre-training 결과 (General Representation)	MLM(마스크된 단어 예측)과 NSP(문장 관계 예측)를 학습한 범용적인 표현
Fine-tuning 결과 (Task-Specific Representation)	다운스트림 태스크(감성 분석, QA 등)에 최적화된 형태로 변형됨

Pre-training BERT

사전 학습 단계에서는 두가지 비지도학습 기반 task 활용하여 BERT의 pre-training을 진행한다.

Task #1: Masked LM

GPT와 같은 기존 언어 모델들이 한쪽으로만 학습을 했던 이유는 양방향으로 학습하게 되면 예측 대상 단어를 학습 시 봐버리는데, 그럼 모델이 예측하려는 단어를 이미 알게 되어 예측 자체가 무의미해질 수 있다. 따라서 BERT에서는 학습시 각 시퀀스 별 무작위로 일부(15%) 토큰을 마스킹해서 가려버리고, 마스킹 된 토큰([MASKED] 상태)의 토큰 ID를 예측하게 한다. 이를 MLM(Masked-Language Model)이라 한다.

그러나 fine-tuning 단계에서는 학습 시 [MASK] 토큰을 사용하지 않기 때문에, 같은 문장을 학습하더라도 두 학습 단계에서 같은 토큰이 서로 다른 방향으로 학습 될 수 있다. 이를 mismatch 문제라고 한다.

예를 들어,

'The cat is lying on the couch.' 라는 문장을 BERT의 양 학습 단계에서 학습한다고 가정할 때,

Pre-training 단계에서 'The cat is [MASKED] on the couch.' 라는 문장이 들어와서 문맥 학습을 통해 [MASKED] 된 자리에 lying이 아닌 자다(sleeping), 앉다(sit) 등의 토큰이 예측되어 '눕다'가 아닌 다른 문맥적인 의미의 단어 표현이 학습 될 가능성이 존재한다. 그러나 fine-tuning 단계에서는 온전한 'The cat is lying on the couch.' 문장을 활용하기 때문에, 두 표현이 달라지는 mismatch 문제가 발생한다.

위와 같은 mismatch 문제를 방지하기 위해 BERT에서는 15%의 토큰을 무작위로 선택하여 선택한 토큰 중

- 80%는 [MASK] 토큰으로 대체

- 10%는 무작위 토큰

- 10%는 변경하지 않는다. (따라서 실제로는 13.5%의 토큰만 실제 토큰이 아닌 다른 토큰으로 변경된다고 보면 된다.)

위와 같은 방식으로 학습하여 의도적으로 학습 데이터에 노이즈를 끼워줌으로써 모델이 특정 방향으로 과적합 되지 않도록 일반화 능력을 키운다.

Task #2: Next Sentence Prediction(NSP)

질의응답같은 task에서 중요한 것은 ‘두 문장 사이 관계’이다. 따라서 NSP task에서는 두 개의 문장을 입력 받아, 이들이 실제 연속된 문장인지 아닌지를 맞히는 이진 분류 문제를 해결한다. 학습 방식은 다음과 같다.

✔️ 문장 A와 B가 들어온다고 할때, 실제 B가 A 다음 이어질 문장이 될 확률은 50%이다.

- B가 A에 이어지는 문장인 경우 'IsNext'

- B가 corpus에서 추출한 무작위 문장인 경우 'NotNext'

✔️ 이때의 [CLS] 토큰은 문맥적 내용 담고 있는 vector로서 학습된다.

- 최종 벡터는 두 문장(A, B) 전체의 문맥적 정보를 포함하는 벡터로 학습된다.

이와 같은 학습 방식은 학습 데이터가 두 문장 쌍으로 이루어진 질의응답(QA)과 자연어 추론(NLI) task에서 매우 유용하다.

정리하자면, Pre-training 단계에서는 MLM과 NSP 두 개의 Loss를 동시에 최적화(공동 학습)하는 방식으로 학습된다. 입력 문장이 주어지면, 모델이 동시에 '단어 복원(MLM)'과 '문장 관계 예측(NSP)'을 수행하도록 학습하여 보다 일반화된 언어 패턴을 학습한다.

Fine-tuning BERT

기존에 입력 데이터로써 문장 쌍을 학습하는 application들은 보통 문장 쌍을 독립적으로 encoding 했다. 그러나 BERT는 self-attention 통해 왼→오, 오→왼 양방향의 문맥 학습을 통합하였고, 이를 통해 학습의 효율성을 향상시켰다.

+ BiLSTM은 양방향 학습모델이지만, 단방향으로 두 번 학습을 진행하기 때문에 BERT에 비해 효율성이 떨어지는 한계가 존재한다.

BERT에서의 self-attention은 각 토큰이 문장 내 모든 단어들과 직접 연결될 수 있도록 하여 문맥을 더 깊이 이해하는 데 도움을 주는 역할을 한다. Transformer 내 Encoder의 Multi-Head Attention 부분에서 각 head별로 서로 다른 단어·패턴(e.g. 주어-목적어, 주어-동사, 목적어-동사, ...)을 집중적으로 학습하게 되는데, BERT에서는 Multi-Head Attention 메커니즘을 활용하여 문장의 각 토큰이 문장 내 다른 모든 토큰과 상호작용할 수 있도록 학습된다. 이러한 self-attention을 통해 연결된 문장 쌍 간의 관계를 encoding하게 되면 두 문장 사이 bidirectional cross attention 효과적으로 포함 가능하다. 즉, self-attention은 문장 A와 B가 서로를 참고하면서 이러한 문맥이 encoding에 적용된다. 또한, 그에 따라 문장 A의 특정 단어가 문장 B의 정보를 참고할 수 있고, 반대로도 가능하게 된다.

BERT의 fine-tuning 단게에서는 task 별 입력과 출력 데이터를 BERT에 연결지어 parameter들을 end-to-end로 미세 조정하여 학습한다. 각 task별 입력으로 주어지는 문장 쌍 학습 데이터는 다음과 같이 구성된다.

- Paraphrasing(유의어 처리): 유사도 측정하고자 하는 문장 쌍

- Entailment(자연어 추론): 가설 - 전제 쌍

- QA(질의응답): 질문-(정보가 주어진)문장 쌍

- 문장 분류: 단일 문장-공집합 쌍(품사 태깅/문장 요약과 같은 task에는 문장이 쌍으로 존재하지 않아도 됨)

학습 후 주어지는 output은 다음과 같다.

- 개별 token: 각 개별 token의 필요한 representation이 학습된다.

- [CLS]: 학습된 문장의 전체적인 요약과 같은 내용, 포함관계 예측, 감정 분석 등에 사용되는 representation이 학습된다.

저작자표시

'machine learning' 카테고리의 다른 글

A Tutorial on Spectral Clustering - 스펙트럴 클러스터링 (1)	2023.03.21

'machine learning' Related Articles

A Tutorial on Spectral Clustering - 스펙트럴 클러스터링 2023.03.21

Comments