์ผ | ์ | ํ | ์ | ๋ชฉ | ๊ธ | ํ |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- ๋ฐ์ดํฐ๋ฒ ์ด์ค
- ๋ณํฉ์ ๋ ฌ
- ์์ํ์
- skala
- ๊ทธ๋ํ
- ๊ตฌํ
- ๋ฐฑ์ค
- LIS
- ๋จธ์ง์ํธ
- ๊ทธ๋ฆฌ๋
- ์ค๋ธ์
- ์ ๋ ฌ
- ์๊ณ ๋ฆฌ์ฆ
- ๋๋น์ฐ์ ํ์
- ๊น์ด์ฐ์ ํ์
- ์ํ
- ํ๋ก๊ทธ๋๋จธ์ค
- db
- ํฐ์คํ ๋ฆฌ์ฑ๋ฆฐ์ง
- ํ์ด์ฌ
- ๊ทธ๋ํํ์
- DP
- SQL
- ๋์ ํฉ
- skala1๊ธฐ
- ๋์ ๊ณํ๋ฒ
- BFS
- ๋ค์ด๋๋ฏนํ๋ก๊ทธ๋๋ฐ
- ์ฐ์ ์์ํ
- DFS
- Today
- Total
๐๐ญ๐ฐ๐ธ ๐ฃ๐ถ๐ต ๐ด๐ต๐ฆ๐ข๐ฅ๐บ
GPT-1, GPT-2, GPT-3 ์ดํดํ๊ธฐ ๋ณธ๋ฌธ
์ด๋๋ง ์ธ๊ณต์ง๋ฅ์ ๋๋ช ์ฌ๊ฐ ๋ GPT..
OpenAI์ GPT์ ์ด๊ธฐ ๋ชจ๋ธ์ด์๋ GPT-1, GPT-2, GPT-3๋ฅผ ์ด์ ์ผ ์ฝ๊ณ ์ ๋ฆฌํด๋ณด์๋ค.
GPT-1, 2, 3 ๋ ผ๋ฌธ ์ ๋ฆฌ
GPT-1: Improving Language Understanding by Generative Pre-Training
GPT-2: Language Models are Unsupervised Multitask Learners
GPT-3: Language Models are Few-Shot Learners
GPT๋?
Generative Pre-Trained Transformer๋ก, ๋ง ๊ทธ๋๋ก
์ฌ์ ํ๋ จ๋ Transformer ๋ชจ๋ธ ๊ธฐ๋ฐ ์ธ์ด ์์ฑ ๋ชจ๋ธ์ด๋ค.
์ฆ, GPT-1, 2, 3 ๊ทธ ์ธ ๋ชจ๋ GPT ๋ชจ๋ธ์ Decoder-only ๊ตฌ์กฐ๋ก, Transformer๊ฐ sequence๋ฅผ ์ ๋ ฅ๋ฐ์ ์ดํดํ ๋ค(encoder) sequence๋ฅผ ์์ฑํ๋/์ถ๋ ฅํ๋(decoder) trasnduction task๋ฅผ ์ํํ๋ ๋ชจ๋ธ์ด๋ผ๋ฉด,
GPT๋ encoder layer ์์ด ํ๋กฌํํธ๋ฅผ ์ ๋ ฅ๋ฐ์ ๊ทธ ๋ค์ sequence๋ค์ ์์ฑํ๋ ๋ชจ๋ธ์ด๋ค.
์ด๋ฌํ GPT ๋ ผ๋ฌธ์ 1, 2, 3๊น์ง ๋ชจ๋ธ์ด ๋์ค๋ ๋์ ๋ ๊ฐ์ ๊ณตํต์ ์ธ ๋ฌธ์ ํด๊ฒฐ์ ์ํด ์ง์์ ์ผ๋ก ๋ฐ์ ๋์ด์๋ค.
1. Label ๋ ๋ฐ์ดํฐ์ ๋ถ์กฑ
์๋ฌด๋ฆฌ ํ ์คํธ ๋ฐ์ดํฐ์ ์์ด ๋ฐฉ๋ํ๋ค ํ์ฌ๋ ๋ค์ํ NLP task ๋ณ ๋ชจ๋ธ ํ์ต์ ์ํด ํ์ํ ๋ค๋์ label ๋ ๋ฐ์ดํฐ๋ฅผ ํ๋ณดํ๊ธฐ๋ ์ด๋ ต๋ค. ๋ชจ๋ธ์ด '์' ํ์ต๋๊ธฐ ์ํด์๋ ์ต์ ์ฒ ~ ์ญ๋ง ๋จ์์ ๋ฐ์ดํฐ๊ฐ ํ์ํ๋ฐ, ์ฌ๋์ด ์ผ์ผํ ๋ผ๋ฒจ๋งํ ๋ช ๋ง๊ฐ์ ๋ฐ์ดํฐ์ ์ ๊ตฌํ๋ ๊ฒ์ ์๋นํ ๋น์ฉ ์ง์ฝ์ ์ด๋ค. ์ด๋ฅผ ๊ทน๋ณตํ๊ธฐ ์ํด ๊ธฐ์กด ๋ชจ๋ธ๋ค์ ๋ค๋์ unlabeled data๋ฅผ ํ์ฉํ unsupervised pre-training ๊ณผ์ ์ ํตํด ๋ชจ๋ธ์ ์ผ๋ฐํ ๋ฅ๋ ฅ์ ๊ทน๋ํ ์ํค๊ณ ์ ํ์๋ค.
2. ๋๋๋ ๋ฒ์ฉ์ ์ธ ๋ชจ๋ธ
๊ทธ๋ ๊ฒ pre-training > fine-tuning ๊ธฐ๋ฐ์ ์ ์ด ํ์ต ํ๋ ์์ํฌ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์ ์๋์๋ ๊ฒ์ด GPT-1์ธ๋ฐ, ๊ทธ fine-tuning ๊ณผ์ ์กฐ์ฐจ๋ ๋ฐ์ดํฐ์ ๋ํ ๋น์ฉ์ด ๋ถ๋ด์ค๋ฝ๋ค๊ณ ์ ์๋์๋ ๊ฒ์ด GPT-2 ์ดํ์ ๋ชจ๋ธ์ด๋ค. Fine-tuning ๊ณผ์ ๋ ์ด์จ๋ supervised-learning ๊ธฐ๋ฐ์ด๋ฏ๋ก, ์ํ๋ task์ ์ ํฉํ label๋ ๋ฐ์ดํฐ๊ฐ ํ์ํ๋ค. ๋ฐ๋ผ์, GPT-2 ์ดํ์๋ ๋์ฑ ์ผ๋ฐํ๋ ๋ชจ๋ธ์ ๋ง๋ค๊ธฐ ์ํด few-shot learning์ด๋ zero-shot learning ํ๋ ์์ํฌ๋ฅผ ์์ ๋ชจ๋ธ ๊ตฌ์กฐ๋ ํ๋ผ๋ฏธํฐ์ ์์ ์์ด ์ฌ์ ํ๋ จ ํ ๋ฐ๋ก ๋ค์ํ ๋ฌธ์ ์ ์ ์ฉํ ์ ์๋ ๋ชจ๋ธ์ ์ ์ํ๊ณ ์ ํ์๋ค.
GPT-1, 2, 3์ ์์ฝ ๋ฐ ๋ฐ์ ๋ฐฉํฅ ๋น๊ต
์ฐ๋ฆฌ๋ ์ฐ๋ฆฌ์๊ฒ ์๋ก์ด ์์ด๋์ด๊ฐ ํ์ํ๋ค๊ณ ์๊ฐํ์ง๋ง,
๊ท๋ชจ๋ฅผ ํค์ฐ๋ ๊ฒ๋ง์ผ๋ก๋ ์ฐ๋ฆฌ๊ฐ ์ํ๋ ๋ฐ๋ฅผ ๊ตฌํํ ์ ์์๋ค.
GPT-1; Improving Language Understanding by Generative Pre-Training
๋ฑ์ฅ ๋ฐฐ๊ฒฝ
๋ค์ํ NLP ๋ถ์ผ์ ๋ ผ๋ฌธ์๋ ๋์์๋ ๋ง์ด์ง๋ง, ์์ฐ์ด๋ฅผ ์ดํดํ๋ task๋ ๊ต์ฅํ ๋ค์ํ๋ค. Textual entailment, question-answering, semantic simliarity assessment, ๋ฑ๋ฑ๋ฑ.. ๋ง์ฐฌ๊ฐ์ง๋ก plain ์ธ์ด ๋ฐ์ดํฐ๋ ์ด๋ ๊ฐ๋ ํํ๋ค. ๋น์ฅ ์น ํ๋๋ง ์ฐ์ด ๊ธ์ด์ค๊ธฐ๋ง ํด๋ ๋ฐฉ๋ํ ์์ ๋ฐ์ดํฐ๋ฅผ ๊ตฌํ ์ ์๋ค.
๊ทธ๋ฌ๋ Task ๋ณ๋ก ๋ชจ๋ธ์ ํ์ตํ๊ธฐ ์ํด ํ์ํ 'label์ด ์๋' ๋ฐ์ดํฐ๋ ํ์น ์๋ค.
๊ทธ๋ ๊ธฐ ๋๋ฌธ์ label ๋์ง ์์ ์ถฉ๋ถํ ์์ ํ ์คํธ ๋ฐ์ดํฐ๋ฅผ ํ์ฉํ pre-train ๋ ์์ฑ ๋ชจ๋ธ์ด ํ์ํ๋ค. ๋ฐ๋ผ์ GPT-1์์๋ ๋น์ง๋ ํ์ต ๊ธฐ๋ฐ์ pre-training ๋จ๊ณ์, task ๋ณ ์ง๋ ํ์ต ๊ธฐ๋ฐ fine-tuning ๋จ๊ณ๋ฅผ ๊ฑฐ์ณ ํ์ต์ ์งํํ๋ semi-supervised learning ๋ฐฉ์์ ์ฌ์ฉํ๋ค.
๋ชจ๋ธ ๊ตฌ์กฐ
GPT ๋ชจ๋ธ์ ์ ๋ฐ์ ์ผ๋ก Transformer์ ๋์ฝ๋ ๊ตฌ์กฐ๋ฅผ ํ์ฉํ๋ค. Attention ๋ฉ์ปค๋์ฆ์ ํตํด ์ฅ๊ธฐ ์์กด์ฑ ๋ฌธ์ ๋ฅผ ํจ๊ณผ์ ์ผ๋ก ๊ทน๋ณตํ๊ณ ๋ค์ํ ํ์คํฌ์ ์ ์ฉํ ์ ์๊ธฐ ๋๋ฌธ์, ์ ์ด ํ์ต์ ํ์ฉํ์ฌ ๊ฐ๋ ฅํ๊ณ ๊ฒฌ๊ณ ํ ์ฑ๋ฅ์ ๋ฌ์ฑํ ์ ์๊ธฐ ๋๋ฌธ์ด๋ค. GPT๋ masked self-attention๊ณผ position-wise feed-forward์ ๋ ๊ฐ sub-layer๋ก ๊ตฌ์ฑ๋์ด ์๊ธฐํ๊ท์ (auto-regressive) ๋ฐฉ์์ ๊ธฐ๋ฐ์ผ๋ก ์ด์ ํ ํฐ ์ ๋ณด๋ง์ ํ์ฉํ์ฌ ๋ค์ ํ ํฐ์ ์์ธกํ๋ค.
ํ์ต ๋ฐฉ๋ฒ
๋น์ง๋ ํ์ต ๊ธฐ๋ฐ์ ์ฌ์ ํ์ต ๋จ๊ณ์์๋ ๋ค๋์ ๋ง๋ญ์น ๋ฐ์ดํฐ๋ก๋ถํฐ ์ธ์ด์ ๋ณต์กํ ํจํด ๋ฅ๋ ฅ์ ํ์ตํ๋ ๋ฅ๋ ฅ์ ๊ฐ์ง ๋ชจ๋ธ์ ํ์ตํ๊ณ ,
์ง๋ํ์ต ๊ธฐ๋ฐ fine-tuning ๋จ๊ณ์์๋ task๋ณ ์ ํฉํ ๋ชจ๋ธ๋ก tuningํ๋ ๊ณผ์ ์ ๊ฑฐ์ณ ์ํ๋ ํ ํฐ๋ค์ ์์ธกํ์ฌ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ค.
Unsupervised pre-training
$\mathcal U=\{u_1, \dots, u_n \}$ ์ด label ์ ๋ณด๊ฐ ์๋ ๋ง๋ญ์น ํ ํฐ๋ค์ด๋ผ๊ณ ํ ๋, ์๋์ ๊ฐ๋ฅ๋ ์์์ ์ต๋ํํ๋ ์ธ์ด ๋ชจ๋ธ ์ค๊ณํ๋ ๊ฒ์ด pre-training ๋จ๊ณ์ ๋ชฉํ์ด๋ค.
$$ L_1(\mathcal U)=\sum_i\log P(u_i|u_{i-k}, \dots, u_{i-1};\Theta) $$
์ด ๋, $k$๋ context window์ ํฌ๊ธฐ์ด๊ณ P๋ ํ๋ผ๋ฏธํฐ์งํฉ $\Theta$๋ฅผ ์ฌ์ฉํ์ฌ ๋ชจ๋ธ๋ง๋๋ ์ ๊ฒฝ๋ง์ ์กฐ๊ฑด๋ถ ํ๋ฅ ์ด๋ค.
์ ์์ ์๋ฏธ๋ฅผ ํด์ํ์๋ฉด,
์ต์ข ์ ์ธ ๋ชฉํ๋ $\mathcal U=\{u_1, \dots, u_n \}$์ ๊ฐ ํ ํฐ $u_i$๋ฅผ ์ด์ k๊ฐ์ ํ ํฐ์ ์กฐ๊ฑด์ผ๋ก ์์ธกํ๋ ํ๋ฅ ์ log likelihood๋ฅผ ์ต๋ํ ํ๋ ๊ฒ์ด๋ค. ์ฆ, i๋ฒ์งธ ํ ํฐ์ (i-k)๋ฒ์งธ ํ ํฐ๋ถํฐ (i-1)๋ฒ์งธ ํ ํฐ์ ๊ธฐ๋ฐ์ผ๋ก ํ์ตํ์์๋, ๋ชจ๋ธ์ด ์กฐ๊ฑด๋ถ ํ๋ฅ ๋ถํฌ๋ฅผ ๊ณ์ฐํ๊ณ , ๊ทธ ๋ถํฌ์์ ๊ฐ์ฅ ๋์ ํ๋ฅ ์ ๊ฐ์ง ํ ํฐ์ด ์์ธก๋๋ค. ์ด๋ ์๋ํ๊ท ๋ฐฉ์์ maximum likelihood estimation(์ต๋ ์ฐ๋ ์ถ์ ) ๋ชฉ์ ํจ์์ ํด๋นํ๋ค.
์ ์์์ ํตํด ํ์ต์ ํ ๋, MLE ํตํด ์กฐ๊ฑด๋ถํ๋ฅ ์ ์ต๋ํํ๋ ๋ฐฉ์์ผ๋ก ๋ชจ๋ธ ํ๋ผ๋ฏธํฐ Θ๋ฅผ ์ง์ ํ์ตํ๊ฒ ๋๋๋ฐ, ์ด ๋ ๋ชจ๋ธ์ ๋ฌธ๋งฅ ์ ๋ณด๋ฅผ ํ์ตํ๊ณ , ์ธ์ด์ ํต๊ณ์ ํจํด๊ณผ ๊ตฌ์กฐ๋ฅผ ๋ด์ฌํํ๊ฒ ๋๋ค. Context window์ธ k๋ ํ ํ ํฐ ์์ธก์ ๊ณ ๋ คํ๋ ์ด์ ํ ํฐ์ ๊ฐ์๋ก, ๋ชจ๋ธ์ด ๋ฌธ๋งฅ์ ์ผ๋ง๋ ๋ฉ๋ฆฌ๊น์ง ๋ฐ์ํ ๊ฒ์ธ์ง ๊ฒฐ์ ํ๋ค. ์ด๋ฅผ ํตํด pre-training ๋จ๊ณ์์๋ ๋ฒ์ฉ์ ์ด๊ณ ๊ฐ๋ ฅํ ํํ์ ํ์ตํ๊ฒ ๋๋ค.
Supervised fine-tuning
์์ MLE ์์์ผ๋ก๋ถํฐ ๋ชจ๋ธ์ ํ์ตํ๊ณ ๋๋ฉด, ํ์ต๋ ํ๋ผ๋ฏธํฐ๋ค์ ๊ธฐ๋ฐ์ผ๋ก supervised target task ์งํํ์ฌ ๋ชจ๋ธ ํ์ต์ ์งํํ๋ค. $\mathcal C$์ด label๋ ๋ฐ์ดํฐ์ ์ผ ๋, ๊ฐ instance๋ ์ํ์ค๋ค์ ์ ๋ ฅ ํ ํฐ $x^1,\dots,x^m$ ์ผ๋ก ๊ตฌ์ฑ, $y$๋ ํ๋์ ์ํ์ค์ ๋์๋๋ label์ ์๋ฏธํ๋ค.
์ ๋ ฅ๊ฐ์ Transformer์ ๋ง์ง๋ง ๋ ์ด์ด์์ ๋์จ ์ต์ข hidden state ๊ฐ($h_l^m$, ๊ฐ ํ ํฐ ๋๋ ์ ์ฒด ์ํ์ค์ ๋ํด ํ์ตํ ์ต์ข ๋ฌธ๋งฅ์ ํํ)์ ์๋ฏธํ๋ค. ์ด ๋ $l$์ layer ๋ธ๋ก ๋ฒํธ, $m$์ ํ ํฐ ์์น๋ฅผ ์๋ฏธํ๊ณ , ์ต์ข hidden state๋ ๋ง์ง๋ง ์ ํ ์ถ๋ ฅ Layer์์ $W_y$ ํ๋ผ๋ฏธํฐ์ ์ฐ์ฐ๋์ด $y$๊ฐ ์์ธก์ ์ฌ์ฉ๋๋ค.
$$ P(y|x^1, \dots,x^m)=\text{softmax}(h_l^mW_y) $$
์ด๋ฅผ ์์์ผ๋ก ์ ๋ฆฌํ๋ฉด ์์ ๊ฐ์๋ฐ, ์ ๋ ฅ ํ ํฐ์ ์ํด ๊ฒฐ์ ๋๋ label ์ ๋ณด $y$๋ $\text{softmax}(h_l^mW_y)$ ๋ฅผ ํตํด ์ฐ์ฐ ๊ฐ๋ฅํ๋ค.
์ต์ข ์ ์ผ๋ก ์ง๋ ํ์ต ๊ธฐ๋ฐ ๋ฏธ์ธ ์กฐ์ ๋จ๊ณ์์ ์ต๋ํํด์ผํ๋ ๋ชฉ์ ํจ์๋ ๋ค์๊ณผ ๊ฐ๋ค.
$$ L_2(\mathcal C)=\sum_{(x,y)}\log P(y|x^1, \dots, x^m) $$
๋ ๋จ๊ณ์ ํ์ต์ ๊ณ ๋ คํ ์ต์ข ์ ์ธ ๋ชฉ์ ํจ์๋ ๋ค์๊ณผ ๊ฐ๋ค.
$$ L_3(\mathcal C)=L_2(\mathcal C)+\lambda\ * \ L_1(\mathcal C) $$
- $L_1(\mathcal U)=\sum_i\log P(u_i|u_{i-k}, \dots, u_{i-1};\Theta)$
- $L_2(\mathcal C)=\sum_{(x,y)}\log P(y|x^1, \dots, x^m)$
์ ๋ ฅ ๋ฐ์ดํฐ ํ์
GPT์ ๊ฒฝ์ฐ, ํ๋์ ์ธ์ด ๋ชจ๋ธ์ด ๋ชจ๋ธ ๊ตฌ์กฐ์ ์์ ์์ด ๋ค์ํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ๊ฐ task๋ณ ์ ๋ ฅ ๋ฌธ์ฅ๋ค์ ๋จ์ผ sequence๋ก ํํํ๋ค. ๋ฐ๋ผ์, ๊ฐ task๋ณ๋ก ์์ ๊ฐ์ด ๋ค์ํ ํํ๋ก ๋ฌธ์ฅ ๊ตฌ์กฐ๋ฅผ ์์ ํ์ฌ ์ ๋ ฅ sequence๋ก ์ฌ์ฉํ๋ค.
Text entailment
์ ์ (premise, $p$) ๋ฌธ์ฅ๊ณผ ๊ฐ์ค(hypothesis, $h$) ๋ฌธ์ฅ์ delimiter token($)์ ์ฌ์ด์ ๋๊ณ concat
๋ฌธ์ฅ ์ ์ฌ๋
๋ ๋ฌธ์ฅ ์ฌ์ด์ ์ ํ๊ด๊ณ๋ ์๊ธฐ ๋๋ฌธ์ ๋๊ฐ์ง ๊ฒฝ์ฐ์ ์๋ฅผ ๋ชจ๋ ํฌํจ(A$B, B$A), ๊ฐ๊ฐ ๋ ๋ฆฝ์ ์ผ๋ก ์ฒ๋ฆฌํ๊ณ ๋ง์ง๋ง์ ๋ ๊ฐ์ ๋ฌธ์ฅ ๊ฒฐํฉํ์ฌ ์ต์ข ํํ $h^m_l$ ์์ฑ
์ง์์๋ต / ์์ ์ถ๋ก
Context document $z$, ์ง๋ฌธ $q$, ๊ฐ๋ฅํ ๋ต์ ๋ชฉ๋ก $\{a_k\}$ ์ฃผ์ด์ง
document text์ ์ง๋ฌธ๋ค์ ๊ฐ ๊ฐ๋ฅํ ๋ต๋ณ๋ค๊ณผ concatํ๊ณ , ๊ทธ ์ฌ์ด delimiter token ์ถ๊ฐํด์ $[z;q;\$;a_k]$ ๋ชจ์์ ์ ๋ ฅ ์ํ์ค ์์ฑ
๊ฐ๊ฐ์ ์ํ์ค๋ค์ ๋ ๋ฆฝ์ ์ผ๋ก ์ฒ๋ฆฌ๋ ํ ๋ง์ง๋ง์ softmax ์ ์ฉ๋์ด ๊ฐ๋ฅํ ๋ต๋ณ๋ค๋ก๋ถํฐ ์ถ๋ ฅ ๋ถํฌ ์์ฑ → ์ ๋ต์ธ ๋ฌธ์ฅ์ด ๊ฐ์ฅ ๋์ ํ๋ฅ ์ ๊ฐ์ง๋๋ก ํ์ต๋จ.
GPT-2; Language Models are Unsupervised Multitask Learners
๋ฑ์ฅ ๋ฐฐ๊ฒฝ
๊ธฐ์กด ML ๋ชจ๋ธ๋ค์ single-task learning์ด๋ผ๋ ๋ฌธ์ ๊ฐ ์กด์ฌํ๋ค. ํ ๋๋ฉ์ธ์ ๋ฐ์ดํฐ์ ์ ๋ํด ํ๋์ task๋ง ์ฒ๋ฆฌํ ์ ์๋๋ก ํ๋ จํ๋ ๊ฒ์ ๊ฒฐ๊ตญ ์ผ๋ฐํ ๋ฅ๋ ฅ์ ๋ถ์กฑ์ผ๋ก ์ด์ด์ง๋ค. ๊ทธ์ ๋ฐ๋ผ ํ์ฌ ๋ชจ๋ธ๋ค๋ก ๋ค์ํ task์ ์ ์ฉํ ์ ์๋ ์์คํ ์ ๋ง๋ค๊ธฐ ์ํด์๋ ๋ณด๋ค ๋์ ๋๋ฉ์ธ์ ๋ฐ์ดํฐ์ ๋์(broad) ํ์ต์ด ํ์ํ๋ค. NLP ๋ฌธ์ ์ค์์๋ GLUE, decaNLP์ ๊ฐ์ ๋ฐ์ดํฐ์ ์ด ๋ํ์ ์ผ๋ก ๋ค์ํ task๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ์ ์๋ ๋ฐ์ดํฐ์ ์ด๋ค.
์๋ก ์ ๋ณด๋ฉด ์๊ฒ ์ง๋ง, multi-task learning์ผ๋ก ์ ๊ทผํ์ฌ ์ด์ ๋ชจ๋ธ๋ณด๋ค ๋์ฑ ๋ ๋ฒ์ฉ์ ์ธ ์ธ์ด๋ชจ๋ธ์ ๋ง๋ค๊ณ ์ ์ ์๋ ๊ฒ์ด GPT-2 ์ด๋ค.
NLP์ multi-tasking?
์ด์ ์ํฉ์์ ์ผ๋ฐํ ์ฑ๋ฅ์ด ๋์ ๋ชจ๋ธ์ ์ ๋ํ๊ธฐ ์ํด์๋ ํฐ ๋ฐ์ดํฐ์ ์ด ํ์ํ๋ค. ๊ทธ๋ฆฌ๊ณ ์ธ์ด ๋ชจ๋ธ์์ ๊ฐ์ฅ ๋ง์ด ์ฌ์ฉ๋๋ ๋ฐฉ์์ ๋น์ง๋ ํ์ต ๊ธฐ๋ฐ ์ฌ์ ํ์ต + ์ง๋ํ์ต ๊ธฐ๋ฐ ๋ฏธ์ธ ์กฐ์ ๋จ๊ณ์ ํ์ต ํ๋ ์์ํฌ๊ฐ ๊ฐ์ฅ ๋ง์ด ์ฌ์ฉ๋๋ค(GPT-1๊ณผ ๊ฐ์ ๊ฒฝ์ฐ). ๊ทธ๋ฌ๋ ์ด์จ๋ ์ด๋ฌํ ๋ฐฉ์๋ค๋ ์ง๋ํ์ต ํ๋ จ ๋ฐฉ์์ด ํ์ํ๊ณ , ๋ง์ฝ label๋ ๋ฐ์ดํฐ๊ฐ ๋ถ์กฑํ๋ค๋ฉด ์ข์ ์ฑ๋ฅ์ ๋ชจ๋ธ์ ๋ฌ์ฑํ๊ธฐ๊ฐ ์ด๋ ค์ธ ๊ฒ์ด๋ค.
๊ทธ์ ๋ฐ๋ผ GPT-2์์๋ถํฐ๋ ์ธ์ด ๋ชจ๋ธ์ '์ผ๋ฐํ ๋ฅ๋ ฅ'์ ์กฐ๊ธ ๋ ์ด์ ์ ๋ง์ถฐ ์ธ์ด ๋ชจ๋ธ๊ณผ zero-shot learning์ ์ ๋ชฉํ์ฌ fine-tuning ๋จ๊ณ์ ๋น์ค์ ์ค์ด๊ณ ์ ํ์๋ค.
๋ฐฉ๋ฒ๋ก
์ธ์ด ๋ชจ๋ธ์ ์ฃผ๋ก ์ ๋ ฅ ๊ธธ์ด๊ฐ ์ ํด์ง์ง ์์ ํ ํฐ๋ค๋ก ๊ตฌ์ฑ๋ ๋ฌธ์ฅ๋ค๋ก๋ถํฐ ๋ถํฌ๋ฅผ ์ถ์ ํ๋ ๋ฐฉ์์ผ๋ก ํ์ต์ด ์งํ๋๋ค(MLE). ๊ฐ๊ฐ์ ๋ฌธ์ฅ๋ค์ ์ ํด์ง '์ฐ์์ ์์'๊ฐ ์๊ธฐ ๋๋ฌธ์, ์ด ํ ํฐ๋ค ๊ฐ ๊ฒฐํฉ ํ๋ฅ ์ ์กฐ๊ฑด๋ถ ํ๋ฅ ์ฐ์ฐ์ ๊ณฑ์ผ๋ก ๋ถํดํ์ฌ ๊ณ์ฐ ํ๋๊ฒ์ด ์ผ๋ฐ์ ์ด๋ค.
$$ p(x)=\prod_{i=1}^np(s_n|s_1,\dots,s_{n-1}) $$
๋ญ์๋ฆฌ๋๋ฉด transformer๊ฐ์ ๋ชจ๋ธ๋ค์ด ์์ ๊ฐ์ ์์์ ํตํด ์กฐ๊ฑด๋ถ ํ๋ฅ ์ฐ์ฐํ์ฌ ํ๋ฅ ๋ถํฌ ์ค ์ต๋ ํ๋ฅ ์ธ ํ ํฐ๋ค์ ์ฐ๋ฌ์ ์ฐ์ฐํ๋ ๋ฐฉ๋ฒ์ผ๋ก NLP task ์ฒ๋ฆฌ๋ค์ ์์ด ๋๋จํ ์ฑ๋ฅ ๊ฐ์ ์ ์ด๋ฃจ์ด๋๋ค.
Single task learning์์๋ $p(output|input)$ ๋ฅผ ์ถ์ ํ๋ ํํ๋ก ํ์ต์ด ์งํ๋๋ค๋ฉด, multi-task learning์์๋ ์ ๋ ฅ๊ฐ ๋ฟ ์๋๋ผ task๊น์ง ์กฐ๊ฑด์ ๊ณ ๋ ค๋์ด์ผ ํ๊ธฐ ๋๋ฌธ์, $p(output|input, task)$ ์ ๊ฐ์ ํํ๋ก ๋ชจ๋ธ์ด ์ ์๋์ด์ผ ํ๋ค.(์ด๊ฑด ๊ทธ๋ฅ multi-task learning์ ์ผ๋ฐ์ ์ธ ๊ณต์์ด๋ค.)
๊ทธ๋ฆฌ๊ณ ์ธ์ด๋ task, input, ouput์ ๋ชจ๋ ์ผ๋ จ์ ํ ํฐ/์ฌ๋ณผ๋ก ์ง์ ํ ์ ์๋ ์ ์ฐํ ๋ฐฉ๋ฒ์ ์ ๊ณตํ๋ค.
์์)
์์ด -> ํ๋์ค์ด๋ก ๋ฒ์ญํ๋ ๋ฒ์ญ task์ ๊ฒฝ์ฐ, (task: translate to french, input: English text, output: French text)
์ง์์๋ต์ ๊ฒฝ์ฐ, (task: answer the question, input: document, output: answer)
์ธ์ด ๋ชจ๋ธ์ ์ ํํ ์ด๋ค ํ ํฐ์ด ์์ธก๋์ด์ผ ํ๋ ํ ํฐ์ธ์ง? ๋ช ์์ ์ผ๋ก ์ง์ ํ๋ ์ง๋ํ์ต ์ ๋ณด ์์ด๋ ์์น์ ์ผ๋ก๋ ํ์ต์ ํ ์ ์๋ค.(์ธ์ด์๋ ์ ํด์ง ์ ๋ต์ด ์์ผ๋ฏ๋ก). ๋ค์ ๋งํ๋ฉด, ๋จ์ํ 'ํ ์คํธ ์์ฒด' ๋ง์ ๋ณด๊ณ ๊ทธ ๋ด๋ถ์ ํจํด์ ํ์ตํ ์ ์๋ค. ์ฆ, ์ธ์ด์ ๋ํด ๋ช ์์ ์ธ “์ ๋ต”์ด ์ฃผ์ด์ง์ง ์์๋, ๋ชจ๋ธ์ ํ ์คํธ์ ํ๋ฅ ๋ถํฌ๋ฅผ ์ถ์ ํจ์ผ๋ก์จ ์์ฐ์ค๋ฝ๊ฒ ์ธ์ด ํจํด์ ์ตํ๊ฒ ๋๋ค.
๋ฐ๋ผ์ GPT-2์์๋ ์ถฉ๋ถํ ํ์ต ์ญ๋/๋ฒ์ฉ์ฑ์ ๊ฐ์ถ ์ธ์ด ๋ชจ๋ธ์ด ์์ฐ์ด ์ํ์ค ์์ ๋ด์ ๋ ๋ค์ํ task๋ฅผ ์๋์ผ๋ก ์ถ๋ก ํ๊ณ ์ํํ๋ ๋ฐฉ๋ฒ์ ์ตํ๊ฒ ๋๋ฉด, ์ด๋ค ๋ฌธ์ ์ธ์ง ์๊ด ์์ด ๋ ์ข์ ์์ธก ์ฑ๋ฅ์ ๋ฌ์ฑํ ์ ์๋ค. ๊ทธ๋ ๊ฒ ๋๋ฉด ๊ถ๊ทน์ ์ผ๋ก multi-task learning์ ์ํํ๋ ๊ฒ๊ณผ ๊ฐ์ ์๋ฏธ๊ฐ ๋๋ค.
์ ๋ ฅ ๋ฐ์ดํฐ
GPT-2์์๋ WebText๋ผ๋ ๋ฐ์ดํฐ์ ์ ์๋ก ๊ตฌ์ถํ์๋ค.
WebText๋ ๋ ๋ง(Reddit)์์ 3๊ฐ ์ด์ ์ถ์ฒ(karma) ๋ฐ์ ๊ฒ์๊ธ๋ค์ ์์งํ์๋ค. ์ด ์ถ์ฒ์ด ๋ฌด์จ ์๋ฏธ๋, ์ ์ ๋ค์ด ์ง์ ๋จ๊ธด ์งํ์ด๊ธฐ ๋๋ฌธ์ ํด๋น ํฌ์คํธ๊ฐ ํฅ๋ฏธ๋กญ๊ฑฐ๋, ์ ์ตํ๊ฑฐ๋, ์๋๋ฉด ์ต์ ์ฌ๋ฏธ์๋ ๊ธ์ด๋ผ๋ ์๋ฏธ๊ฐ ๋๋ค. ๊ทธ์ ๋ฐ๋ผ ๋งค์ฐ ์ ์ ์ ๋ ๋ฐ์ดํฐ์ ์ผ๋ก ๋ณผ ์ ์๋ค๊ณ ํ๋ค.
๋ชจ๋ธ
GPT-1๊ณผ ๊ฑฐ์ ๋์ผํ ํํ์ด์ง๋ง, ๋ช๊ฐ์ง๊ฐ ์์ ๋์๋ค.
Layer normalization
๊ฐ sub-block์ ์ ๋ ฅ์ธต์ผ๋ก ์ด๋ํ์๋ค. ์ด๋ฅผ ํตํด ResNet์ ๊ตฌ์กฐ์ ๊ฑฐ์ ์ ์ฌํ ํํ๋ฅผ ๋๊ฒ ๋์๋ค.
์ต์ข self-attention block ์ดํ์ layer normalization ์ถ๊ฐ
๋ชจ๋ธ์ ๊น์ด๊ฐ ๊น์ด์ง์๋ก residual ์ฐ๊ฒฐ ๊ฒฝ๋ก๋ฅผ ํตํด ๋์ ๋๋ ํจ๊ณผ๋ฅผ ๊ณ ๋ คํ์ฌ ๊ฐ์ค์น ์ด๊ธฐํ ๋ฐฉ์์ ์์ ํ์๋ค. ์ฆ, ๊น์ ๋คํธ์ํฌ์์ residual ์ฐ๊ฒฐ๋ค์ด ์ฌ๋ฌ๋ฒ ๋์ ๋๋ฉด์ ๋ฐ์ํ ์ ์๋ ์ค์ผ์ผ๋ง ๋ฌธ์ (e.g. ๊ธฐ์ฐ๋ฆฌ ์์ค/ํญ๋ฐ)๋ฅผ ์ํํ๊ธฐ ์ํด ์ด๊ธฐํ ๊ฐ์ ์กฐ์ ํ๊ฒ ๋์๋ค.
์ด๊ธฐํ ๋จ๊ณ์์ residual layer์ ๊ฐ์ค์น๋ฅผ $1/\sqrt N$ ์ผ๋ก ์์
์ด ๋, N์ residual layer์ ์์ด๋ค.
ํ์ดํผํ๋ผ๋ฏธํฐ์ ํ๋
์ฌ์ฉ ๊ฐ๋ฅํ ๋จ์ด์ ์๋ฅผ 50,257๊ฐ๋ก ํ์ฅํ์๋ค.
Context size๋ 512์์ 1,024 ํ ํฐ์ผ๋ก ์ฆ๊ฐ์์ผฐ๋ค.
๋ ํฐ batch size(512)๋ฅผ ์ฌ์ฉํ์๋ค.
์ด๋ฅผ ํตํด GPT-2๋ ๊ธฐ์กด GPT-1์ ์ํคํ ์ฒ๋ฅผ ํฌ๊ฒ ๋ฐ๊พธ์ง ์๋ ์ ์์ ๋ฐ์ดํธ์ ํ์ต ์ ์ฐจ๋ฅผ ํ์ฅํ์ฌ ๋์ฑ ๊ฐ๋ ฅํ๊ณ ๋ฒ์ฉ์ ์ธ ์ธ์ด ๋ชจ๋ธ์ ๊ตฌํํ๊ฒ ๋์๋ค.
GPT-3; Language Models are Few-Shot Learners
์ฐ๊ตฌ ๋ฐฐ๊ฒฝ
๊ธฐ์กด์ fine-tuning ๊ธฐ๋ฐ ์ธ์ด๋ชจ๋ธ๋ก๋ถํฐ ๋ชจ๋ธ์ ํ๋ผ๋ฏธํฐ ์๋ฅผ ํ์ฅ(175B)์ํค๊ณ , fine-tuning ๋จ๊ณ๋ฅผ ๊ฑด๋๋ด ์ํ๋ก 3๊ฐ์ง ํ์ต ํ๋ ์์ํฌ์ ์ ๋ชฉํ์ฌ ๋ฒ์ฉ์ ์ธ ์ธ์ด๋ชจ๋ธ์ ์ค๊ณํ์๋ค.
GPT-3์์๋ ๋ณด๋ค ์ผ๋ฐํ ๋ฅ๋ ฅ์ด ํฐ ๋ชจ๋ธ์ ์ค๊ณํ๊ธฐ ์ํด
- ๋ชจ๋ธ์ ํ๋ผ๋ฏธํฐ ์๋ฅผ ์ฆ๊ฐ์ํค๋ฉด ๋ ๋ค์ํ skill๊ณผ task๋ฅผ ํ์ตํ ์ ์๋ค๊ณ ๋ณด์๋ค.
- ๋ชจ๋ธ์ meta-learning ํ์ฉ; ์ธ์ด ๋ชจ๋ธ์ด ๊ด๋ฒ์ํ skill๊ณผ ํจํด ์ธ์ ๋ฅ๋ ฅ์ ๊ฐ๋ฐํ์ฌ ๊ทธ ๋ฅ๋ ฅ์ ์ถ๋ก ์ ํ์ฉํ์ฌ ์ํ๋ task์ ๋น ๋ฅธ ์ ์์ด ๊ฐ๋ฅํ๋๋ก ํ๋ค.
๋ ๊ฐ์ง์ ๊ฐ์ค์ ์ธ์ ๊ณ ,
FSL/OSL/ZSL ์ ์ธ๊ฐ์ง ๊ด์ ์์ ์ธ์ด ๋ชจ๋ธ์ ํด์ํ๊ณ ์ ํ์๋ค.
+ FSL/OSL/ZSL?
Zero-shot learning: ํ์ต๋ ๋ฐ์ดํฐ๊ฐ ์๋ unknown label์ด ๋ค์ด์์ ๋ ๊ทธ ๋ฐ์ดํฐ๋ฅผ ๋ถ๋ฅ(๊ทธ ์ธ ๋ค์ํ task๋ค ์ฒ๋ฆฌ)ํ ์ ์๋ ๋ฅ๋ ฅ์ ๊ฐ์ง ๋ชจ๋ธ
FSL(few-shot learning)๊ณผ OSL(one-shot learning)์ ๋ฐ์ดํฐ์ ์์ด ํ์ ๋์ด์์๋๋ ํ์ต์ ํตํด task๋ฅผ ์ฒ๋ฆฌํ ์ ์๋ ์ผ๋ฐํ ๋ฅ๋ ฅ์ด ๋ฐ์ด๋ ๋ชจ๋ธ
- fsl์์ ๋ extremeํ ์ํฉ์ด osl
· FSL: label ๋ณ ๊ทนํ ์ผ๋ถ์ ๋ฐ์ดํฐ์ ๋ง ํ์
· OSL: label ๋ณ 1๊ฐ์ ๋ฐ์ดํฐ์ ๋ง ์ฌ์ฉ
๋ฐฉ๋ฒ๋ก
๊ธฐ๋ณธ ์ฌ์ ํ์ต ๋ฐฉ์์ GPT-2์ ๋ชจ๋ธ, ๋ฐ์ดํฐ, ํ๋ จ ๋ฐฉ์์ ์ ์ฌํ๋ค. ๋ค๋ง ์ ์ํ์๋ ๋ชฉ์ ์ ๋ง๊ฒ ๋ชจ๋ธํฌ๊ธฐ, ๋ฐ์ดํฐ์ , task ๋ค์์ฑ ๋ฑ์ ์กฐ๊ธ ํ๋ํ์๋ค.
in-context learning์ ์ฐ์์๋ GPT-2์ ์ ์ฌํ์ง๋ง, ํด๋น ์์ ์์๋ ์ปจํ ์คํธ ๋ด์์ ํ์ต์ ์ํ ๋ค์ํ ์ค์ ์ ์ฒด๊ณ์ ์ผ๋ก ํ์ํ๋ค.
→ GPT-2 ์ด์ ์ in-context learning vs GPT-3์์ ์ ์ํ๋ in-context learing
- GPT-2 ์ด์ ๋ชจ๋ธ: ์ ํ์ ์ธ ๋งฅ๋ฝ ํ์ฉ์ผ๋ก, ์ฃผ์ด์ง ๋ฐ์ดํฐ์ ๋ํด ๋จ์ํ ํจํด ๋งค์นญํ๋ ์์ค์ ๊ฐ๊น์ ์.
- GPT-3: ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ๋ง์ ํตํด, ๋ฌธ๋งฅ ๋ด ์์ ๋ช ๊ฐ๋ง์ผ๋ก๋ ์๋ก์ด ํ์คํฌ๋ฅผ ํด๊ฒฐํ ์ ์๋ “in-context learning” ๋ฅ๋ ฅ์ ํฌ๊ฒ ๋์ด์ฌ๋ฆผ. ์์ญ~์๋ฐฑ์ต ๋จ์์ ํ๋ผ๋ฏธํฐ๋ฅผ ์ง๋ ์ด๊ฑฐ๋ ์ธ์ด ๋ชจ๋ธ ์ต์ด ์ ์
- ์ด๋ก์จ GPT-3์ in-context learning์ ์ด์ ์ธ๋ ๋ชจ๋ธ๋ค๊ณผ ๋น๊ตํ์ ๋, ํ๋ผ๋ฏธํฐ ์์ ๊ธ์ฆ๊ณผ ๊ด๋ฒ์ํ ํ์ต์ผ๋ก ์ธํด “๋ฌธ๋งฅ์์ ๊ท์น์ ์ฆ์์์ ์ต๋ํ๊ณ ์ ์ฉํ๋” ๋ชจ์ต์ ํจ์ฌ ๊ฐ๊น์์ก๋ค๋ ์ ์์ ํฐ ์ฐจ๋ณ์ ์ด ์กด์ฌํ๋ค.
GPT-3์ ํ๊ฐํ ์ ์๋ ์์น/ํญ๋ชฉ
Fine-Tuning
Fine-Tuning์ ์ผ๋ฐํ๋ ๋ฐฉ๋ฒ์ผ๋ก ๊ตณ์ด์ ธ์๋ ์ํ๋ค. ์ฆ, ๊ธฐ์กด ๋ชจ๋ธ๋ค์ fine-tuning ๋จ๊ณ์์ ์ผ๋ฐ์ ์ผ๋ก 1,000 ~ 100,000+๊ฐ์ label๋ example๋ค ์ฌ์ฉํ๋ค. Fine-tuning์ ์ฅ์ ์ ๋ค์ํ ๋ฒค์น๋งํฌ ๋ฐ์ดํฐ์ ์์ ๊ฐ๋ ฅํ ์ฑ๋ฅ์ ์๋ํ๋ค๋ ๊ฒ์ธ๋ฐ, ๋งค task๋ง๋ค ์ ์ ๋ ๊ท๋ชจ์ ๊ฑฐ๋ ๋ฐ์ดํฐ์ ์ด ํ์ํ๊ณ , ์ผ๋ฐํ ๋ฅ๋ ฅ์ด ์ฝํด ๋ถํฌ ์ธ ๋ฐ์ดํฐ(out-of-distribution)์ ๋ํด ์ข์ ์ฑ๋ฅ์ ๋ณด์ด์ง ์๋๋ค. ๋ํ, ํ๋ จ ๋ฐ์ดํฐ๋ก๋ถํฐ ๊ฑฐ์ง๋ feature์ด ํ์ต๋ ์ฐ๋ ค๋ก ์ธํด ์ธ๊ฐ ์ฑ๋ฅ๊ณผ ๋น๊ตํ๊ธฐ ์ด๋ ต๋ค.
- spurious features: ๋ชจ๋ธ์ด ์ค์ ํ์คํฌ์ ๊ด๋ จ ์๋, ์ฐ์ฐํ ๋ฐ์ดํฐ์ ๋ํ๋ ํจํด์ด๋ ์๊ด๊ด๊ณ๋ฅผ ํ์ตํ ์ํ์ด ์๋ค๋ ๊ฒ์ ์๋ฏธ
→ ๋ฐ๋ผ์ ๋ณธ ๋ ผ๋ฌธ์์๋ GPT-3๋ฅผ fine-tuningํ์ง๋ ์์ผ๋, ๋์ค์ ํ์ต ๋ฐฉํฅ์ฑ์ ์ํด fine-tuning ๋ ์๋ ์์
“Task-agnostic” : ํน์ ํ์คํฌ์ ๋ง๊ฒ ์กฐ์ ๋์ง ์์, ์ผ๋ฐ์ ์ธ ๋ชจ๋ธ์ ์ฑ๋ฅ ์๋ฏธ. GPT-3์ ๊ธฐ์กด์ ์ธ์ด๋ชจ๋ธ์์ ๋ณด์ด๋ pre-trainig → task-specific fine-tuning ๊ณผ์ ์ด ์๋, pre-train ๋จ๊ณ์ ์ผ๋ฐํ ๋ฅ๋ ฅ๊ณผ in-context learning ์ ๊ธฐ๋ฐ์ผ๋ก ๋ค์ํ ํ์คํฌ๋ฅผ ์ํํ ์ ์์ ๋ณด์ฌ์ฃผ๊ณ ์ ํจ. ์ด๋ฅผ ํตํด ์ผ๋ง๋ ๋ค์ํ task์ ๋ํด ‘๋ฒ์ฉ์ ์ธ ์ฑ๋ฅ’์ ๋ฐํํ๋์ง๋ฅผ ์ธก์
๋ชจ๋ธ
๋ชจ๋ธ ๊ตฌ์กฐ ์์ฒด๋ GPT-2์ ๋งค์ฐ ์ ์ฌํ๋ค. GPT-2์์ ์ ์๋์๋ ์ด๊ธฐํ ๋ฐฉ๋ฒ ์์ , input๋จ์์ layer normalization ์งํํ๋ pre-normalization ์งํ, reversible tokenization(de-tokenization)์ ๋์ผํ๋ค๋ ์๋ฏธ์ด๋ค.
๋จ, ์ผ๋ฐ์ ์ผ๋ก Transformer์ attention์ “dense attention”(๋ชจ๋ ํ ํฐ์ด ์๋ก์๊ฒ ์ฃผ์๋ฅผ ๊ธฐ์ธ์ด๋ ๋ฐฉ์)์ ์ฌ์ฉํ๋ ๋ฐ๋ฉด, GPT-3์์๋ ์ผ๋ถ ๋ ์ด์ด๊ฐ “locally banded sparse attention”(์ธ์ ํ, ๋๋ ๊ตญ์์ ์ธ ํ ํฐ๋ค๋ผ๋ฆฌ๋ง ์ฃผ์๋ฅผ ๊ธฐ์ธ์ด๋, ํฌ์ํ ํจํด)์ dense attention์ ๋ฒ๊ฐ์ ์ฌ์ฉํจ์ผ๋ก์จ ๊ณ์ฐ ํจ์จ์ฑ์ ๋์๋ค.(Sparse Transformer์์ ์ ์๋ ๋ฐฉ์)
๋ชจ๋ธ์ ํฌ๊ธฐ์ ๋ฐ๋ฅธ ์ฑ๋ฅ์ ์ฆ๋ช ํ๊ธฐ ์ํด ํ๋ผ๋ฏธํฐ ์๋ฅผ 125M ~ 175B๊น์ง ๋ค์ํ๊ฒ ํ 8๊ฐ์ ๋ชจ๋ธ์ ์ ์ํ์๋ค.
→ ์ฌ๊ธฐ์ 175B์ง๋ฆฌ ํ๋ผ๋ฏธํฐ๋ฅผ ๊ฐ์ง ๋ชจ๋ธ์ GPT-3 ์ด๋ผ๊ณ ์ ์
- $n_{layer}$๋ layer์ ์ ์ฒด ์
- $d_{model}$์ ๊ฐ bottleneck layer ๋ด unit์ ์(feed forward layer ์๋ ๋ $d_{model}$์ 4๋ฐฐ)
- d_{head}๋ attention head์ ์
- ๋ชจ๋ ๋ชจ๋ธ๋ค์ $n_{ctx}$=2048 ํ ํฐ์ context window ์ฌ์ฉ