π μ°Έκ³ μλ£ : https://www.youtube.com/watch?v=dZi6INuLyOQ
1οΈβ£ GPT-3
β GPT-1
π https://velog.io/@stapers/GPT-1-Languageunderstandingpaper
Semi-supervised : Unsupervised pre-training + supervised fine-tuning
1. Pre-train
π Unsupervised
: Transformer decoder λ₯Ό μ΄μ©ν΄ λλμ λ μ΄λΈμ΄ μλ μ½νΌμ€λ‘ LM μ μ¬μ νμ΅
2. Finetune
π supervised
: pretrain λ λͺ¨λΈμ task μ λ§κ² input κ³Ό label λ‘ κ΅¬μ±λ μ½νΌμ€μ λν΄ μ§λνμ΅μ μ§ν
β Improving Language understanding by generative pre-training
- νΈλμ€ν¬λ¨Έ λμ½λλ§ μ¬μ©
- λ¨λ°©ν₯ λͺ¨λΈ P(wi) = P(wi | w0, ... , w_i-1) π μ΄μ κΉμ§ μ£Όμ΄μ§ λ¨μ΄λ€λ‘ νμ¬ λ¨μ΄λ₯Ό μμΈ‘
- μΌλ°μ μΈ LM μ ν΅ν΄ pre-train μ μ§ν
- LM μ λ μ΄λΈμ΄ νμ μλ€ π λλμ λ°μ΄ν° ν보 κ°λ₯
- Train data size : BooksCorpus (800M words)
- Teacher Forcing μ μ΄μ© : target word(Ground Truth)λ₯Ό λμ½λμ λ€μ μ
λ ₯μΌλ‘ λ£μ΄μ£Όλ κΈ°λ²
β Task
- Classification : κΈ/λΆμ , λ¬Έλ² μ€λ₯ μ¬λΆ
- Entailment : μ£Όμ΄μ§ λ¬Έμ₯λ€μ κ΄κ³ λΆλ₯
- Similarity : λ λ¬Έμ₯ κ° μλ―Έμ μ μ¬λ νμ
- Multiple Choice : μ£Όμ΄μ§ λ¬Έμ μ λν 보기 μ€ μ λ΅ κ³ λ₯΄κΈ°
π» pre-train μ LM μΌλ‘ μ§νλμμΌλ―λ‘ κ° task μ input λͺ¨μμ΄ λ€λ₯Ό μ μλ€λ λ¬Έμ μ μ‘΄μ¬
→ κ° task μ input μ GPT-1 μ μ€μ μ μλλ‘ input μ μμ κ°μ λͺ¨μμΌλ‘ λ³νν¨ (νλλ³΄λΌ λΆλΆ)
β‘ GPT-2
π https://lsjsj92.tistory.com/620
β LM are Unsupervised Multitask Learners
fine tuning λ¨κ³κ° λ μ΄μ νμμμ΄μ§ LM π λ²μ©μ μΈ LM μ λ§λ€μ
- κΈ°λ³Έ ꡬ쑰λ GPT-1 κ³Ό λμΌ
- zero shot learning : λͺ¨λΈμ΄ λ°λ‘ downstream task μ μ μ©
*One-shot learning : downstream task λ₯Ό ν κ±΄λ§ μ¬μ©
*Few-shot learning : downstream task λ₯Ό λͺ 건 μ¬μ©
π HOW ?
- task μ 보λ₯Ό ν¨κ» μ λ ₯μΌλ‘ λ£μ΄μ€λ€.
- μ μ ν task description μ μ λ ₯μΌλ‘ ν¨κ» λ£μ΄μ£Όλ©΄ fine tuning κ³Όμ μμ΄ μ λ΅μ μ μμ±ν΄λ΄κ² λλ€.
β Auto regressive
- μ΄μ output μ΄ λ€μ input μΌλ‘ λ€μ΄κ°
β Byte pair encoding νμ© : κΈμμ λ¨μ΄μ μ€κ° λ¨μ subword λ₯Ό μ¬μ©ν μ μμ , OOV λ¬Έμ ν΄κ²°
β’ GPT-3
π https://www.technologyreview.kr/gpt3-best-worst-ai-openai-natural-language-2/
Open-AI κ° μ μν λνμΈμ΄λͺ¨λΈ
β LM are Few shot learners
- task μ λν μ 보λ₯Ό μ λ ₯
- GPT-2 μ λ¬λ¦¬ νΉλ³ν λͺ κ°μ§ μμ λ₯Ό μ λ ₯μΌλ‘ λ£μ΄μ€ π Few Shot
β Large LM
- μμ²λκ² λ§μ μμ λ°μ΄ν°λ₯Ό νμ΅ μμΌ°μΌλ©° ν¬κΈ°κ° λ§€μ° ν¬λ€.
β Sparse attention pattern
- GPT-2 μ ꡬ쑰μ μΌλ‘ ν° μ°¨μ΄λ μμΌλ attention μ μ£Όλ λΆλΆμμ ν ν° κ° attention μ μ λΆ ν λΉνλ©΄ κ³μ°λμ΄ λ§μμ§λ κ²μ λ°©μ§νκΈ° μν΄ sparse νκ² attention μ μ£Όλ λΆλΆμμ μ°¨μ΄κ° μ‘΄μ¬νλ€.
β Meta-learning
- μ¬λμ΄ ν΅μ νλ κΈ°κ³νμ΅ κ³Όμ μ μλννμ¬ κΈ°κ³κ° μ€μ€λ‘ νμ΅ κ·μΉ, μ¦ λ©ν μ§μμ μ΅ν μ μκ² νλ λ°©λ²λ‘
- κΈ°κ³κ° μ€μ€λ‘ ν¨ν΄ μΈμ λ₯λ ₯μ κ°λ° π inference λ¨κ³μμ μνλ task μ λΉ λ₯΄κ² μ μν μ μμ
- task κ° λͺ μλμ§ μμ μνμμ λ€μν ν¨ν΄μ μΈμνλ λ₯λ ₯μ νμ΅νμ¬, μ²μ보λ task μ λν΄μλ task description κ³Ό λͺ κ°μ§ μμ λ§ μ£Όλ©΄ μ μ ν λ΅μ μμ±ν μ μκ² λλ€.
β Task
π¨ μ’μ μ±λ₯μ λ³΄μΈ task
π¨ λ³λ‘μΈ μ±λ₯μ λ³΄μΈ task
β νκ³μ
π¨ μΈν°λ· μλ£λ€λ‘ νμ΅ν λͺ¨λΈμ΄λ―λ‘ μ¨λΌμΈμ μλ§μ κ°μ§ μ 보, νΈκ²¬μ κ·Έλλ‘ νμ΅
π¨ μΈκ°κ³Ό κ°μ μΌλ°ν λ₯λ ₯μ μμ§ λλ¬νμ§ λͺ»ν¨
π¨ λ¨μν κΈλ‘λ§ μΈμ΄λ₯Ό νμ΅ν¨ : merely learning from text without being exposed to other modalities
π¨ μΈμ΄λͺ¨λΈμ ꡬλνλλ° νμν μμ²λ μ λ ₯ μλΉ
2οΈβ£ Compositional representation and systematic generalization
β μ©μ΄μ 리
β systematicity
- μ¬λμ΄ μ΄ν΄νλ λ¬Έμ₯λ€ κ°μλ νμ€νκ³ μμΈ‘ κ°λ₯ν ν¨ν΄μ΄ μλ€.
- EX. μ² μλ μν¬λ₯Ό μ’μνλ€ → μν¬λ μ² μλ₯Ό μ’μνλ€ π μΈκ°μ μΈμ΄νλμ 체κ³μ±μ κ°μΆμμΌλ―λ‘ μμ λ¬Έμ₯μ μ΄ν΄νλ€λ©΄ λ€μ λ¬Έμ₯λ λ§λ€μ΄λΌ μ μλ€.
β compositionality
- ν ννμ μλ―Έλ κ·Έ ννμ ꡬμ±νλ κ΅¬μ± μμλ€μ μλ―Έμ κ΅¬μ‘°λ‘ κ΅¬μ±λλ€.
β‘ Compositional
β μΈκ°μ μΈμ΄
- ꡬμ±μ±μ κ°μΆ κ²½μ°λ μκ³ κ·Έλ μ§ μμ κ²½μ°λ μλ€.
β μ κ²½λ§ νν
- NN μ ν΅ν΄ μμ±ν κ²°κ³Όκ° κ΅¬μ±μ±μ λλμ§ νμΈνλ λ°©λ²μ λν μ°κ΅¬
- NN μ΄ κ²°κ³Όλ‘ λ΄λμ representation κ³Ό , syntax tree μ composition function μ λ°λΌ κ²°ν©λ representation λ₯Ό κ·Όμ¬μν€μ΄ ꡬμ±μ±μ λ°μνλλ‘ νμ΅νλ€.
- νμ‘΄νλ λͺ¨λΈλ€μ΄ κ΅¬μ± μΌλ°ν λ₯λ ₯μ κ°μΆμλμ§, μ΄λ° λ₯λ ₯μ μΈ‘μ νκΈ° μν΄μ λ°μ΄ν°μ μ μ΄λ»κ² λ£μ΄μΌ νλμ§μ κ΄ν μ°κ΅¬
β’ μΌλ°ν λ₯λ ₯
β Compositional Generalization
β» μ΄λ―Έ μκ³ μλ μμλ€λ‘ μλ‘μ΄ μ‘°ν©μ λ§λ€κ±°λ λ§λ€μ΄μ§ μ‘°ν©μ μ΄ν΄ν μ μλ λ₯λ ₯
β κ΄λ ¨ μ°κ΅¬
β» λͺ¨λΈμ κ΅¬μ± μΌλ°ν λ₯λ ₯μ μΈ‘μ ν μ μλ λ°©λ²μ μ μν λ Όλ¬Έ
β κ΅¬μ± μΌλ°νλ₯Ό μ λ°μνκΈ° μν λ°μ΄ν°μ λΆλ¦¬ λ°©λ²
β» Atom distribution μ μ μ¬νλ©΄μ compound distribution μ λ€λ₯΄λλ‘ dataset μ split νλ κ²μ΄ κ°μ₯ μ΄μμ μ
π μ¦ μ¬μ©λλ λ¨μ΄λ μ μ¬νλ, λ¨μ΄μ μ‘°ν© ννλ λ€λ₯Όμλ‘ κ΅¬μ± μΌλ°νλ₯Ό μ λ°μν κ²
β» κ΅¬μ± μΌλ°ν μΈ‘μ μ€ν
3οΈβ£ NLP model μ μ±λ₯ νκ°λ₯Ό κ°μ νλ λ°©μ
β λͺ¨λΈμ μ±λ₯
π λ²€μΉλ§ν¬ λ°μ΄ν°μ μμμ μ±λ₯μ λ λ‘ μ¦κ°νμ§λ§, μ€μ μΈκ³μμμ λͺ¨λΈ μ±λ₯λ κ·Έλ¬νκ°
β Dynamic benchmarks
π λͺ¨λΈμ΄ μμ μ μμλ§ν μ΄λ €μ΄ μμ λ€μ μΆκ°νμ¬ νμ΅μ μ§ννλλ‘ ν¨
4οΈβ£ Grounding language to other modalities
β λ¨μν ν μ€νΈλ₯Ό λμ΄ λ€μν modality λ₯Ό μ¬μ©ν΄ μΈμ΄λ₯Ό μ΄ν΄νλ κ²
π ν μ€νΈλ‘λ§ νμ΅νλ κ²μ μΈμ΄κ° 무μμ κ΄ν κ²μΈμ§ κ·Έκ²μ΄ μ΄λ€ μμ©μ νλ κ²μΈμ§ μκΈ° μ΄λ ΅λ€.
β Grounds language
'1οΈβ£ AIβ’DS > π NLP' μΉ΄ν κ³ λ¦¬μ λ€λ₯Έ κΈ
[cs224n] 14κ° κ°λ¨ λ΄μ©μ 리 (1) | 2022.07.18 |
---|---|
[cs224n] 18κ° λ΄μ©μ 리 (0) | 2022.07.18 |
[cs224n] 15κ° λ΄μ©μ 리 (0) | 2022.07.04 |
[cs224n] 13κ° λ΄μ©μ 리 (0) | 2022.07.04 |
NER μ€μ΅ (0) | 2022.06.02 |
λκΈ