λ³Έλ¬Έ λ°”λ‘œκ°€κΈ°
1️⃣ AI•DS/πŸ“— NLP

[cs224n] Future NLP (2021 version)

by isdawell 2022. 7. 18.
728x90

 

πŸ“Œ μ°Έκ³  자료 : https://www.youtube.com/watch?v=dZi6INuLyOQ 

 

 

 

 

1️⃣  GPT-3 


β‘   GPT-1 

 

πŸ“Œ https://velog.io/@stapers/GPT-1-Languageunderstandingpaper 

 

Semi-supervised : Unsupervised pre-training + supervised fine-tuning 

 

1. Pre-train
πŸ‘‰ Unsupervised 
: Transformer decoder λ₯Ό μ΄μš©ν•΄ λŒ€λŸ‰μ˜ λ ˆμ΄λΈ”μ΄ μ—†λŠ” μ½”νΌμŠ€λ‘œ LM 을 μ‚¬μ „ν•™μŠ΅ 

2. Finetune 
πŸ‘‰ supervised 
: pretrain 된 λͺ¨λΈμ„ task 에 맞게 input κ³Ό label 둜 κ΅¬μ„±λœ μ½”νΌμŠ€μ— λŒ€ν•΄ μ§€λ„ν•™μŠ΅μ„ 진행 

 

 

βœ”  Improving Language understanding by generative pre-training 

 

 

  • 트랜슀포머 λ””μ½”λ”λ§Œ μ‚¬μš© 
  • 단방ν–₯ λͺ¨λΈ P(wi) = P(wi | w0, ... , w_i-1)  πŸ‘‰ μ΄μ „κΉŒμ§€ 주어진 λ‹¨μ–΄λ“€λ‘œ ν˜„μž¬ 단어λ₯Ό 예츑 
  • 일반적인 LM 을 톡해 pre-train 을 진행 
  • LM 은 λ ˆμ΄λΈ”μ΄ ν•„μš” μ—†λ‹€ πŸ‘‰ λŒ€λŸ‰μ˜ 데이터 확보 κ°€λŠ₯ 
  • Train data size : BooksCorpus (800M words) 
  • Teacher Forcing 을 이용 : target word(Ground Truth)λ₯Ό λ””μ½”λ”μ˜ λ‹€μŒ μž…λ ₯으둜 λ„£μ–΄μ£ΌλŠ” 기법
     

 

(μ™Όμͺ½ - κΈ°μ‘΄ ν•™μŠ΅ 방법), (였λ₯Έμͺ½ - teacher forcing 방법) 

 

 

 

βœ” Task 

 

Transformer decoder 둜만 이루어짐

 

  • Classification : 긍/λΆ€μ •, 문법 였λ₯˜ μ—¬λΆ€ 
  • Entailment : 주어진 λ¬Έμž₯λ“€μ˜ 관계 λΆ„λ₯˜ 
  • Similarity : 두 λ¬Έμž₯ κ°„ 의미적 μœ μ‚¬λ„ νŒŒμ•… 
  • Multiple Choice : 주어진 λ¬Έμ œμ— λŒ€ν•œ 보기 쀑 μ •λ‹΅ κ³ λ₯΄κΈ° 

 

πŸ‘» pre-train 은 LM 으둜 μ§„ν–‰λ˜μ—ˆμœΌλ―€λ‘œ 각 task 와 input λͺ¨μ–‘이 λ‹€λ₯Ό 수 μžˆλ‹€λŠ” 문제점 쑴재 

 

→ 각 task 의 input 을 GPT-1 에 싀을 수 μžˆλ„λ‘ input 을 μœ„μ™€ 같은 λͺ¨μ–‘μœΌλ‘œ λ³€ν˜•ν•¨ (νŒŒλž‘λ³΄λΌ λΆ€λΆ„) 

 

 

 

 

β‘‘  GPT-2

 

πŸ“Œ https://lsjsj92.tistory.com/620

 

 

βœ”  LM are Unsupervised Multitask Learners 

 

fine tuning 단계가 더 이상 ν•„μš”μ—†μ–΄μ§„ LM πŸ‘‰ λ²”μš©μ μΈ LM 을 λ§Œλ“€μž 

 

  • κΈ°λ³Έ κ΅¬μ‘°λŠ” GPT-1 κ³Ό 동일 
  • zero shot learning : λͺ¨λΈμ΄ λ°”λ‘œ downstream task 에 적용

 

*One-shot learning : downstream task λ₯Ό ν•œ 건만 μ‚¬μš© 

*Few-shot learning : downstream task λ₯Ό λͺ‡ 건 μ‚¬μš© 

 

 

 

 

πŸ™„ HOW ?

 

  • task 정보λ₯Ό ν•¨κ»˜ μž…λ ₯으둜 λ„£μ–΄μ€€λ‹€.

 

 

  • μ μ ˆν•œ task description 을 μž…λ ₯으둜 ν•¨κ»˜ λ„£μ–΄μ£Όλ©΄ fine tuning κ³Όμ • 없이 정닡을 잘 μƒμ„±ν•΄λ‚΄κ²Œ λœλ‹€. 

 

 

βœ”  Auto regressive 

 

 

  • 이전 output 이 λ‹€μŒ input 으둜 듀어감 

 

βž• Byte pair encoding ν™œμš© : κΈ€μžμ™€ λ‹¨μ–΄μ˜ 쀑간 λ‹¨μœ„ subword λ₯Ό μ‚¬μš©ν•  수 있음 , OOV 문제 ν•΄κ²° 

 

 

 

 

β‘’  GPT-3

 

πŸ“Œ https://gpt3demo.com/ 

πŸ“Œ https://www.technologyreview.kr/gpt3-best-worst-ai-openai-natural-language-2/

πŸ“Œ https://blog.naver.com/PostView.naver?blogId=mosfnet&logNo=222149393753&redirect=Dlog&widgetTypeCall=true&directAccess=false 

 

 

Open-AI κ°€ μ œμž‘ν•œ λŒ€ν˜•μ–Έμ–΄λͺ¨λΈ 

 

 

 

 

 

 

βœ”  LM are Few shot learners 

 

  • task 에 λŒ€ν•œ 정보λ₯Ό μž…λ ₯ 
  • GPT-2 와 달리 νŠΉλ³„νžˆ λͺ‡ 가지 예제λ₯Ό μž…λ ₯으둜 λ„£μ–΄μ€Œ πŸ‘‰ Few Shot 

 

 

βœ”  Large LM 

 

  • μ—„μ²­λ‚˜κ²Œ λ§Žμ€ μ–‘μ˜ 데이터λ₯Ό ν•™μŠ΅ μ‹œμΌ°μœΌλ©° 크기가 맀우 크닀. 

 

 

 

βœ”  Sparse attention pattern 

 

  • GPT-2 와 ꡬ쑰적으둜 큰 μ°¨μ΄λŠ” μ—†μœΌλ‚˜ attention 을 μ£ΌλŠ” λΆ€λΆ„μ—μ„œ 토큰 κ°„ attention 을 μ „λΆ€ ν• λ‹Ήν•˜λ©΄ κ³„μ‚°λŸ‰μ΄ λ§Žμ•„μ§€λŠ” 것을 λ°©μ§€ν•˜κΈ° μœ„ν•΄ sparse ν•˜κ²Œ attention 을 μ£ΌλŠ” λΆ€λΆ„μ—μ„œ 차이가 μ‘΄μž¬ν•œλ‹€. 

 

 

 

βœ”  Meta-learning 

 

 

  • μ‚¬λžŒμ΄ ν†΅μ œν•˜λ˜ κΈ°κ³„ν•™μŠ΅ 과정을 μžλ™ν™”ν•˜μ—¬ 기계가 슀슀둜 ν•™μŠ΅ κ·œμΉ™, 즉 메타 지식을 읡힐 수 있게 ν•˜λŠ” 방법둠 
  • 기계가 슀슀둜 νŒ¨ν„΄ 인식 λŠ₯λ ₯을 개발 πŸ‘‰ inference λ‹¨κ³„μ—μ„œ μ›ν•˜λŠ” task 에 λΉ λ₯΄κ²Œ 적응할 수 있음 
  • task κ°€ λͺ…μ‹œλ˜μ§€ μ•Šμ€ μƒνƒœμ—μ„œ λ‹€μ–‘ν•œ νŒ¨ν„΄μ„ μΈμ‹ν•˜λŠ” λŠ₯λ ₯을 ν•™μŠ΅ν•˜μ—¬, μ²˜μŒλ³΄λŠ” task 에 λŒ€ν•΄μ„œλ„ task description κ³Ό λͺ‡ 가지 예제만 μ£Όλ©΄ μ μ ˆν•œ 닡을 생성할 수 있게 λœλ‹€. 

 

 

βœ”  Task 

 

πŸ’¨ 쒋은 μ„±λŠ₯을 보인 task 

 

Story completion

 

 

πŸ’¨ λ³„λ‘œμΈ μ„±λŠ₯을 보인 task

 

논리적 좔둠을 μš”κ΅¬ν•˜λŠ” task μ—μ„œλŠ” ν•œκ³„λ₯Ό λ³΄μž„

 

 

 

βœ”  ν•œκ³„μ  

 

πŸ’¨ 인터넷 μžλ£Œλ“€λ‘œ ν•™μŠ΅ν•œ λͺ¨λΈμ΄λ―€λ‘œ 온라인의 μˆ˜λ§Žμ€ κ°€μ§œ 정보, νŽΈκ²¬μ„ κ·ΈλŒ€λ‘œ ν•™μŠ΅ 

πŸ’¨ 인간과 같은 μΌλ°˜ν™” λŠ₯λ ₯은 아직 λ„λ‹¬ν•˜μ§€ λͺ»ν•¨ 

πŸ’¨ λ‹¨μˆœνžˆ κΈ€λ‘œλ§Œ μ–Έμ–΄λ₯Ό ν•™μŠ΅ν•¨ : merely learning from text without being exposed to other modalities 

πŸ’¨ μ–Έμ–΄λͺ¨λΈμ„ κ΅¬λ™ν•˜λŠ”λ° ν•„μš”ν•œ μ—„μ²­λ‚œ μ „λ ₯ μ†ŒλΉ„ 

 

 

 

 

 

 

 

2️⃣ Compositional representation and systematic generalization 


β‘   μš©μ–΄μ •λ¦¬ 

 

βœ” systematicity 

 

  • μ‚¬λžŒμ΄ μ΄ν•΄ν•˜λŠ” λ¬Έμž₯λ“€ κ°„μ—λŠ” ν™•μ‹€ν•˜κ³  예츑 κ°€λŠ₯ν•œ νŒ¨ν„΄μ΄ μžˆλ‹€. 
  • EX. μ² μˆ˜λŠ” 영희λ₯Ό μ’‹μ•„ν•œλ‹€ → μ˜ν¬λŠ” 철수λ₯Ό μ’‹μ•„ν•œλ‹€ πŸ‘‰ μΈκ°„μ˜ 언어행동은 체계성을 κ°–μΆ”μ—ˆμœΌλ―€λ‘œ μ•žμ˜ λ¬Έμž₯을 μ΄ν•΄ν–ˆλ‹€λ©΄ λ’€μ˜ λ¬Έμž₯도 λ§Œλ“€μ–΄λ‚Ό 수 μžˆλ‹€. 

 

βœ” compositionality 

 

  • ν•œ ν‘œν˜„μ˜ μ˜λ―ΈλŠ” κ·Έ ν‘œν˜„μ„ κ΅¬μ„±ν•˜λŠ” ꡬ성 μš”μ†Œλ“€μ˜ μ˜λ―Έμ™€ ꡬ쑰둜 κ΅¬μ„±λœλ‹€. 

 

 

β‘‘  Compositional 

 

βœ” μΈκ°„μ˜ μ–Έμ–΄

 

 

  • ꡬ성성을 κ°–μΆ˜ κ²½μš°λ„ 있고 그렇지 μ•Šμ€ κ²½μš°λ„ μžˆλ‹€. 

 

βœ” 신경망 ν‘œν˜„

 

 

  • NN 을 톡해 μƒμ„±ν•œ κ²°κ³Όκ°€ ꡬ성성을 λ„λŠ”μ§€ ν™•μΈν•˜λŠ” 방법에 λŒ€ν•œ 연ꡬ 
  • NN 이 결과둜 내놓은 representation κ³Ό , syntax tree 와 composition function 을 따라 κ²°ν•©λœ representation λ₯Ό κ·Όμ‚¬μ‹œν‚€μ–΄ ꡬ성성을 λ°˜μ˜ν•˜λ„λ‘ ν•™μŠ΅ν•œλ‹€. 

 

 

  • ν˜„μ‘΄ν•˜λŠ” λͺ¨λΈλ“€μ΄ ꡬ성 μΌλ°˜ν™” λŠ₯λ ₯을 κ°–μΆ”μ—ˆλŠ”μ§€, 이런 λŠ₯λ ₯을 μΈ‘μ •ν•˜κΈ° μœ„ν•΄μ„  데이터셋을 μ–΄λ–»κ²Œ λ„£μ–΄μ•Ό ν•˜λŠ”μ§€μ— κ΄€ν•œ 연ꡬ 

 

 

β‘’ μΌλ°˜ν™” λŠ₯λ ₯ 

 

βœ” Compositional Generalization 

 

β—»  이미 μ•Œκ³ μžˆλŠ” μš”μ†Œλ“€λ‘œ μƒˆλ‘œμš΄ 쑰합을 λ§Œλ“€κ±°λ‚˜ λ§Œλ“€μ–΄μ§„ 쑰합을 이해할 수 μžˆλŠ” λŠ₯λ ₯ 

 

 

 

 

βœ” κ΄€λ ¨ 연ꡬ 

 

 

 

β—» λͺ¨λΈμ˜ ꡬ성 μΌλ°˜ν™” λŠ₯λ ₯을 μΈ‘μ •ν•  수 μžˆλŠ” 방법을 μ œμ•ˆν•œ λ…Όλ¬Έ 

 

 

 

 

βœ” ꡬ성 μΌλ°˜ν™”λ₯Ό 잘 λ°˜μ˜ν•˜κΈ° μœ„ν•œ 데이터셋 뢄리 방법  

 

β—»  Atom distribution 은 μœ μ‚¬ν•˜λ©΄μ„œ compound distribution 은 λ‹€λ₯΄λ„둝 dataset 을 split ν•˜λŠ” 것이 κ°€μž₯ μ΄μƒμ μž„

 

πŸ‘‰ 즉 μ‚¬μš©λ˜λŠ” λ‹¨μ–΄λŠ” μœ μ‚¬ν•˜λ‚˜, λ‹¨μ–΄μ˜ μ‘°ν•© ν˜•νƒœλŠ” λ‹€λ₯Όμˆ˜λ‘ ꡬ성 μΌλ°˜ν™”λ₯Ό 잘 λ°˜μ˜ν•œ 것 

 

 

 

 

β—»  ꡬ성 μΌλ°˜ν™” μΈ‘μ • μ‹€ν—˜ 

 

 

 

 

 

 

 

 

3️⃣ NLP model 의 μ„±λŠ₯ 평가λ₯Ό κ°œμ„ ν•˜λŠ” 방식 


β‘   λͺ¨λΈμ˜ μ„±λŠ₯ 

 

πŸ™„ 벀치마크 λ°μ΄ν„°μ…‹μ—μ„œμ˜ μ„±λŠ₯은 λ‚ λ‘œ μ¦κ°€ν•˜μ§€λ§Œ, μ‹€μ œ μ„Έκ³„μ—μ„œμ˜ λͺ¨λΈ μ„±λŠ₯도 κ·ΈλŸ¬ν•œκ°€ 

 

 

βœ” Dynamic benchmarks 

 

 

 

πŸ‘‰ λͺ¨λΈμ΄ 속을 수 μžˆμ„λ§Œν•œ μ–΄λ €μš΄ μ˜ˆμ œλ“€μ„ μΆ”κ°€ν•˜μ—¬ ν•™μŠ΅μ„ μ§„ν–‰ν•˜λ„λ‘ 함 

 

 

 

 

 

 

4️⃣ Grounding language to other modalities 


 

 

βœ” λ‹¨μˆœν•œ ν…μŠ€νŠΈλ₯Ό λ„˜μ–΄ λ‹€μ–‘ν•œ modality λ₯Ό μ‚¬μš©ν•΄ μ–Έμ–΄λ₯Ό μ΄ν•΄ν•˜λŠ” 것 

 

 

 

πŸ‘‰ ν…μŠ€νŠΈλ‘œλ§Œ ν•™μŠ΅ν•˜λŠ” 것은 μ–Έμ–΄κ°€ 무엇에 κ΄€ν•œ 것인지 그것이 μ–΄λ–€ μž‘μš©μ„ ν•˜λŠ” 것인지 μ•ŒκΈ° μ–΄λ ΅λ‹€. 

 

 

βœ” Grounds language 

 

 

 

 

 

 

 

 

 

 

 

 

728x90

λŒ“κΈ€