๋ณธ๋ฌธ ๋ฐ”๋กœ๊ฐ€๊ธฐ
1๏ธโƒฃ AI•DS/๐Ÿ“— NLP

[cs224n] 9๊ฐ• ๋‚ด์šฉ ์ •๋ฆฌ

by isdawell 2022. 5. 9.
728x90

๐Ÿ“‘ 9์žฅ. NLP ์—ฐ๊ตฌ ์ „๋ฐ˜, CS224N ํ”„๋กœ์ ํŠธ 

 

1๏ธโƒฃ Starting Research 


 

โœจ SQuAD 

 

  • ์Šคํƒ ํฌ๋“œ ๋Œ€ํ•™์˜ NLP ๊ทธ๋ฃน์—์„œ ํฌ๋ผ์šฐ๋“œ ์†Œ์‹ฑ์„ ํ†ตํ•ด ๋งŒ๋“  ์œ„ํ‚คํ”ผ๋””์•„ ์•„ํ‹ฐํด์— ๋Œ€ํ•œ 107,785๊ฐœ์˜ ์งˆ๋ฌธ-๋Œ€๋‹ต ๋ฐ์ดํ„ฐ์…‹์ด๋‹ค. ํ•œ๊ตญ์—๋Š” KorQuAD ๊ฐ€ ์žˆ๋‹ค. 
  • ์ง€๋ฌธ(Context) - ์งˆ๋ฌธ(Question) - ๋‹ต๋ณ€ (Answer) ์œผ๋กœ ์ด๋ฃจ์–ด์ง„ ๋ฐ์ดํ„ฐ์…‹ ํ˜•ํƒœ์ด๋‹ค. ์งˆ๋ฌธ์˜ ๋‹ต๋ณ€ ์—ฌ๋ถ€์— ๋”ฐ๋ผ 70๋งŒ๊ฑด์€ ์ •๋‹ต์ด ์žˆ๋Š” ๋ฐ์ดํ„ฐ์…‹, 30๋งŒ๊ฑด์€ ์ •๋‹ต์ด ์—†๋Š” ๋ฐ์ดํ„ฐ์…‹์œผ๋กœ ๊ตฌ์„ฑ๋˜์–ด ์žˆ๋‹ค. 

 

โœจ ์—ฐ๊ตฌ์˜ ์‹œ์ž‘์€ 

 

1. ๋…ผ๋ฌธ์„ ์—ด์‹ฌํžˆ ์ฝ๋Š”๋‹ค. 

2. NLP ๋…ผ๋ฌธ์— ๋Œ€ํ•œ ACL Anthology ์ฐธ๊ณ  

3. ์ฃผ์š” ML ์ปจํผ๋Ÿฐ์Šค๋“ค์˜ ๋…ผ๋ฌธ ์ฐธ๊ณ  : NeurlPS, ICML, ICLR 

4. ๊ธฐ์กด ํ”„๋กœ์ ํŠธ ์ฐธ์กฐ 

 

 

โœจ NLP ์—ฐ๊ตฌ์—์„œ ๊ฐ€์žฅ ์ค‘์š”ํ•œ ๊ฒƒ์€ ๋ฐ์ดํ„ฐ

 

1. ์ตœ์†Œ 1๋งŒ๊ฐœ์˜ ๋ ˆ์ด๋ธ”๋œ ๋ฐ์ดํ„ฐ๊ฐ€ ํ•„์š” 

2. ์‹คํ–‰ ๊ฐ€๋Šฅํ•œ, ์ ์ ˆํ•œ Task ๋ฅผ ์ฐพ๋Š” ๊ฒƒ๋„ ์ค‘์š”ํ•˜๋‹ค. ๋ฌผ๋ก  ์ž๋™ํ™”๋œ metric ํ‰๊ฐ€์ง€ํ‘œ๋„ ์žˆ์–ด์•ผ ํ•œ๋‹ค. 

3. ๊ณต๊ฐœ๋˜๊ณ  ์ž˜ ๊ด€๋ฆฌ๋œ dataset ํ™œ์šฉํ•˜๊ธฐ 

 

 

โœจ ๋ฐ์ดํ„ฐ ์ฐพ๊ธฐ

 

1. Linguistic Data Consortium 

 

โ—ฝ http://catalog.ldc.upenn.edu/

โ—ฝ https://linguistics.stanford.edu/resources/resources-corpora

 

2. Machine Translation 

โ—ฝ http://statmt.org

 

3. Dependency parsing 

โ—ฝ https://universaldependencies.org

 

4. ์บ๊ธ€, ๋…ผ๋ฌธ์— ์“ฐ์ธ ๋ฐ์ดํ„ฐ, NLP dataset github

โ—ฝ https://machinelearningmastery.com/datasets-natural-language-processing/

โ—ฝ https://github.com/niderhoff/nlp-datasets

 

 

 

2๏ธโƒฃ Review of gated neural sequence models 


 

 

โœจ GRU

 

 

  • RNN ์„ ์ดํ•ดํ•˜๋Š” ๊ฒƒ์€ ์ค‘์š”! 
  • ๊ธฐ์šธ๊ธฐ ์†Œ์‹ค ๋ฌธ์ œ ๐Ÿ‘‰ ์—ญ์ „ํŒŒ๋ฅผ ์œ„ํ•ด shortcut connection ์„ ๋งŒ๋“ค๊ฑฐ๋‚˜ adaptive ํ•˜๊ฒŒ ๋งŒ๋“ค ์ˆ˜ ์žˆ๋‹ค. 

 

 

 

 

3๏ธโƒฃ MT ๊ธฐ๊ณ„๋ฒˆ์—ญ topics 


 

โœจ Word generation problem  

 

์†Œํ”„ํŠธ๋งฅ์Šค ์—ฐ์‚ฐ๋Ÿ‰์ด ๋งค์šฐ ํฌ๋‹ค๋Š” ๋ฌธ์ œ

 

ํ•ด๊ฒฐ์ฑ…

  • Hierarchical softmax 
  • Large vocabulary set ์„ ๋ช‡๊ฐœ์˜ ๋ชจ๋ธ๋“ค๋กœ ๋‚˜๋ˆ„์–ด train ํ•œ ํ›„ ์•Œ๋งž์€ ๋ฒˆ์—ญ ๊ณ ๋ฅด๊ธฐ 
  • Attention ์‚ฌ์šฉํ•˜๊ธฐ
  • Word pieces, char models ์‚ฌ์šฉํ•˜๊ธฐ

 

 

 

โœจ Evaluation

 

โ—ฝ ์ˆ˜๋™ 

  • Adaquacy and fluency 
  • ์˜ค๋ฅ˜๋ถ„์„
  • ๋ฒˆ์—ญ ์ˆœ์œ„ ๋ฉ”๊ธฐ๊ธฐ 

 

โ—ฝ ์ž๋™ 

  • BLEU

 

 

4๏ธโƒฃ Research Evaluation 


 

 

โœจ NLP ์—ฐ๊ตฌ ๋ฐฉ๋ฒ• ์˜ˆ์‹œ 

 

1. ์—ฐ๊ตฌ Task ๊ฒฐ์ • ๐Ÿ‘‰ 2. Dataset ์„ ์ •ํ•˜๊ธฐ ๐Ÿ‘‰ 3. ํ‰๊ฐ€ metric ์„ ์ •ํ•˜๊ธฐ ๐Ÿ‘‰ 4. Basline ์ •ํ•˜๊ธฐ ๐Ÿ‘‰ 5. NN ๋ชจ๋ธ ์‹คํ–‰ ๐Ÿ‘‰ 6. test set ์œผ๋กœ ๊ฒฐ๊ณผ ๋„์ถœํ•˜๊ธฐ ๐Ÿ‘‰ 7. ๋‹ค๋ฅธ ๋ฐฉ๋ฒ• ์‹œ๋„ํ•ด๋ณด๊ธฐ 

 

 

 

 

 

 

 

โœจ ์ฃผ์˜์‚ฌํ•ญ

 

1. ํ›ˆ๋ จ/ํŠœ๋‹/Dev/ํ…Œ์ŠคํŠธ ๋ฐ์ดํ„ฐ์…‹ 

 

โ—ฝ Tuning set ์—์„œ ํ•˜์ดํผ ํŒŒ๋ผ๋ฏธํ„ฐ ํŠœ๋‹์„ ํ•œ๋‹ค. 

โ—ฝ Dev set ์—์„œ ํ›ˆ๋ จ์ด ์ž˜ ๋˜์—ˆ๋Š”์ง€ ํ™•์ธ 

โ—ฝ ๋งˆ์ง€๋ง‰์—๋งŒ Test set ์„ ์“ด๋‹ค. ๋ชจ๋“  ๋ฐ์ดํ„ฐ์…‹๋“ค์€ ๋…๋ฆฝ์ ์ด์–ด์•ผ ํ•œ๋‹ค. 

 

2. ์˜ค๋ฒ„ํ”ผํŒ… ์ฃผ์˜, Learning rate ์ฃผ์˜ 

 

โ—ฝ ํ›ˆ๋ จ์„ ๋งŽ์ดํ•˜๋ฉด ์˜ค๋ฒ„ํ”ผํŒ…์ด ๋ฐœ์ƒํ•  ์ˆ˜ ์žˆ๋‹ค. 

โ—ฝ ์ ์ ˆํ•œ ํ•™์Šต๋ฅ ์„ ์„ค์ •ํ•ด์ฃผ์–ด์•ผ ํ•œ๋‹ค. 

 

 

 

โœจ ์—ฐ๊ตฌ๋ฐฉ๋ฒ•๋ก 

 

1. ํ•œ๋‹จ๊ณ„์”ฉ ์—ฐ๊ตฌํ•ด๋ผ 

 

โ—ฝ ์ฒ˜์Œ์—๋Š” ์•„์ฃผ ๊ฐ„๋‹จํ•œ ๋ชจ๋ธ๋ถ€ํ„ฐ ์‹œ์ž‘ํ•˜๊ณ , ์ž˜ ์ž‘๋™ํ•˜๋ฉด ์ ์ฐจ ์ถ”๊ฐ€ํ•œ๋‹ค. 

โ—ฝ ๋ฐ์ดํ„ฐ์…‹๋„ ์ฒ˜์Œ์—๋Š” ์•„์ฃผ ์ž‘์€ ๋ฐ์ดํ„ฐ์…‹๋ถ€ํ„ฐ ์‹œ์ž‘ํ•˜๋ผ 

 

 

2. ๋ฐ์ดํ„ฐ์…‹์˜ ํฌ๊ธฐ๋ฅผ ์ ์  ๋” ํ‚ค์šฐ์ž 

 

โ—ฝ ๋ฐ์ดํ„ฐ์…‹์„ ํ‚ค์šฐ๋ฉด์„œ 100% ๊ฐ€๊นŒ์šด ์ •ํ™•๋„๊ฐ€ ๋‚˜์˜ค๋Š”๊ฒŒ ์ข‹๋‹ค. ๊ฐœ์„ ์ด ์•ˆ๋œ๋‹ค๋ฉด ๋ชจ๋ธ์„ ๋ฐ”๊ฟ”์•ผ ํ•จ 

โ—ฝ ์˜ค๋ฅ˜๋ถ„์„์„ ์ง„ํ–‰ํ•˜์—ฌ ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ ํŠœ๋‹์— ์‹ ๊ฒฝ์“ฐ์ž

 

 

 

โœจ RNN ํ•™์Šต ๋ฐฉ๋ฒ•

 

1. LSTM ์ด๋‚˜ GRU ๋ฅผ ์จ๋ณด์ž

2. orthogonal ํ•˜๊ฒŒ recurrent matrices ๋ฅผ ์ดˆ๊ธฐํ™”ํ•˜์ž

3. ๋‹ค๋ฅธ metrices ๋“ค์€ sensible scale ๋กœ ๋งŒ๋“ค์ž 

4. forget gate bias ๋ฅผ 1๋กœ ๋‘์ž 

5. adaptive learning rate ์„ ์‚ฌ์šฉํ•˜์ž

6. clip the norm of the gradient (1~5๊ฐ€ ์ ๋‹นํ•œ threshold)

7. dropout ์„ vertically ํ•˜๊ฒŒ ์ ์šฉํ•˜๊ฑฐ๋‚˜ baysiean dropout ์„ ์‚ฌ์šฉํ•˜์ž

8. ํ•™์Šต์€ ์ธ๋‚ด์‹ฌ์„ ๊ฐ€์ง€๊ณ  ๊ธฐ๋‹ค๋ฆฌ์ž ^!^

728x90

๋Œ“๊ธ€