๐ 9์ฅ. NLP ์ฐ๊ตฌ ์ ๋ฐ, CS224N ํ๋ก์ ํธ
1๏ธโฃ Starting Research
โจ SQuAD
- ์คํ ํฌ๋ ๋ํ์ NLP ๊ทธ๋ฃน์์ ํฌ๋ผ์ฐ๋ ์์ฑ์ ํตํด ๋ง๋ ์ํคํผ๋์ ์ํฐํด์ ๋ํ 107,785๊ฐ์ ์ง๋ฌธ-๋๋ต ๋ฐ์ดํฐ์ ์ด๋ค. ํ๊ตญ์๋ KorQuAD ๊ฐ ์๋ค.
- ์ง๋ฌธ(Context) - ์ง๋ฌธ(Question) - ๋ต๋ณ (Answer) ์ผ๋ก ์ด๋ฃจ์ด์ง ๋ฐ์ดํฐ์ ํํ์ด๋ค. ์ง๋ฌธ์ ๋ต๋ณ ์ฌ๋ถ์ ๋ฐ๋ผ 70๋ง๊ฑด์ ์ ๋ต์ด ์๋ ๋ฐ์ดํฐ์ , 30๋ง๊ฑด์ ์ ๋ต์ด ์๋ ๋ฐ์ดํฐ์ ์ผ๋ก ๊ตฌ์ฑ๋์ด ์๋ค.
โจ ์ฐ๊ตฌ์ ์์์
1. ๋ ผ๋ฌธ์ ์ด์ฌํ ์ฝ๋๋ค.
2. NLP ๋ ผ๋ฌธ์ ๋ํ ACL Anthology ์ฐธ๊ณ
3. ์ฃผ์ ML ์ปจํผ๋ฐ์ค๋ค์ ๋ ผ๋ฌธ ์ฐธ๊ณ : NeurlPS, ICML, ICLR
4. ๊ธฐ์กด ํ๋ก์ ํธ ์ฐธ์กฐ
โจ NLP ์ฐ๊ตฌ์์ ๊ฐ์ฅ ์ค์ํ ๊ฒ์ ๋ฐ์ดํฐ
1. ์ต์ 1๋ง๊ฐ์ ๋ ์ด๋ธ๋ ๋ฐ์ดํฐ๊ฐ ํ์
2. ์คํ ๊ฐ๋ฅํ, ์ ์ ํ Task ๋ฅผ ์ฐพ๋ ๊ฒ๋ ์ค์ํ๋ค. ๋ฌผ๋ก ์๋ํ๋ metric ํ๊ฐ์งํ๋ ์์ด์ผ ํ๋ค.
3. ๊ณต๊ฐ๋๊ณ ์ ๊ด๋ฆฌ๋ dataset ํ์ฉํ๊ธฐ
โจ ๋ฐ์ดํฐ ์ฐพ๊ธฐ
1. Linguistic Data Consortium
โฝ http://catalog.ldc.upenn.edu/
โฝ https://linguistics.stanford.edu/resources/resources-corpora
2. Machine Translation
3. Dependency parsing
โฝ https://universaldependencies.org
4. ์บ๊ธ, ๋ ผ๋ฌธ์ ์ฐ์ธ ๋ฐ์ดํฐ, NLP dataset github
โฝ https://machinelearningmastery.com/datasets-natural-language-processing/
โฝ https://github.com/niderhoff/nlp-datasets
2๏ธโฃ Review of gated neural sequence models
โจ GRU
- RNN ์ ์ดํดํ๋ ๊ฒ์ ์ค์!
- ๊ธฐ์ธ๊ธฐ ์์ค ๋ฌธ์ ๐ ์ญ์ ํ๋ฅผ ์ํด shortcut connection ์ ๋ง๋ค๊ฑฐ๋ adaptive ํ๊ฒ ๋ง๋ค ์ ์๋ค.
3๏ธโฃ MT ๊ธฐ๊ณ๋ฒ์ญ topics
โจ Word generation problem
ํด๊ฒฐ์ฑ
- Hierarchical softmax
- Large vocabulary set ์ ๋ช๊ฐ์ ๋ชจ๋ธ๋ค๋ก ๋๋์ด train ํ ํ ์๋ง์ ๋ฒ์ญ ๊ณ ๋ฅด๊ธฐ
- Attention ์ฌ์ฉํ๊ธฐ
- Word pieces, char models ์ฌ์ฉํ๊ธฐ
โจ Evaluation
โฝ ์๋
- Adaquacy and fluency
- ์ค๋ฅ๋ถ์
- ๋ฒ์ญ ์์ ๋ฉ๊ธฐ๊ธฐ
โฝ ์๋
- BLEU
4๏ธโฃ Research Evaluation
โจ NLP ์ฐ๊ตฌ ๋ฐฉ๋ฒ ์์
1. ์ฐ๊ตฌ Task ๊ฒฐ์ ๐ 2. Dataset ์ ์ ํ๊ธฐ ๐ 3. ํ๊ฐ metric ์ ์ ํ๊ธฐ ๐ 4. Basline ์ ํ๊ธฐ ๐ 5. NN ๋ชจ๋ธ ์คํ ๐ 6. test set ์ผ๋ก ๊ฒฐ๊ณผ ๋์ถํ๊ธฐ ๐ 7. ๋ค๋ฅธ ๋ฐฉ๋ฒ ์๋ํด๋ณด๊ธฐ
โจ ์ฃผ์์ฌํญ
1. ํ๋ จ/ํ๋/Dev/ํ ์คํธ ๋ฐ์ดํฐ์
โฝ Tuning set ์์ ํ์ดํผ ํ๋ผ๋ฏธํฐ ํ๋์ ํ๋ค.
โฝ Dev set ์์ ํ๋ จ์ด ์ ๋์๋์ง ํ์ธ
โฝ ๋ง์ง๋ง์๋ง Test set ์ ์ด๋ค. ๋ชจ๋ ๋ฐ์ดํฐ์ ๋ค์ ๋ ๋ฆฝ์ ์ด์ด์ผ ํ๋ค.
2. ์ค๋ฒํผํ ์ฃผ์, Learning rate ์ฃผ์
โฝ ํ๋ จ์ ๋ง์ดํ๋ฉด ์ค๋ฒํผํ ์ด ๋ฐ์ํ ์ ์๋ค.
โฝ ์ ์ ํ ํ์ต๋ฅ ์ ์ค์ ํด์ฃผ์ด์ผ ํ๋ค.
โจ ์ฐ๊ตฌ๋ฐฉ๋ฒ๋ก
1. ํ๋จ๊ณ์ฉ ์ฐ๊ตฌํด๋ผ
โฝ ์ฒ์์๋ ์์ฃผ ๊ฐ๋จํ ๋ชจ๋ธ๋ถํฐ ์์ํ๊ณ , ์ ์๋ํ๋ฉด ์ ์ฐจ ์ถ๊ฐํ๋ค.
โฝ ๋ฐ์ดํฐ์ ๋ ์ฒ์์๋ ์์ฃผ ์์ ๋ฐ์ดํฐ์ ๋ถํฐ ์์ํ๋ผ
2. ๋ฐ์ดํฐ์ ์ ํฌ๊ธฐ๋ฅผ ์ ์ ๋ ํค์ฐ์
โฝ ๋ฐ์ดํฐ์ ์ ํค์ฐ๋ฉด์ 100% ๊ฐ๊น์ด ์ ํ๋๊ฐ ๋์ค๋๊ฒ ์ข๋ค. ๊ฐ์ ์ด ์๋๋ค๋ฉด ๋ชจ๋ธ์ ๋ฐ๊ฟ์ผ ํจ
โฝ ์ค๋ฅ๋ถ์์ ์งํํ์ฌ ํ์ดํผํ๋ผ๋ฏธํฐ ํ๋์ ์ ๊ฒฝ์ฐ์
โจ RNN ํ์ต ๋ฐฉ๋ฒ
1. LSTM ์ด๋ GRU ๋ฅผ ์จ๋ณด์
2. orthogonal ํ๊ฒ recurrent matrices ๋ฅผ ์ด๊ธฐํํ์
3. ๋ค๋ฅธ metrices ๋ค์ sensible scale ๋ก ๋ง๋ค์
4. forget gate bias ๋ฅผ 1๋ก ๋์
5. adaptive learning rate ์ ์ฌ์ฉํ์
6. clip the norm of the gradient (1~5๊ฐ ์ ๋นํ threshold)
7. dropout ์ vertically ํ๊ฒ ์ ์ฉํ๊ฑฐ๋ baysiean dropout ์ ์ฌ์ฉํ์
8. ํ์ต์ ์ธ๋ด์ฌ์ ๊ฐ์ง๊ณ ๊ธฐ๋ค๋ฆฌ์ ^!^
'1๏ธโฃ AIโขDS > ๐ NLP' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
ํ ์คํธ ๋ถ์ โ (0) | 2022.05.14 |
---|---|
[cs224n] 10๊ฐ ๋ด์ฉ ์ ๋ฆฌ (0) | 2022.05.13 |
[cs224n] 8๊ฐ ๋ด์ฉ ์ ๋ฆฌ (0) | 2022.05.09 |
[cs224n] 7๊ฐ ๋ด์ฉ ์ ๋ฆฌ (0) | 2022.04.21 |
[cs224n] 6๊ฐ ๋ด์ฉ ์ ๋ฆฌ (0) | 2022.03.24 |
๋๊ธ