1๏ธโฃ AI•DS/๐ NLP21 ํ ์คํธ ๋ถ์ โ ๐ ํ์ด์ฌ ๋จธ์ ๋ฌ๋ ์๋ฒฝ๊ฐ์ด๋ ๊ณต๋ถ ๋ด์ฉ ์ ๋ฆฌ ๐ ์ค์ต ์ฝ๋ https://colab.research.google.com/drive/1UzQNyu-rafb1SQEDcQCeCyYO54ECgULT?usp=sharing 08. ํ ์คํธ ๋ถ์.ipynb Colaboratory notebook colab.research.google.com 1๏ธโฃ ํ ์คํธ ๋ถ์์ ์ดํด ๐ ๊ฐ์ ๐ก NLP ์ ํ ์คํธ ๋ง์ด๋ โ NLP ์ธ๊ฐ์ ์ธ์ด๋ฅผ ์ดํดํ๊ณ ํด์ํ๋๋ฐ ์ค์ ์ ๋๊ณ ๋ฐ์ ํ ์คํธ ๋ง์ด๋์ ํฅ์ํ๊ฒ ํ๋ ๊ธฐ๋ฐ ๊ธฐ์ ๊ธฐ๊ณ๋ฒ์ญ, ์ง์์๋ต ์์คํ ๋ฑ โ ํ ์คํธ ๋ง์ด๋ ๋น์ ํ ํ ์คํธ์์ ์๋ฏธ์๋ ์ ๋ณด๋ฅผ ์ถ์ถํ๋ ๊ฒ์ ์ค์ 1. ํ ์คํธ ๋ถ๋ฅ : ๋ฌธ์๊ฐ ํน์ ๋ถ๋ฅ ๋๋ ์นดํ ๊ณ ๋ฆฌ์ ์ํ๋ ๊ฒ์ ์์ธกํ๋ ๊ธฐ๋ฒ ex. ์ ๋ฌธ ๊ธฐ์ฌ ์นดํ ๊ณ ๋ฆฌ ๋ถ.. 2022. 5. 14. [cs224n] 10๊ฐ ๋ด์ฉ ์ ๋ฆฌ ๐ก ์ฃผ์ : Question Answering ๐ ํต์ฌ Task : QA ์ง๋ฌธ ์๋ต, reading comprehension, open-domain QA SQuAD dataset BiDAF , BERT 1๏ธโฃ Introduction 1. Motivation : QA โ QA ์ IR system ์ ์ฐจ์ด โฝ IR = information retrieval ์ ๋ณด๊ฒ์ ๐จ QA : Query (specifit) → Answer : ๋ฌธ์์์ ์ ๋ต ์ฐพ๊ธฐ ex. ์ฐ๋ฆฌ๋๋ผ ์๋๋ ์ด๋์ผ? - ์์ธ ๐จ IR : Query (general) → Document list : ์ ๋ต์ ํฌํจํ๊ณ ์๋ ๋ฌธ์ ์ฐพ๊ธฐ ex. ๊น์น๋ณถ์๋ฐฅ์ ์ด๋ป๊ฒ ๋ง๋ค์ด? - ์ ํ๋ธ ์์ ๋ฆฌ์คํธ, ๋ธ๋ก๊ทธ ๋ฆฌ์คํธ ๐ ์ต๊ทผ์๋ ์ค๋งํธํฐ, ์ธ๊ณต์ง๋ฅ ์คํผ์ปค ๊ธฐ.. 2022. 5. 13. [cs224n] 9๊ฐ ๋ด์ฉ ์ ๋ฆฌ ๐ 9์ฅ. NLP ์ฐ๊ตฌ ์ ๋ฐ, CS224N ํ๋ก์ ํธ 1๏ธโฃ Starting Research โจ SQuAD ์คํ ํฌ๋ ๋ํ์ NLP ๊ทธ๋ฃน์์ ํฌ๋ผ์ฐ๋ ์์ฑ์ ํตํด ๋ง๋ ์ํคํผ๋์ ์ํฐํด์ ๋ํ 107,785๊ฐ์ ์ง๋ฌธ-๋๋ต ๋ฐ์ดํฐ์ ์ด๋ค. ํ๊ตญ์๋ KorQuAD ๊ฐ ์๋ค. ์ง๋ฌธ(Context) - ์ง๋ฌธ(Question) - ๋ต๋ณ (Answer) ์ผ๋ก ์ด๋ฃจ์ด์ง ๋ฐ์ดํฐ์ ํํ์ด๋ค. ์ง๋ฌธ์ ๋ต๋ณ ์ฌ๋ถ์ ๋ฐ๋ผ 70๋ง๊ฑด์ ์ ๋ต์ด ์๋ ๋ฐ์ดํฐ์ , 30๋ง๊ฑด์ ์ ๋ต์ด ์๋ ๋ฐ์ดํฐ์ ์ผ๋ก ๊ตฌ์ฑ๋์ด ์๋ค. โจ ์ฐ๊ตฌ์ ์์์ 1. ๋ ผ๋ฌธ์ ์ด์ฌํ ์ฝ๋๋ค. 2. NLP ๋ ผ๋ฌธ์ ๋ํ ACL Anthology ์ฐธ๊ณ 3. ์ฃผ์ ML ์ปจํผ๋ฐ์ค๋ค์ ๋ ผ๋ฌธ ์ฐธ๊ณ : NeurlPS, ICML, ICLR 4. ๊ธฐ์กด ํ๋ก์ ํธ ์ฐธ์กฐ โจ NLP ์ฐ๊ตฌ์์ ๊ฐ.. 2022. 5. 9. [cs224n] 8๊ฐ ๋ด์ฉ ์ ๋ฆฌ ๐ก ์ฃผ์ : Seq2Seq , Attention, ๊ธฐ๊ณ๋ฒ์ญ ๐ ํต์ฌ Task : machine translation ๊ธฐ๊ณ๋ฒ์ญ Seq2Seq Attention ๊ธฐ๊ณ๋ฒ์ญ์ ๋ํ์ ์ธ Seq2Seq ํํ์ ํ์ฉ ์์ ์ค ํ๋์ด๊ณ , attention ์ด๋ผ๋ ๋ฐฉ๋ฒ๋ก ์ ํตํด ์ฑ๋ฅ์ด ๊ฐ์ ๋์๋ค. 1๏ธโฃ Machine Translation 1. ๊ธฐ๊ณ๋ฒ์ญ โ ์ ์ ์ ๋ ฅ์ผ๋ก ๋ค์ด์จ Source language ๋ฅผ target language ํํ๋ก ๋ฒ์ญํ๋ Task โ ์ญ์ฌ โฐ 1950's : The early history of MT ๋ฌ์์์ด๋ฅผ ์์ด๋ก ๋ฒ์ญํ๋ ๋ฑ์ ๊ตฐ์ฌ ๋ชฉ์ ์ผ๋ก ๊ฐ๋ฐ๋๊ธฐ ์์ํ์๋ค. Rule-based ์ ๋ฒ์ญ ์์คํ ์ผ๋ก ๊ฐ์ ๋ป์ ๋จ์ด๋ฅผ ๋์ฒดํ๋ ๋จ์ํ ๋ฐฉ์์ ์ฌ์ฉํ๋ค. โฐ 1990s - 2010s :.. 2022. 5. 9. [cs224n] 7๊ฐ ๋ด์ฉ ์ ๋ฆฌ Vanishing Gradients and Fancy RNNs ๐ก ์ฃผ์ : Vanishing Gradients and Fancy RNNs ๐ ํต์ฌ Task : ๋ฌธ์ฅ์ด ์ฃผ์ด์ง ๋ ์ง๊ธ๊น์ง ๋์จ ๋จ์ด๋ค ์ดํ์ ๋์ฌ ๋จ์ด๋ฅผ ์์ธก Sequential data : ์์๊ฐ ์๋ฏธ ์์ผ๋ฉฐ ์์๊ฐ ๋ฌ๋ผ์ง ๊ฒฝ์ฐ ์๋ฏธ๊ฐ ์์๋๋ ๋ฐ์ดํฐ๋ก ์ํ์ ๊ฒฝ๋ง์ ์ฌ์ฉํ๋ ์ด์ ๋ ์ ๋ ฅ์ ์์ฐจ๋ฐ์ดํฐ๋ก ๋ฐ๊ฑฐ๋, ์ถ๋ ฅ์ ์์ฐจ ๋ฐ์ดํฐ๋ก ๋ด๊ธฐ ์ํด์๋ค. RNN : ๋ค์์ ์ฌ ๋จ์ด๋ฅผ ์์ธกํ๋ ๊ณผ์ ๋ฅผ ํจ๊ณผ์ ์ผ๋ก ์ํํ๊ธฐ ์ํด ๋์ ํ NN ์ ์ผ์ข ๐ ๋ฌธ์ ์ : ๊ธฐ์ธ๊ธฐ์์ค/ํญ์ฆ, ์ฅ๊ธฐ์์กด์ฑ LSTM : RNN ์ ์ฅ๊ธฐ์์กด์ฑ์ ๋ฌธ์ ์ ์ ๋ณด์ํด ๋ฑ์ฅํ ๋ชจ๋ธ ๐ cell state , 3 ๊ฐ์ gate ๊ฐ๋ ์ ๋์ 1๏ธโฃ Language model, RNN.. 2022. 4. 21. [cs224n] 6๊ฐ ๋ด์ฉ ์ ๋ฆฌ ๐ก ์ฃผ์ : Language models and RNN (Recurrent Neural Network) ๐ ํต์ฌ Task : ๋ฌธ์ฅ์ด ์ฃผ์ด์ง ๋ ์ง๊ธ๊น์ง ๋์จ ๋จ์ด๋ค ์ดํ์ ๋์ฌ ๋จ์ด๋ฅผ ์์ธก RNN : ๋ค์์ ์ฌ ๋จ์ด๋ฅผ ์์ธกํ๋ ๊ณผ์ ๋ฅผ ํจ๊ณผ์ ์ผ๋ก ์ํํ๊ธฐ ์ํด ๋์ ํ NN ์ ์ผ์ข ๐ ๋ชฉ์ฐจ / ๋ด์ฉ 1. Language model (1) Language model ์ด๋ โ ์ ์ ๋จ์ด์ ์ํ์ค(๋ฌธ์ฅ) ์ ๋ํด ์ผ๋ง๋ ์์ฐ์ค๋ฌ์ด ๋ฌธ์ฅ์ธ์ง๋ฅผ 'ํ๋ฅ ' ์ ์ด์ฉํด ์์ธกํ๋ ๋ชจ๋ธ Language modeling = ์ฃผ์ด์ง ๋จ์ด์ ์ํ์ค์ ๋ํด ๋ค์์ ๋ํ๋ ๋จ์ด๊ฐ ์ด๋ค ๊ฒ์ธ์ง๋ฅผ ์์ธกํ๋ ์์ ํน์ ๋ฌธ์ฅ์ ํ๋ฅ ์ ํ ๋นํ๋ค. ๋ฌธ์ฅ์ ๋จ์ด w(1), w(2) , ... w(t) ๊ฐ ์ฃผ์ด์ก์ ๋ ๋ค์์ ์ฌ ๋จ์ด w(t+1).. 2022. 3. 24. [cs224n] 5๊ฐ ๋ด์ฉ ์ ๋ฆฌ ๐ก ์ฃผ์ : Dependency Parsing ๐ ํต์ฌ Task : ๋ฌธ์ฅ์ ๋ฌธ๋ฒ์ ์ธ ๊ตฌ์ฑ, ๊ตฌ๋ฌธ์ ๋ถ์ Dependency Parsing : ๋จ์ด ๊ฐ ๊ด๊ณ๋ฅผ ํ์ ํ์ฌ ๋จ์ด์ ์์ (๋ฌธ๋ฒ) ๊ตฌ์กฐ๋ฅผ ๋์ถํด๋ด๊ธฐ ๐ ๋ชฉ์ฐจ 1. Dependency Parsing ์ด๋ (1) Parsing โ ์ ์ ๊ฐ ๋ฌธ์ฅ์ ๋ฌธ๋ฒ์ ์ธ ๊ตฌ์ฑ์ด๋ ๊ตฌ๋ฌธ์ ๋ถ์ํ๋ ๊ณผ์ ์ฃผ์ด์ง ๋ฌธ์ฅ์ ์ด๋ฃจ๋ ๋จ์ด ํน์ ๊ตฌ์ฑ ์์์ ๊ด๊ณ๋ฅผ ๊ฒฐ์ ํ๋ ๋ฐฉ๋ฒ์ผ๋ก, parsing์ ๋ชฉ์ ์ ๋ฐ๋ผ Consitituency parsing๊ณผ Dependency parsing์ผ๋ก ๊ตฌ๋ถ โ ๋น๊ต ํ ํฌ๋์ด์ง : ๋ฌธ์ฅ์ด ๋ค์ด์ค๋ฉด ์๋ฏธ๋ฅผ ๊ฐ์ง ๋จ์๋ก ์ชผ๊ฐ์ฃผ๋ ๊ฒ pos-tagging : ํ ํฐ๋ค์ ํ์ฌ tag ๋ฅผ ๋ถ์ฌ์ฃผ๋ ๊ณผ์ Paring : ๋ฌธ์ฅ ๋ถ์ ๊ฒฐ๊ณผ๊ฐ Tree ํํ๋ก ๋.. 2022. 3. 22. [cs224n] 4๊ฐ ๋ด์ฉ ์ ๋ฆฌ ๐ก ์ฃผ์ : Backpropagation and Computation Graphs ๐ ๋ชฉ์ฐจ ์ ๋ฆฌ 1. Matrix gradient for NN (1) NN ์ ๊ณผ์ feedforward : X * W = output vector = predict ๊ฐ backpropagation : output vector ๋ฅผ weight matrix ์ ๋ํด ๋ฏธ๋ถ (2) ๊ฐ์ค์น ํ๋ ฌ (parameter) ์ ๋ฏธ๋ถ Chain Rule : ํจ์์ ์ฐ์๋ฒ์น์ ๊ธฐ๋ฐ์ผ๋ก ์ด๋ฃจ์ด์ง๋ ๊ณ์ฐ ๊ท์น (ํฉ์ฑํจ์์ ๋ฏธ๋ถ) NN ์ chain rule ์ ์ด์ฉํด ์ต์ข scalar ๊ฐ์ weight ๋ก ๋ฏธ๋ถํด๊ฐ๋ฉฐ ๊ฐ์ค์น๋ฅผ ์ ๋ฐ์ดํธ ํ๋ ๋ฐฉ์์ผ๋ก ํ์ต์ ์งํํ๋ค. dz/dw ๋ฅผ ๊ณ์ฐํ๋ ๊ณผ์ (3) Gradient Tips ๋ณ์๋ฅผ ์ ์ ์ํ๊ณ .. 2022. 3. 18. NLP deep learning ๐ ์ํค๋ ์ค : https://wikidocs.net/35476 ์ ๋ฅ๋ฌ๋ ๊ฐ์ ํํธ ๊ณต๋ถํ ๊ฒ ์ ๋ฆฌ (์ด๋ฏธ์ง ์ถ์ฒ๋ ๋ชจ๋ ์ํค๋ ์ค ํํ์ด์ง) ๐ ์ํํธ๋งฅ์ค ํ๊ท ๋ก์ง์คํฑํ๊ท : ์ด์ง ๋ถ๋ฅ ๋ฌธ์ VS ์ํํธ๋งฅ์ค ํ๊ท : ๋ค์ค ํด๋์ค ๋ถ๋ฅ ๋ฌธ์ ๋ํ์ ์ธ ๋ค์ค ํด๋์ค ๋ถ๋ฅ ์์ : iris ๋ถ๊ฝ ํ์ข ๋ถ๋ฅ (k=3) Softmax function ํด๋์ค์ ๊ฐ์๊ฐ k ๊ฐ์ผ ๋, k ์ฐจ์์ ๋ฒกํฐ๋ฅผ ์ ๋ ฅ๋ฐ์ ๊ฐ ํด๋์ค์ ๋ํ ํ๋ฅ ์ ์ถ์ ํ๋ค. zi : k์ฐจ์์ ๋ฒกํฐ์์ i ๋ฒ์งธ ์์ pi : i ๋ฒ์งธ ํด๋์ค๊ฐ ์ ๋ต์ผ ํ๋ฅ k ์ฐจ์์ ๋ฒกํฐ๋ฅผ ์ ๋ ฅ → ๋ฒกํฐ ์์ ๊ฐ์ 0๊ณผ 1 ์ฌ์ด์ ๊ฐ์ผ๋ก ๋ณ๊ฒฝ → ๋ค์ k ์ฐจ์์ ๋ฒกํฐ๋ฅผ ๋ฐํ ๐ ์ํ ๋ฐ์ดํฐ ๋ฒกํฐ(4์ฐจ์) ์ ์ํํธ๋งฅ์ค ํจ์์ ์ ๋ ฅ๋ฒกํฐ 3์ฐจ์์ผ๋ก ์ถ์ํ๋ ๋ฐฉ๋ฒ? ๐.. 2022. 3. 15. [cs224n] 3๊ฐ ๋ด์ฉ ์ ๋ฆฌ ๐ก ์ฃผ์ : Word Window Classification, NN and Matrix Calculus ๐ ํต์ฌ Task : ๋ถ๋ฅ - ๊ฐ์ฒด๋ช ๋ถ๋ฅ (Named Entity Recognition) ๐ ๋ชฉ์ฐจ ์ ๋ฆฌ 1. Classification Review / introduction NLP ์์์ ๋ถ๋ฅ ๋ฌธ์ ๐ input data : ๋จ์ด, ๋ฌธ์ฅ, ๋ฌธ์ ๋ฑ ๐ Class : ๊ฐ์ ๋ถ๋ฅ, ๊ฐ์ฒด๋ช ๋ถ๋ฅ (Named entity) , ๊ฐ์ ์๋ฏธ/ํ์ฌ์ ๋จ์ด๋ผ๋ฆฌ ๋ถ๋ฅ ๋ฑ ๐ ๊ฒฐ์ ๊ฒฝ๊ณ (decision boundary) ๋ฅผ ๊ฒฐ์ ํ Weight ๋ฅผ ํ์ต ์ง๋ํ์ต ๐ Train set → Loss function → Validation / Test set ์์คํจ์ ๐ ์์ธกํ ๋ฐ์ดํฐ(y hat) ์ ํ๋ฅ ๋ถํฌ์ ์ค์ ๋ฐ์ดํฐ(.. 2022. 3. 14. ์ด์ 1 2 3 ๋ค์ 728x90