๐ก ์ฃผ์ : Tree Recursive Neural Networks, Constituency Parsing, and Sentiment
๐ ํต์ฌ
- Task : TreeRNN ์ ํ์ฉํ ๋ฌธ์ฅ ๊ตฌ์กฐ ๋ถ์
- ๊ตฌ์กฐ์ ์ผ๋ก ๋ฌธ์ฅ์ ๋๋๊ณ ๊ฐ ๋จ์ด์ ์กฐํฉ์ด ๋ํ๋ด๋ ์๋ฏธ๋ฅผ ์ฐพ์ ๋ฌธ์ฅ ์ ์ฒด์ ์๋ฏธ ํ์ ํ๊ธฐ
- Simple Tree RNN, SU-RNN, MV-RNN , RNTN
- TreeRNN ์ ํ์ค์ ์ผ๋ก ์ฌ์ฉํ๊ธฐ ํ๋ค๋ค๊ณ ํจ → GPU ์ฐ์ฐ์ด ์ด๋ ค์ + ๋ฐ์ดํฐ ๊ตฌ์ถ์ ์ด๋ ค์
- ์์ฆ NLP ์์ TreeRNN ์ด ์๋ LSTM, CNN, Transformer ๋ฑ contextual language model ์ ์ฑ๋ฅ์ด ๋ ์ข์
- ๋ฌผ๋ฆฌํ, ํ๋ก๊ทธ๋๋ฐ ์ธ์ด ๋ฒ์ญ ๋ฑ ๋ค๋ฅธ ์์ญ์์ ์ ์ฉ์ด ์๋๋๊ณ ์๋ ์ํฉ์ด๋ค.
1๏ธโฃ Compositionality and Recursion
โ Sentence representation
โ Sentence representation
โฝ BoW, RNN/CNN ๊ธฐ๋ฐ ํํ, Tf-idf โฆโฆโฆโฆ
โฝ Language structure : ์ธ์ด์ ๋ฌธ๋ฒ ๊ตฌ์กฐ
๐ ๋ฌธ์ฅ ๊ตฌ์ ์ ์๋ฏธ๋ฅผ ์ด๋ป๊ฒ ํ๋ฉด ๋ ์ ํ์ ํ ์ ์์๊น
โ Compositionality
โฝ ๊ธฐ๊ณ์์์ Compositionality : ๊ธฐ๊ณ ๋ถํ๋ง๋ค ๊ณ ์ ํ ์๋ฏธ๋ฅผ ๊ฐ์ง๊ณ ์์ผ๋ฉฐ ์ด๋ฅผ ์ด๋ป๊ฒ ๊ตฌ์กฐ์ ์ผ๋ก ๊ฒฐํฉํ๋์ ๋ฐ๋ผ ์ ํ ๋ค๋ฅธ ๊ธฐ๊ณ๊ฐ ํ์ํ ์ ์๋ค.
โฝ ์ธ์ด์์ Compositionality : ๊ฐ๋จํ ๋ถ๋ถ์ผ๋ก๋ถํฐ ์๋ฏธ๋ฅผ ์ถ์ถํ๊ณ , ๊ทธ ์๋ฏธ๋ค์ด semantic ํ ๊ตฌ์กฐ๋ก ํฉ์ณ์ง์ด ์๋ก์ด ์๋ฏธ๋ฅผ ๋ง๋ ๋ค. ๊ฐ๋ น ์ฌ๋ฌ๊ฐ์ ๋จ์ด๋ฅผ ํตํด ํ ๋ฌธ์ฅ์ด ๋ง๋ค์ด์ง๋ฉด ๊ฐ ๋จ์ด์ ์กฐํฉ์ผ๋ก ์๋ก์ด ์๋ฏธ๋ฅผ ๋ํ๋ผ ์ ์๋ค.
๐ ๋จ์ด์ ์กฐํฉ์ผ๋ก ๋ฌธ์ฅ์ ์๋ฏธ๋ฅผ ํ์ ํ ์ ์๋ค.
โ Semantic interpretation of language
๐จ A person on a snowboard = snowboard
โฝ ์ธ๊ฐ์ ์ธ์ด๋ ํฐ ํ ์คํธ ๋จ์์ ์๋ฏธ๋ฅผ ์์ ์์์ ์กฐํฉ์ ํตํด ์๋ฏธ๋ฅผ ํํํ๋ ๊ฒฝ์ฐ๊ฐ ๋ง๋ค.
โฝ ๊ทธ๋ฌ๋ word vector ์์๋, ํฐ text unit ์ semantic ํ composition ์ ํตํด ์๋ฏธ๋ฅผ ํด์ํ๊ธฐ๊ฐ ์ด๋ ต๋ค.
โฝ ์ฐ์์ ์ธ chunk ๋ง๋ญ์น๋ก ์ด๋ฃจ์ด์ง ๋ฌธ๋งฅ์ ์๋ฏธ๋ฅผ ์ด๋ป๊ฒ ๊ธฐ๊ณ๊ฐ ์ดํดํ๋๋ก ํํํ ์ ์์๊น ๐ Tree ๊ธฐ๋ฐ์ Neural Network
โฝ ์์ ๋ถ๋ถ๋ค์ ํฐ ๋จ์๋ก ๊ตฌ์ฑํด ์๋ฏธ๋ฅผ ํํ
โก Recursion
โฝ ์ ๋ช ์ธ์ดํ์ Noam Chomsky ๊ฐ ์ ์ํ ๋ ผ๋ฌธ์์ ๋ฑ์ฅํ ๊ฐ๋
๐ญ ์ธ๊ฐ์ ์ฌ๊ท์ ์ธ ๊ณผ์ (Recursive process) ์ ํตํด ์๋ก์ด ์ ์๋ฅผ ๊ฐ๋ฅํ๊ฒ ํ๋ค.
๐ญ Smaller parts → resurvice process → Bigger things
โฝ ๊ทธ๋ฌ๋ ๋ฐ์ดํฐ๋ฅผ ํตํด ํ์ต์ ์งํํ๋ ๋จธ์ ๋ฌ๋ ๋ถ์ผ์ Computational ์ธ์ดํ์๋ค์ ํ์์ ์ธ ๋ฐ์์ ๋ณด์์
→ ์ธ์ด๊ฐ recursive ํ์ง๋ ์์ง๋ ์์ธก์์ ๋ ผ์์ค
→ ๊ทธ๋ฌ๋ ์ธ๊ฐ์ ์ธ์ด ๋ฌธ์ฅ์ด ์ฌ๋ฌ ์กฐ๊ฐ๋ค๋ก ์ด๋ฃจ์ด์ ธ ์๋ค๋ ๊ฒ์ ๋ํด์๋ ์์ธก ๋ชจ๋ ๋์
→ ๋ง๋ญ์น๋ ์ฌ๋ฌ ๋จ์ด ์กฐ๊ฐ์ผ๋ก๋ถํฐ ๊ตฌ์กฐ์ ์ผ๋ก, ์ฌ๊ท์ ์ผ๋ก ํ์ฑ๋๋ค.
2๏ธโฃ Tree RNN
โ Parsing
โ Dependency VS Constituency
โฝ Dependency Parsing : ๋จ์ด์ ๊ด๊ณ๋ฅผ ํ์ ๐ 5์ฅ
โฝ Constituency Parsing : ๋ฌธ์ฅ์ ๊ตฌ์กฐ๋ฅผ ํ์
โก Constituency parsing
โ Constituency parsing ๊ณผ ๊ฐ์ ์๋ฏธ๋ก ์ฌ์ฉ๋๋ ์ฉ์ด ์ ๋ฆฌ
โ word vector space
โฝ semantic ์ ๋ณด์กดํ ํํ๋ก word vector ๊ณต๊ฐ์ ๋น์ทํ ์๋ฏธ๋ฅผ ๊ฐ์ง ๋จ์ด๋ค์ ๊ฐ๊น์ด ์์นํ๊ฒ ๋๋ค.
โฝ ๋จ์ด๋ค์ ๊ฒฐํฉ์ธ ๊ธด ๊ตฌ๋ฌธ ํน์ ๋ฌธ์ฅ ๊ฐ์ ๊ฒฝ์ฐ๋ ๋ฌธ๋งฅ์ ์ ์ฌ์ฑ์ ์ด๋ป๊ฒ ํํํ ๊น ๐ Tree RNN
โข Tree RNN
โ Tree RNN
์ผ์ ํ ๊ท์น์ ์ ํ์ฌ ๋จ์ด๊ฐ ์กฐํฉ์ ํ๊ณ ์๋ฏธ๋ฒกํฐ๋ฅผ ์์ฑ
โฝ Tree RNN ์ ์ฌ์ฉํ๋ฉด ๋ฌธ์ฅ/๊ตฌ๋ฌธ์ ์ ์ฌ์ฑ์ ํฌํจํ ๋ฌธ์ฅ ํํ์์ ์์ฑํ ์ ์๊ฒ ๋๋ค.
โฝ RNN ์ ํตํด ๋ฌธ์ฅ์ ๋ถ์ํ๊ฒ ๋๋ฉด, ์ธ์ ๋จ์ด๋ฅผ ํฉ์น ๋จ์ด์ ์๋ฏธ๋ฅผ ์ถฉ๋ถํ ๋ฐ์ํ์ง ๋ชปํ๋ฉฐ, ๋ง์ง๋ง ๋จ์ด ๋ฒกํฐ๋ฅผ ์ฃผ๋ชฉํ๋ ๊ฒฝํฅ์ด ์์ด ๋ฌธ์ฅ์ ์๋ฏธ๋ฅผ ํ์ ํ๋๋ฐ ์ ์ ํ์ง ์๋ค.
๐ญ Tree RNN ์ ์์ฑํ๊ธฐ ์ํด ์์์ผ ํ๋ 2๊ฐ์ง
(1) word vector : The meaning of its words
(2) ๋จ์ด๊ฐ ๊ฒฐํฉ๋๋ ๊ท์น
โ Learn Structure and Representation
1. Parsing - Sentence Structure
๐จ ๋จ์ด ์กฐ๊ฐ๋ค์ด ๋ชจ์ฌ ๋ฌธ์ฅ์ผ๋ก ์ด๋ฃจ์ด์ง๋ ๊ตฌ์กฐ
2. Meaning Computation - sentence representation
๐จ ๋ฌธ์ฅ์ ์ด๋ฃฐ๋ ๊ฐ chunck ์ ๋ํ ๋ ธ๋์ ๋ํด ์๋ฏธ (๋ฒกํฐ) ๋ฅผ ๋ถ์ฌํ ์ ์๊ฒ ๋จ
→ ์ต์ข ์ ์ผ๋ก ๋ฌธ์ฅ S ์ ๋ํด์๋ ๋ฒกํฐ๋ก ํํํ ์ ์๊ฒ ๋จ
โ RNN
๐ญ Recursive Neural network
โฝ ๋ฌธ์ฅ ํน์ ๊ตฌ๋ฌธ์ด ํ์ํ ๋ ์ฃผ๋ก ์ฌ์ฉํ๋ ๋คํธ์ํฌ
โฝ ๋ฌธ์ฅ์ด๋ ๊ตฌ๋ฌธ์ด ์ด๋ป๊ฒ ์๋ฏธ๋ฅผ ๋ฐ์ํ๋์ง ํด๋น ๋คํธ์ํฌ๋ฅผ ํตํด ํ์ตํ ์ ์๋ค.
โฝ ์ฆ, constituent chunk (์๋ฏธ ๋ง๋ญ์น) ๋ฅผ ์ ์ ์๋ค.
๐ญ Recurrent Neural network
โฝ ๋ง์ง๋ง hidden state ๋ฅผ ํตํด ๋ฌธ์ฅ ํํ์ ๊ฒฐ๊ณผ๋ฅผ ๋์ถ → ๋ฌธ์ฅ์ ์๋ฏธ๋ฅผ ์์ด๋ฒ๋ฆฌ๊ธฐ ์ฌ์ด ๊ตฌ์กฐ์ ๋คํธ์ํฌ
โฝ ์๋จ์ ์๋ hidden state ์ ํฌํจ๋ ์ ๋ณด๋ค์ด ๋ท๋จ์๊น์ง ์ ๋ฌ๋๊ธฐ ์ด๋ ค์ ํ์คํ ๋ฌธ์ฅ ํํ์ด ์ด๋ ต๋ค.
โฝ Recursive NN ์ ์ค๊ฐ ๊ณผ์ ์์ Phrase ์ ๋ํ ํํ์๋ ์ป์ ์ ์๋๋ฐ Recurrent NN ์ ๋จ ํ๋์ ๋ฌธ์ฅ ๋ฒกํฐ๋ง ํํํ ์ ์์ด ๊ตฌ๋ฌธ์ ๋ํ ํํ์ ๋ถ๊ฐ๋ฅํ๋ค.
โ Recursive NN for Structure prediction
โฝ Score : ๊ฐ ๋จ์ด๊ฐ ๊ฒฐํฉ๋ ๋, ๊ฒฐํฉ ํ๋ ๊ฒ์ด ์ ์ ํ์ง (ํด๋น ๋จ์ด๊ฐ ์ผ๋ง๋ ๊ทธ๋ด๋ฏ ํ์ง๋ฅผ ์๋ฏธ) ์ ๋ํ ์ ์ → EX. 1.3
โฝ The semantic representation : ๊ฒฐํฉํ๊ฒ ๋๋ค๋ฉด ๊ฒฐํฉํ ๊ฒ์ ์๋ก์ด ์๋ฏธ๋ฅผ ํํํ๋ ๋ฒกํฐ → EX. [8 3]
โ Recursive NN Definition
โฝ Pharase representation ๋ฐฉ๋ฒ
(1) ์๋ก ๋ค๋ฅธ ๋จ์ด ํน์ ๊ตฌ๋ฌธ ๋ ธ๋์ธ C1,C2 ๋ฅผ concat ํ ํ weight matrix ๋ฅผ ๊ณฑํ๊ณ bias ๋ฅผ ๋ํ ํ ๋น์ ํ ํจ์ tanh ๋ฅผ ํต๊ณผ์ํจ๋ค = p
(2) p ์ ์ ํ matrix ์ฐ์ฐ์ ์ทจํ๋ฉด score ๊ฐ์ด ๋์จ๋ค.
(3) Score ๊ฐ์ด ํฌ๋ฉด ํด๋นํ๋ ๋ ๋ ธ๋ C1,C2 ๊ฐ ๊ฒฐํฉํ๋ค.
โ Parsing sentence with an RNN
๐จ Greedy ํ์ ๋ฐฉ๋ฒ : ์ธ์ ํ ๋จ์ด์ Score ๊ฐ ๋์ ์กฐํฉ์ผ๋ก ๋ค์ ๋ถ๋ชจ ๋จ์ด์ ๋ฒกํฐ์ Score ๋ฅผ ๊ณ์ฐ
โฝ EX. The ์ Cat node vector ๊ฐ NN ์ ๊ฑฐ์ณ Score ๋ฅผ ์ฐ์ถํ๋ค.
โฝ EX. Score ๊ฐ ๋์ The ์ cat ์ ๊ตฌ๋ฌธ์ผ๋ก ํฉ์ณ์ง๋ค.
โฝ EX. Score ๊ฐ ๋์ ๊ฒฐํฉ๋ผ๋ฆฌ ๊ตฌ๋ฌธ์ ์ด๋ฃจ๋ ๊ณผ์ ์ ๊ณ์ํจ → greedy
โ Score ์ฐ์ถ ๋ฐฉ๋ฒ
โฝ ๊ฒฐํฉํ ํด๋น ๋ ธ๋์ ๋ํด score ๊ฐ์ ๋ชจ๋ ๋ํ๋ ๋ฐฉ์์ผ๋ก ์ฐ์ ํ์ฌ Max-Margin objective ํจ์์ ๋ฐ๋ผ ์ฐ์ฐ์ ์ํํ๋ค.
โฝ greedy ๋ฐฉ์ ์ธ์ beam search ๋ฐฉ์์ ์ฌ์ฉํด๋ ๋ฌด๋ฐฉํจ
โ Simple Tree RNN
โฝ Simple Tree RNN ์ weight matrix ๋ฅผ ๋ชจ๋ ๋ ธ๋์ ๋ํด ๋์ผํ๊ฒ ์ ์ฉํ๊ธฐ ๋๋ฌธ์ ๋ฌธ์ฅ์ด ๊ธธ๊ณ ๋ณต์กํ ์๋ก ์ ํํํ๊ธฐ๊ฐ ์ด๋ ค์
โฝ ๋จ์ด ์ฌ์ด์ interaction ์ (EX. Hit the ball, Uh ball, Blue ball) ์ ๋ชป์ก์ ๋ด๋ ๊ฒฝ์ฐ๊ฐ ์กด์ฌํจ
โฃ Simple TreeRNN ์ ํ๊ณ์
โฝ W๊ฐ ๋ชจ๋ ๋ ธ๋์์ ๋์ผํ๊ฒ ์ ์ฉ๋๋ฏ๋ก ์ผ๋ถ ํ์์์๋ ์ ํฉํ ์ ์์ผ๋ ๋ ๋ณต์กํ๊ณ ๊ณ ์ฐจ ๊ตฌ์ฑ ๋ฐ ๊ธด ๋ฌธ์ฅ์์๋ ์ ์ ํ์ง ๋ชปํ๋ค.
โฝ input ๋จ์ด๊ฐ ์ค์ ์ํธ์์ฉ์ด ์๋ค.
โฝ ์กฐํฉ ํจ์๊ฐ ๋ชจ๋ ๊ฒฝ์ฐ์ ๋ํด ๋์ผํ๊ฒ ์์ฉํ๋ค.
3๏ธโฃ Syntatically-United RNN , Matrix-Vector RNN
โ SU-RNN (2013)
์กฐํฉ๋ ๋จ์ด์ ํ๋ฅ ์ ๊ณ์ฐํ๊ณ TreeRNN ์ ์ ์ฉํ ๋ชจ๋ธ
ํ๋ ฌ W ๋ฅผ ๊ฐ๊ธฐ ๋ค๋ฅธ ํ๋ ฌ๋ก ์ค์ ํ๋ค.
โ PCFG + Tree RNN
โป PCFG ๋ค์ด๋๋ฏน ์๊ณ ๋ฆฌ์ฆ์ ์ฌ์ฉํด ๋ฌธ์ฅ ๊ตฌ์กฐ๋ฅผ ๋ง๋ ๋ค์ Tree RNN ์ ์ ์ฉํ๋ ๋ฐฉ๋ฒ
โป Weight matrix ๋ฅผ ๋์ผํ๊ฒ ์ ์ฉํ์ง ์๊ณ ์ํฉ์ ๋ฐ๋ผ ๋ค๋ฅธ ๊ฐ์ ์ ์ฉํจ
โ PCFG
โป Probabilistic Context Free Grammar
- ์กฐํฉ๋ ๋จ์ด์ ํ๋ฅ ์ ๊ณ์ฐํ๊ณ TreeRNN ์ ์ ์ฉํ ๋ชจ๋ธ์ด SU-RNN
โป ๋์นญ๋๋ ๋ถ๋ถ์ ์์ญ์ ๊ฐ์กฐํ๊ธฐ ์ํด Identity matrix ๋ฅผ ๊ณฑํ์ฌ ๊ฐ์ค์น๋ฅผ ์ด๊ธฐํ ํจ
โก MV-RNN (2012)
๋จ์ด๋ค์ด ๋ฒกํฐ ์ ๋ณด ๋ฟ ์๋๋ผ ํ๋ ฌ ์ ๋ณด๋ ๊ฐ์ด ํฌํจํ๋ ๋ชจ๋ธ
โ Node Interaction
โป ๋จ์ด๊ฐ ์ง๋๋ ์ ๋ณด๋ฅผ ํ๋ ๋ ๊ฐ์ง๊ฒ (ํ๋ ฌ ์ ๋ณด) ํจ์ผ๋ก์จ ๋ฌธ์ฅ์ ์๋ฏธ๋ฅผ ๋ ์ ํ์ ํ ์ ์๊ฒ ํ๋ค.
โป EX. very ์ ๋จ์ด๋ฒกํฐ์ good ์ ํ๋ ฌ์ด ๊ณฑํด์ง๊ณ , good ์ ๋จ์ด๋ฒกํฐ์ very ์ ํ๋ ฌ์ด ๊ณฑํด์ ธ ๋ถ๋ชจ ๋ ธ๋๋ก ์ ๋ฌ๋๋ ํํ
โ Ex
โข Recursive Neural Tensor Network
โ ๊ฐ์ ๋ถ์
โป ๋จ์ด์ ๊ฐ์ ์ ๋ถ์ํ๋ ํ์คํฌ ์ฐ๊ตฌ๋ ๊พธ์คํ ์ง์๋์ด ์ด
โป TreeRNN ์ ํตํด ๋จ์ด๋ ๋ฌธ์ฅ์ ๋ถ์ํ์ง ์๊ณ BoW ๋ฅผ ํตํด ์๋ฒ ๋ฉํ์ฌ ๋ฌธ์ ์ ๋ถ์ํด๋ 90% ์ฑ๋ฅ์ ๋ณด์
๐ BoW ๋ก ํ๋ฉด ๊ธ์ ์ผ๋ก ํ๋จํ์ง๋ง, ๋ฌธ์ฅ์ ๋ฌธ๋ฒ์ ์ผ๋ก ํด์ํ๋ฉด ๋ถ์ ์๋ฏธ๋ก ํด์๋จ
๐ shoud have pp ๋ผ๋ ์๋ฏธ ๊ตฌ์กฐ๋ฅผ BoW ๋ ๋ฐ์ํ ์ ์์
โ Recursive Neural Tensor layer : RNTN
โป MV-RNN ๋ณด๋ค ์ ์ ๊ฐ์์ ํ๋ผ๋ฏธํฐ๋ฅผ ๊ฐ์ง๋ ๋ชจ๋ธ
โป Treebank ๋ฐ์ดํฐ์ ์ ์ฌ์ฉํ ๊ธ/๋ถ์ ๋ถ์ task ์์ RNTN ์ด ๋ค๋ฅธ ๋ชจ๋ธ์ ๋นํด ๋์ ์ฑ๋ฅ์ ๋ณด์
- ๊ตฌ์กฐ๊ฐ ๊ฐ์ฅ ๊ฐ๋จํ Bi NB ๋ชจ๋ธ์ด Simple RNN, MV-RNN ๋ชจ๋ธ๋ณด๋ค ์ฑ๋ฅ์ด ์ข์ → ๋ฐ์ดํฐ์ ์ ์ค์์ฑ
'1๏ธโฃ AIโขDS > ๐ NLP' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[cs224n] 14๊ฐ ๊ฐ๋จ ๋ด์ฉ์ ๋ฆฌ (1) | 2022.07.18 |
---|---|
[cs224n] Future NLP (2021 version) (0) | 2022.07.18 |
[cs224n] 15๊ฐ ๋ด์ฉ์ ๋ฆฌ (0) | 2022.07.04 |
[cs224n] 13๊ฐ ๋ด์ฉ์ ๋ฆฌ (0) | 2022.07.04 |
NER ์ค์ต (0) | 2022.06.02 |
๋๊ธ