๐ก ์ฃผ์ : NLG
๐ ํต์ฌ
- Task : NLG - Natural language generation
- text summarization
1๏ธโฃ LM and decoding algorithms
โ NLG task
โ NLP = NLU + NLG : ์์ฐ์ด์ ์๋ฏธ๋ฅผ ๋ถ์ํด ์ปดํจํฐ๊ฐ ์ฒ๋ฆฌํ ์ ์๋๋ก ํ๋ ์ผ
๐ NLU : ์์ฐ์ด๋ฅผ ๊ธฐ๊ณ๊ฐ ์ดํดํ ์ ์๋ ํํ๋ก ๋ณํํ๋ NLP ๋ถ์ผ
๐ NLG : ์์คํ ๊ณ์ฐ ๊ฒฐ๊ณผ๋ฅผ ์์ฐ์ด๋ก ์๋ ์์ฑํ๋ NLP ๋ถ์ผ
โ NLG = ์๋ก์ด text ๋ฅผ ๋ง๋ค์ด ๋ด๋ ๋ชจ๋ task ๋ฅผ ์๋ฏธํ๋ค.
โฝ Task : ๊ธฐ๊ณ๋ฒ์ญ, ํ ์คํธ ์์ฝ, ์ฑํ , ์คํ ๋ฆฌํ ๋ง, QA ๋ฑ์ด ์๋ค.
โ ์ข์ NLG ๊ธฐ์ค
โฝ ์ ์ ์ฑ : ์์ฑ๋ ๋ฌธ์ฅ์ด ๋ชจํธํ์ง ์๊ณ ์๋์ input text ์ ์๋ฏธ๊ฐ ์ผ์นํด์ผ ํ๋ค.
โฝ ์ ์ฐฝ์ฑ : ๋ฌธ๋ฒ์ด ์ ํํ๋ฉฐ ์ดํ๋ฅผ ์ ์ ํ ์ฌ์ฉํด์ผ ํ๋ค.
โฝ ๊ฐ๋ ์ฑ : ์ ์ ํ ์ง์์ด, ์ ์์ฌ ๋ฑ์ ์ฌ์ฉํด ๋ฌธ์ฅ์ ๋ ผ๋ฆฌ๊ด๊ณ๋ฅผ ๊ณ ๋ คํ์ฌ ์์ฑํ๋ค.
โฝ ๋ค์์ฑ : ์ํฉ์ด๋ ๋์์ ๋ฐ๋ผ ํํ์ ๋ค๋ฅด๊ฒ ์์ฑํ๋ค.
โก LM ๋ณต์ต
โ Language model
โฝ ์ฃผ์ด์ง ๋จ์ด๋ค๋ก๋ถํฐ ๋ค์ ๋จ์ด๋ฅผ ์์ธกํ๋ ๋ชจ๋ธ
โ Conditional Language model
โฝ ์ฃผ์ด์ง ๋จ์ด๋ค๊ณผ ์ด๋ค ์ ๋ ฅ x ์ผ๋ก๋ถํฐ ๋ค์ ๋จ์ด๋ฅผ ์์ธกํ๋ ๋ชจ๋ธ
โฝ EX. ๊ธฐ๊ณ๋ฒ์ญ : x = ๋ฒ์ญํ ๋ฌธ์ฅ, y = ๋ฒ์ญ๋ ๋ฌธ์ฅ
โฝ Ex. Neural Machine Translation (seq2seq)
- ๊ฐ์ง๊ณ ์๋ target sentence (์ ๋ต ๋ฌธ์ฅ) ์ ์ ๋ ฅ์ผ๋ก ๋ฃ์ด์ฃผ์ด ํ์ต์ ์ํจ๋ค.
- ์ฃผ์) ํ์ต ๊ณผ์ ์์๋ output ์ด ๋ค์ step ์ input ์ผ๋ก ๋ค์ด๊ฐ๋ ๋ฐฉ๋ฒ์ด ์ฐ์ด์ง ์์
→ Decoder ์ input ์ผ๋ก Decoder ๋ฅผ ๋น ์ ธ๋์จ output ์ด ์๋๋ผ Target sentence ๋ฅผ ๊ทธ๋๋ก ๋ฃ์ด ํ์ตํจ
โข Decoding algorithm
โ conditional LM ์ ํ์ต ์ํจ ํ, text generation ํ๋ ๋ฐฉ๋ฒ
๐ ํด๋ฆฌ์คํฑํ ํ์ ๋ฐฉ๋ฒ์ผ๋ก ์ต๋ํ ๊ฐ๋ฅ์ฑ์ด ๋์ ์ถ๋ ฅ ์ํ์ค๋ฅผ ๋์ฝ๋ฉํ๊ธฐ
๐ธ Greedy decoding
โฝ ๊ฐ step ๋ง๋ค ๊ฐ์ฅ ํฐ ํ๋ฅ ๊ฐ์ ๊ฐ์ง๋ ํ ๊ฐ์ ๋จ์ด๋ฅผ ์ ํ : argmax
โฝ Backtracking ์ด ๋ถ์กฑํด ์ด๋ค ๋จ๊ณ์์ ์ค์๊ฐ ๋ฐ์ํ ๊ฒฝ์ฐ์, ๋ค์ด์ ์ต์ข ๊ฒฐ๊ณผ๊ฐ ์ข์ง ์๋ค. ๋ฌธ๋ฒ์ ์ผ๋ก ๋ง์ง ์๊ฑฐ๋ ๋ถ์์ฐ์ค๋ฝ๊ฑฐ๋ ๋ง์ด ๋์ง ์๋ ๊ฒฐ๊ณผ๊ฐ ๋์ฌ ์๋ ์๋ค.
๐ธ Beam search
โฝ ๊ฐ step ๋ง๋ค ๊ฐ์ฅ ํฐ ํ๋ฅ ๊ฐ์ ๊ฐ์ง๋ k ๊ฐ์ ๋จ์ด๋ฅผ ์ ํ → negative log ๊ฐ์ด ๊ฐ์ฅ ๋์ ๊ฒฝ์ฐ๋ฅผ ์ฐพ์ ๋๊ฐ๋ ๋ฐฉ๋ฒ
โฝ k ๊ฐ ์ปค์ง์๋ก ์ฐ์ฐ๋์ด ๋์์ง๊ณ , ๋ฌธ์ฅ์ด ์งง์์ง ์ ์์ด BLEU ์ ์๊ฐ ๊ฐ์ํ๋ ๊ฒฝํฅ์ด ์กด์ฌํ๋ค.
→ beam size ๊ฐ ๋๋ฌด ์์ผ๋ฉด ์ฃผ์ ์ ๋ ๊ฐ๊น์ง๋ง ๋ง์ด ์๋๋ ๋ต๋ณ์ ๋ฑ์
→ beam size ๊ฐ ๋๋ฌด ํฌ๋ฉด ๋๋ฌด generic ํ๊ณ ์งง์ ๋ต๋ณ์ ๋ฑ์ผ๋ฉฐ BLUE score ๋ฅผ ๋จ์ดํธ๋ฆผ
โ Sampling-based decoding
๐ Beam search ์์ ํฐ k ๋ฅผ ๊ฐ์ง๋๋ผ๋ ๋๋ฌด generic ํ ๊ฒฐ๊ณผ๋ ๋์ค์ง ์๋๋ก ํ๋ ๋ฐฉ๋ฒ
๐ธ Pure sampling
โฝ ๊ฐ step ๋ง๋ค ํ๋ฅ ๋ถํฌ Pt ๋ก๋ถํฐ ๋๋คํ๊ฒ ์ํ๋งํ๋ ๋ฐฉ์์ผ๋ก greedy decoding ๊ณผ ๋น์ทํ๋ argmax ๋ฅผ ์ฌ์ฉํ์ง ์๋๋ค.
๐ธ Top-n sampling
โฝ ๊ฐ step ๋ง๋ค ์ ๋จ๋ ํ๋ฅ ๋ถํฌ Pt ๋ก๋ถํฐ ๋๋คํ๊ฒ ์ํ๋งํ๋ ๋ฐฉ์
โฝ ์์ ํ๊ฒ ๋๋ค ์ํ๋ง์ ํ๋ ๊ฒ์ด ์๋๋ผ ํ๋ฅ ์ด ๊ฐ์ฅ ํฐ n ๊ฐ์ ๋จ์ด๋ค ์ค ๋๋ค ์ํ๋ง์ ์งํํ๋ค.
โฝ n=1 ์ธ ๊ฒฝ์ฐ greedy search ์ ๋์ผํ๋ฉฐ n=v ์ธ ๊ฒฝ์ฐ์๋ pure sampling ์ ํด๋นํ๋ค.
โฝ n ์ด ์ปค์ง์๋ก ๋ค์ํ ํ์ง๋ง ์ ์ ํ์ง ์์ ๋ฌธ์ฅ์ด ๋์ฌ ์ ์๊ณ , n ์ด ์์์ง์๋ก ์ผ๋ฐ์ ์ธ ํ๋ฒํ ๋ฌธ์ฅ์ด ๋์ค๊ฒ ๋๋ค.
* n ์ ์ฌ์ฉํ ๋จ์ด ๊ฐ์
โฃ Softmax temperature
โ decoding ์๊ณ ๋ฆฌ์ฆ๊ณผ ํจ๊ป ์ฌ์ฉ๋๋ ๊ธฐ๋ฒ
โฝ timestep t ์์ LM ์ ํ๋ฅ ๋ถํฌ Pt ๋ฅผ softmax ๋ฅผ ์ด์ฉํด ๊ตฌํ๋ค.
โฝ Softmax ํจ์์ temperature hyperparameter τ ๋ฅผ ์ ์ฉํ๋ค.
โ ํ๋ฅ ๋ถํฌ์ ๋ค์์ฑ์ ์กฐ์ ํ ์ ์๋ ๋ฐฉ๋ฒ
โฝ temperature hyperparameter τ ๊ฐ ์ปค์ง์๋ก Pt ๋ Uniform ํด์ง → ๊ฒฐ๊ณผ ๊ฐ์ด ๊ธฐ์กด๋ณด๋ค ์์์ง → ํ๋ฅ ๋ถํฌ๊ฐ ๊ท ์ผํด์ง๋ค.
โฝ temperature hyperparameter τ ๊ฐ ์์์๋ก Pt ๋ Spiky ํด์ง → ๊ฒฐ๊ณผ ๊ฐ์ด ๊ธฐ์กด๋ณด๋ค ์ปค์ง → ํ๋ฅ ๋ถํฌ๊ฐ ๋พฐ์กฑํด์ง๋ค.
๋ฐฉ๋ฒ | ์ ๋ฆฌ |
Greedy decoding | ๋จ์ํ ๋ฐฉ๋ฒ์ด๋ ์ฑ๋ฅ์ด ์ข์ง ์์ |
Beam Search | k ๊ฐ ํด์๋ก ๋ค์ํ output ์ด ๋์ค๋ ์ ์ ํ์ง ์์ |
Sampling method | ๋ค์์ฑ๊ณผ ๋๋ค์ฑ์ ๋ถ์ฌํจ |
Softmax temperatures | ๋์ฝ๋ฉ ์๊ณ ๋ฆฌ์ฆ์ ์๋์ง๋ง ํจ๊ป ์ฌ์ฉ๋์ด ๋ค์์ฑ์ ์กฐ์ ํ ์ ์๋ ๋ฐฉ๋ฒ |
2๏ธโฃ NLG tasks and neural approaches to them
โ text summarization
โ ํ ์คํธ ์์ฝ
์ ๋ ฅ ํ ์คํธ x ๊ฐ ์ฃผ์ด์ง๊ณ x ์ ์ฃผ์ ์ ๋ณด๋ฅผ ํฌํจํ๋ ์์ฝ y ๋ฅผ ์์ฑํ๋ ์์
โฝ Single-document : ํ๋์ ๋ฌธ์ x ์ ๋ํ ํ๋์ ์์ฝ y
โฝ Multi-document : ์ฌ๋ฌ ๊ฐ์ ๋ฌธ์ x1,x2,x3,...,xn ์ ๋ํ ํ๋์ ์์ฝ y → ์ฌ๋ฌ ๊ฐ์ ๋ฌธ์๋ ์ผ๋ฐ์ ์ผ๋ก ์๋ก ์ค๋ณต๋๋ ๋ด์ฉ๋ค์ ๋ฌธ์๋ค (ex. ๋์ผํ ์ด์์ ๋ํ ๋ด์ค๊ธฐ์ฌ)
โ Single document ํ ์คํธ ์์ฝ์ ์ ํฉํ ๋ฐ์ดํฐ์
โฝ Reddit TIFU ๋ฐ์ดํฐ์ ์ ๊ฒฝ์ฐ, ๊ฒ์๊ธ์ ์ฌ๋ฆด ๋ ๋ง์ง๋ง์ ์์ฝ๊ธ์ ์์ฑํ๋๋ก ๋์ด์์ด ์ ํฉํจ
โ 2๊ฐ์ง ์ฃผ์ ์ ๊ทผ๋ฒ
๐ธ Extractive summrization
โฝ ํ ์คํธ ๋ด์์ ์๋ณธ ๊ธ์ ๊ทธ๋๋ก ์ค์ํ ๋ฌธ์ฅ์ ์ถ์ถํ๋ ๋ฐฉ๋ฒ
โฝ ์๋ณธ ๊ธ์๋ฅผ ์ ์งํ๋ฉด์ ์์ฝํ๋ฏ๋ก ์ฝ์ง๋ง, ๊ทธ๋งํผ ์ ์ฝ์ ์ธ ๋ถ๋ถ์ด ์กด์ฌํ๋ค.
๐ธ Abstractive summrization
โฝ ์๋ณธ ํ ์คํธ์์ ๊ฐ์ฅ ์ค์ํ ์ ๋ณด๋ฅผ ๋ดํฌํ๋ ์๋ก์ด ๋ฌธ์ฅ์ ์์ฑํ๋ ๋ฐฉ๋ฒ
โฝ ์ด๋ ค์ด task ์ด์ง๋ง ์ข ๋ ์ ์ฐํ ๊ฒฐ๊ณผ๋ฅผ ๋์ถํ ์ ์๋ค.
โ Pre-neural summarization
โฝ Neural Network ์ ์ฌ์ฉํ๊ธฐ ์ด์ ์๋ ๋๋ถ๋ถ extractive summarization ๊ธฐ๋ฒ์ผ๋ก ํ ์คํธ ์์ฝ์ ์งํํจ
โฝ extractive summarization ์ 3๊ฐ์ง ๋จ๊ณ๋ก ๊ตฌ์ฑ๋จ
โ Content selection : ๋ฌธ์์์ ์ค์ํ ๋ฌธ์ฅ (topic ์ ํด๋นํ๋ ๋ฌธ์ฅ) ์ ์ถ์ถํ๋ ๋จ๊ณ
โก Information ordering : ์ถ์ถํ ๋ฌธ์ฅ์์ ์ค์๋์ ๋ฐ๋ผ ์ ๋ ฌํ๋ ๋จ๊ณ
โข Sentence realization : ์์ฝ ๋ฌธ์ฅ์ ๊ตฌ์ฑํ๋ ๋จ๊ณ (ex. simplify, fix continuity issues)
โ Pre-neural summarization - content selection
โฝ ๋ฌธ์ฅ์ ๋ํ ์ ์ ๊ณ์ฐ์ tf-idf ๋ฅผ ์ด์ฉ
โฝ Graph-based ์๊ณ ๋ฆฌ์ฆ์ ๋ฌธ์ ๋ด ๋ฌธ์ฅ์ด ๋ ธ๋๊ฐ ๋๊ณ ๋ฌธ์ฅ๊ณผ ๋ฌธ์ฅ์ ์ ์ฌํ ์ ๋๋ฅผ ์ฃ์ง๋ก ํํํ๋ค.
- PageRank ์๊ณ ๋ฆฌ์ฆ์ ๊ธฐ๋ฐ์ผ๋ก ํจ
- ๋ฌธ์ฅ์ ๊ทธ๋ํ์ ๋ ธ๋๊ฐ ๋๊ณ ์ฃ์ง๋ ๋ฌธ์ฅ๊ณผ ๋ฌธ์ฅ ์ฌ์ด์ ๊ด๊ณ๋ฅผ ๋ํ๋
- ์ฃผ๋ก ๋ฌธ์ฅ์ TF-IDF ๋ฅผ ์ด์ฉํ Vectorization ๋ฐฉ๋ฒ์ ์ฌ์ฉํด ๋ํ๋
โ ํ ์คํธ ์์ฝ ๋ชจ๋ธ ์ฑ๋ฅ ํ๊ฐ์งํ : ROUGE
โฝ n-gram overlap ์ ์ฌ์ฉํ๋ ์ (์ผ๋งํผ ๋ง์๋์ง์ ๋ํด ๊ด์ฌ) ์์ BLUE ์ ๋น์ทํ์ง๋ง โฅโฅ
- BLUE ๋ MT ์ ROUGE ๋ Summarization ์ ์ฃผ๋ก ์ฌ์ฉ๋จ
- ROUGE ๋ ๋ฌธ์ฅ ๊ธธ์ด์ ๋ํ ๊ณผ์ ํฉ ๋ณด์ (brevity penalty) ๊ฐ ์์
- ROUGE ๋ recall ์ ๊ธฐ๋ฐํ๊ณ BLUE ๋ precision ์ ๊ธฐ๋ฐํ ์ ์ ์ฐ์ถ์ ๊ณ์ฐํจ
- BLUE ๋ n=1,2,3,4 n-gram ์ precision ์ ๋ํ combination ๊ฐ์ด์ง๋ง ROUGE ๋ ๊ฐ n-gram ์ ๋ํ ๊ฒฐ๊ณผ๊ฐ ๋ฐ๋ก ๋์จ๋ค.
โฝ ์์ฃผ ์ฌ์ฉ๋๋ ROUGE ์ ์
- ROUGE-1 : Unigram overlap
- ROUGE-2 : bigram overlap
- ROUGE-L : longest common subsequences (LCS) overlap → ๋จ์ด ์์๋๋ก ์ผ์นํ๋ ๊ฐ์ (์์๊ฐ ์ค์)
โก Neural text summarization
โ NN ๊ธฐ๋ฐ ํ ์คํธ ์์ฝ ๋ชจ๋ธ
โฝ 2015๋ Ruch ๊ฐ ์ฒ์์ผ๋ก Seq2Seq based summarization ๋ ผ๋ฌธ์ ๋
โฝ single-document ์์ฝ task ๋ ๋ฒ์ญ task ๋ก ๊ฐ์ฃผํ ์ ์๋ค → NMT ๋ฐฉ๋ฒ์ธ seq2seq+attention ์ ์ ์ฉ
๐ Seq2seq ์ attention ๋ง ์ ์ฉํ ๋ชจ๋ธ์ ๋ํ ์ผ์ ์ก์๋ด๊ธฐ์ ํ๊ณ์ ์ด ์กด์ฌ
โ ์ดํ ๋ฐ์ ํํ
โฝ copy mechanism ์ ์ฌ์ฉํด ๋ํ ์ผ์ ์ก์๋
โฝ attention ๊ตฌ์กฐ๊ฐ ๊ณ์ธต์ /๋ค์ธต์ ๊ตฌ์กฐ๋ฅผ ๊ฐ์ง๊ฒ ๋จ
โฝ More global, high level ๋ฌธ์ฅ ์ ํ
โฝ ์์ฝํ ๊ธธ์ด๋ฅผ ์ ๋ง์ถ๊ฑฐ๋ ROUGE ์ ์๋ฅผ ๋์ด๋ ๋ฐฉํฅ์ผ๋ก ํ์ตํ ์ ์๋๋ก '๊ฐํํ์ต' ์ ์ฌ์ฉ
โ copy mechanism
โฝ seq2seq + attention ๋ชจ๋ธ์ decoding ๊ณผ์ ์์ ๋ฐ์ํ๋ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํ ๋ฐฉ๋ฒ
- ๋ฌธ์ฅ ์์ฑ ์ OOV ๋ฌธ์
- ๊ณ ์ ๋ช ์ฌ (ex. ์ฌ๋ ์ด๋ฆ) ๋ค์ ์ถ๋ ฅ ํ๋ฅ ์ด ๋ฎ์์ง๋ ๋ฌธ์
โฝ input ๋ฌธ์ฅ์์ ์ถ๋ ฅ์ ํ์ํ ๋จ์ด๋ ๊ตฌ๋ฌธ์ ๋ณต์ฌํ๋ ๋ฐฉ๋ฒ
โฝ Copy & generation ๐ hybrid extractive/abstractive approach
- extractive approach์ abstractive appoarch๋ฅผ ๋ชจ๋ ๊ณ ๋ คํ์ฌ ๋ํ ์ผ์ ์ก์๋ธ๋ค.
โ Bottom-up summarization
โฝ pre-neural summarization ์ ์ค์ ๋ฌธ์ฅ์ ์ ํํ๋ ๋ถ๋ถ๊ณผ ์์ฝํ๋ ๋ถ๋ถ์ด ๋๋์ด์ ๋์ํ๋ค.
โฝ ๊ทธ๋ฌ๋ neural approach ๋ ํ๋๋ก ๋ฌถ์ด์ ธ ๋์ค๊ธฐ ๋๋ฌธ์ ์ ์ฒด์ ์ธ ๊ฒ์ ๋ณด์ง ๋ชปํ๋ ๋ฌธ์ ์ ์ด ์กด์ฌํ๋ค. ๋ฐ๋ผ์ copy ๋ฅผ ๋ ๋ง์ด ์งํํด extractive ํํ๊ฐ ๋์ด๋ฒ๋ฆฌ๋ ๊ฒฝ์ฐ๊ฐ ๋ง๋ค.
๐ ์ด๋ฌํ ๋ถ๋ถ์ ๋ณด์ํ๊ธฐ ์ํด ๋ฑ์ฅํ ๋ฐฉ๋ฒ์ด bottom-up summarization ๊ธฐ๋ฒ์ด๋ค.
โฝ ๋จ์ด๊ฐ ํฌํจ๋์๋์ง ์ฌ๋ถ์ ๋ฐ๋ผ 0๊ณผ 1์ ํ๊น ํ์ฌ ๋ชจ๋ธ์ ๋จ์ด๊ฐ ํฌํจ๋์ง ์์ ๋ถ๋ถ์๋ ์ง์คํ์ง ์๋๋ก ํ๋ค. ๊ฐ๋จํ์ง๋ง ๋งค์ฐ ํจ๊ณผ์ ์ธ ๋ฐฉ๋ฒ์ด๋ค.
โ Pointer-Generator Networks
โฝ 2017 ๋ ์ ์๋ abstractive summarization model
โฝ seq2seq + attention ์ด ๊ฐ์ง๋ ๋ฌธ์ ์
- ๋ถ์ ํํ๊ฒ ๋ฌธ์ฅ์ ์์ฑ
- ํน์ ๋จ์ด๊ฐ ๋ฐ๋ณต๋๋ ๋ฌธ์
๐ ์ด ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด seq2seq + attention ๋ชจ๋ธ์ ๊ฐ๋ ์ ์ถ๊ฐ
- Source text ์์ ๋จ์ด๋ฅผ copy ํ๋ pointer
- ๋จ์ด๋ฅผ ์์ฑํ๋ generator
- ๋จ์ด๊ฐ ๋ฐ๋ณต ์์ฑ๋๋ ๊ฒ์ ๋ง๊ธฐ ์ํ coverage
โฝ generation probability ์ธ P_gen ์ ํตํด timestep t ์์ ๋จ์ด๋ฅผ copy ํ ์ง ์์ฑํ ์ง ๊ฒฐ์ ํ๋ค.
โฝ ์ต์ข p(w) ๋ P_vocab ๊ณผ attention distribution ์ ํผํฉ ํํ์ด๋ค.
โ Pointer-Generator Networks - Coverage mechanism
โฝ ๋จ์ด๊ฐ ๋ฐ๋ณต๋๋ ๊ฒ์ seq2seq ์์ ์์ฃผ ๋ฐ์ํ๋ ๋ฌธ์ ์ด๋ค.
โฝ ๋ฐ๋ณต ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด coverage model ์ ์ ์ฉํ๋ค.
โ Pointer-Generator Networks - ์คํ ๊ฒฐ๊ณผ
โฝ Dataset : CNN ๋ด์ค ์์ฝ ๋ฐ์ดํฐ์
โฝ Model size
โฝTraining
โข Dialogue
โ ๋ํ ์์คํ
โฝ Task-oriented dialogue
- Assistive: ๊ณ ๊ฐ ์๋น์ค, ์ถ์ฒ ์ ๊ณต, ์ง์ ์๋ต
- Co-operative: ๋ agent๊ฐ ํ๋์ ํ์คํฌ๋ฅผ ํจ๊ป ํด๊ฒฐ
- Adversarial: ๋ agent๊ฐ ๋ํ๋ฅผ ํตํด ํ์คํฌ์์ ๊ฒฝ์
โฝ social dialogue
- Chit-chat
- Therapy
โฝ Neural dialogue ์ด์ ์๋ prefined template ๊ธฐ๋ฐ์ผ๋ก ์์คํ ์ ๊ตฌ์ถํ๊ฑฐ๋ ์๋ต ์ฝํผ์ค์์ ๊ฒ์ํ๋ ๋ฐฉ์์ ์ฌ์ฉํ๋ค.
โฝ 2015๋ ์ดํ seq2seq ๋ฐฉ์์ด ๋์ ๋๋ฉฐ open-ended freeform ๋ํ ์์คํ ์ ๋ง๋ค๊ฒ ๋์๋ค. ๊ทธ๋ฌ๋ ์ฌ์ฉ์์ ๋ฐํ์ ๊ด๊ณ์๋ ๋ฐ์์ ์์ฑํ๊ฑฐ๋, ๋๋ฌด ๊ด๋ฒ์ํ๊ฑฐ๋ ๋น์ทํ ์๋ต์ ์์ฑํ๊ฑฐ๋, ๊ฐ์ ๋ฐ์์ ๋ฐ๋ณตํด์ ์์ฑํ๊ฑฐ๋, ๋ชจ๋ธ์ ํ๋ฅด์๋๊ฐ ์ผ๊ด๋์ง ๋ชปํ๋ ๋ฑ์ ๋ฌธ์ ์ ์ด ์กด์ฌํ๋ค.
โ End to End method
โฃ Storytelling
โ sequences of events
โป ์ด๋ฏธ์ง๊ฐ ์ฃผ์ด์ก์ ๋ ์คํ ๋ฆฌ ์์ฑ
โป ์งง์ ํค์๋๋ค์ด ์ฃผ์ฌ์ก์ ๋ ์คํ ๋ฆฌ ์์ฑ
โป ํ์ฌ ์์ ๊น์ง์ ์คํ ๋ฆฌ๊ฐ ์ฃผ์ด์ก์ ๋ ์์ผ๋ก์ ์คํ ๋ฆฌ ์์ฑ
3๏ธโฃ NLG evaluation, trends , Unpaired corpus
โ NLG ํ๊ฐ์งํ
โ NLP task ์ ํ๊ฐ์งํ
โฝ BLUE, ROUGE, F1 ... → ๊ธฐ๊ณ๋ฒ์ญ์์๋ ์ด์์ ์ธ ์งํ๋ ์๋ , ํ ์คํธ ์์ฝ์ด๋ ๋ํ task ์์๋ ๋ ์ ํฉํ์ง ์์
โฝ perplexity : ๊ฐ์ด ๋ฎ์์๋ก ํ ํฝ ๋ชจ๋ธ ํ์ต์ด ์ ๋์๋ค๊ณ ํ๊ฐํ ์ ์์ผ๋, generation ์ ํ๊ฐํ์ง ๋ชปํ๋ค.
๐ ์ ๋ฐ์ ์ธ NLG ์ฑ๋ฅ์ ํ๊ฐํ๋ ์งํ๋ ์์. ์ฌ๋์ด ์ง์ ํ๊ฐํ๋ ๊ฒ์ด ๊ฐ์ฅ ์ด์์ ์ธ ๊ธฐ์ค์ ๊ฐ๊น์ด ์งํ์ด๋, ๋น์ฉ๊ณผ ์๊ฐ์ด ๋๋ฌด ์ค๋ ๊ฑธ๋ฆฐ๋ค.
โก Trends
โฝ NMT ๋ฐฉ๋ฒ์ด ์๋ ๋ค์ํ NLG ๊ธฐ๋ฒ๋ค์ด ์๊ธฐ๊ณ ์์
โ NLG research Tip
โข Unpaired Corpus
โฝ ์ง๊ธ๊น์ง ๋ฐฐ์์จ NLP ๋ฌธ์ ํด๊ฒฐ ๋ฐฉ๋ฒ : Supervised traning
- ์ ๋ ฅ ์ ๋ณด์ ๋์ํ๋ ์ถ๋ ฅ๋ฌธ์ฅ์ ์ค๋น์์ผ ํ์ตํ๋ Paired corpus ๊ธฐ๋ฐ ํ์ต ๋ฐฉ๋ฒ
- ์ด๋ฌํ ๋ฐ์ดํฐ๋ฅผ ๋๋์ผ๋ก ๊ตฌ์ถํ๋ ๊ฒ์ ๊ต์ฅํ ์ด๋ ค์ ๐ Unsupervised traning ์ ๊ดํ ์ฐ๊ตฌ๊ฐ ์งํ ์ค
๐ ์ด๋ค ์คํ์ผ์ ๋ฌธ์ฅ์ด ๋ค์ด์๋ Latent vector ํํ๋ก ์ธ์ฝ๋ฉ ํ๋ค.
๐ ์ธ์ฝ๋ฉ๋ Latent vector ๊ฐ ์ฃผ์ด์ก์ ๋ ๊ฐ ์คํ์ผ์ ํด๋น๋๋ ๋์ฝ๋๋ ํด๋น ์คํ์ผ์ ๋ฌธ์ฅ์ ์์ฑํ ์ ์์ด์ผ ํจ
๐ ์์ ๋ด์ฉ์ ํ์ตํ๊ธฐ ์ํด ์ธ๊ณต ์ ๊ฒฝ๋ง์ Autoencoder loss, Cycle loss ๋ฅผ ์ต์ํํ๋ ๋ฐฉํฅ์ผ๋ก ํ์ตํ๊ฒ ๋๋ค.
โฃ PORORO
'1๏ธโฃ AIโขDS > ๐ NLP' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[cs224n] Future NLP (2021 version) (0) | 2022.07.18 |
---|---|
[cs224n] 18๊ฐ ๋ด์ฉ์ ๋ฆฌ (0) | 2022.07.18 |
[cs224n] 13๊ฐ ๋ด์ฉ์ ๋ฆฌ (0) | 2022.07.04 |
NER ์ค์ต (0) | 2022.06.02 |
Glove ์ค์ต (0) | 2022.05.31 |
๋๊ธ