๋ณธ๋ฌธ ๋ฐ”๋กœ๊ฐ€๊ธฐ
1๏ธโƒฃ AI•DS/๐Ÿ“— NLP

[cs224n] 15๊ฐ• ๋‚ด์šฉ์ •๋ฆฌ

by isdawell 2022. 7. 4.
728x90

๐Ÿ’ก ์ฃผ์ œ : NLG


๐Ÿ“Œ ํ•ต์‹ฌ 

  • Task : NLG - Natural language generation 
  • text summarization 

 

 

 

 

 

 

1๏ธโƒฃ LM and decoding algorithms


โ‘   NLG task 

 

โœ” NLP = NLU + NLG : ์ž์—ฐ์–ด์˜ ์˜๋ฏธ๋ฅผ ๋ถ„์„ํ•ด ์ปดํ“จํ„ฐ๊ฐ€ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ๋„๋ก ํ•˜๋Š” ์ผ 

 

๐Ÿ‘‰ NLU : ์ž์—ฐ์–ด๋ฅผ ๊ธฐ๊ณ„๊ฐ€ ์ดํ•ดํ•  ์ˆ˜ ์žˆ๋Š” ํ˜•ํƒœ๋กœ ๋ณ€ํ™˜ํ•˜๋Š” NLP ๋ถ„์•ผ 

 

๐Ÿ‘‰ NLG : ์‹œ์Šคํ…œ ๊ณ„์‚ฐ ๊ฒฐ๊ณผ๋ฅผ ์ž์—ฐ์–ด๋กœ ์ž๋™ ์ƒ์„ฑํ•˜๋Š” NLP ๋ถ„์•ผ 

 

 

 

โœ” NLG = ์ƒˆ๋กœ์šด text ๋ฅผ ๋งŒ๋“ค์–ด ๋‚ด๋Š” ๋ชจ๋“  task ๋ฅผ ์˜๋ฏธํ•œ๋‹ค. 

 

 

โ—ฝ Task : ๊ธฐ๊ณ„๋ฒˆ์—ญ, ํ…์ŠคํŠธ ์š”์•ฝ, ์ฑ„ํŒ…, ์Šคํ† ๋ฆฌํ…”๋ง, QA ๋“ฑ์ด ์žˆ๋‹ค. 

 

 

โœ” ์ข‹์€ NLG ๊ธฐ์ค€ 

 

โ—ฝ ์ ์ ˆ์„ฑ : ์ƒ์„ฑ๋œ ๋ฌธ์žฅ์ด ๋ชจํ˜ธํ•˜์ง€ ์•Š๊ณ  ์›๋ž˜์˜ input text ์™€ ์˜๋ฏธ๊ฐ€ ์ผ์น˜ํ•ด์•ผ ํ•œ๋‹ค.  

โ—ฝ ์œ ์ฐฝ์„ฑ : ๋ฌธ๋ฒ•์ด ์ •ํ™•ํ•˜๋ฉฐ ์–ดํœ˜๋ฅผ ์ ์ ˆํžˆ ์‚ฌ์šฉํ•ด์•ผ ํ•œ๋‹ค. 

โ—ฝ ๊ฐ€๋…์„ฑ : ์ ์ ˆํ•œ ์ง€์‹œ์–ด, ์ ‘์†์‚ฌ ๋“ฑ์„ ์‚ฌ์šฉํ•ด ๋ฌธ์žฅ์˜ ๋…ผ๋ฆฌ๊ด€๊ณ„๋ฅผ ๊ณ ๋ คํ•˜์—ฌ ์ƒ์„ฑํ•œ๋‹ค. 

โ—ฝ ๋‹ค์–‘์„ฑ : ์ƒํ™ฉ์ด๋‚˜ ๋Œ€์ƒ์— ๋”ฐ๋ผ ํ‘œํ˜„์„ ๋‹ค๋ฅด๊ฒŒ ์ƒ์„ฑํ•œ๋‹ค. 

 

 

โ‘ก LM ๋ณต์Šต 

 

โœ” Language model 

 

โ—ฝ ์ฃผ์–ด์ง„ ๋‹จ์–ด๋“ค๋กœ๋ถ€ํ„ฐ ๋‹ค์Œ ๋‹จ์–ด๋ฅผ ์˜ˆ์ธกํ•˜๋Š” ๋ชจ๋ธ 

 

EX. RNN-LM

 

 

 

โœ” Conditional Language model 

 

โ—ฝ ์ฃผ์–ด์ง„ ๋‹จ์–ด๋“ค๊ณผ ์–ด๋–ค ์ž…๋ ฅ x ์œผ๋กœ๋ถ€ํ„ฐ ๋‹ค์Œ ๋‹จ์–ด๋ฅผ ์˜ˆ์ธกํ•˜๋Š” ๋ชจ๋ธ 

 

 

โ—ฝ EX. ๊ธฐ๊ณ„๋ฒˆ์—ญ : x = ๋ฒˆ์—ญํ•  ๋ฌธ์žฅ, y = ๋ฒˆ์—ญ๋œ ๋ฌธ์žฅ 

 

 

 

โ—ฝ Ex. Neural Machine Translation (seq2seq) 

 

  • ๊ฐ€์ง€๊ณ  ์žˆ๋Š” target sentence (์ •๋‹ต ๋ฌธ์žฅ) ์„ ์ž…๋ ฅ์œผ๋กœ ๋„ฃ์–ด์ฃผ์–ด ํ•™์Šต์„ ์‹œํ‚จ๋‹ค. 
  • ์ฃผ์˜) ํ•™์Šต ๊ณผ์ •์—์„œ๋Š” output ์ด ๋‹ค์Œ step ์˜  input ์œผ๋กœ ๋“ค์–ด๊ฐ€๋Š” ๋ฐฉ๋ฒ•์ด ์“ฐ์ด์ง€ ์•Š์Œ

 

ํ•™์Šต ๋‹จ๊ณ„์—์„œ target ๋ฌธ์žฅ์„ decoder ์˜ ์ž…๋ ฅ์œผ๋กœ ๋„ฃ์–ด์ฃผ๋Š” ๋ฐฉ๋ฒ•์„ Teacher Forcing ์ด๋ผ๊ณ  ํ•œ๋‹ค.

 

→ Decoder ์˜ input ์œผ๋กœ Decoder ๋ฅผ ๋น ์ ธ๋‚˜์˜จ output ์ด ์•„๋‹ˆ๋ผ Target sentence ๋ฅผ ๊ทธ๋Œ€๋กœ ๋„ฃ์–ด ํ•™์Šตํ•จ 

 

 

 

 

 

โ‘ข Decoding algorithm 

 

โœ” conditional LM ์„ ํ•™์Šต ์‹œํ‚จ ํ›„, text generation ํ•˜๋Š” ๋ฐฉ๋ฒ• 

 

๐Ÿ‘‰ ํœด๋ฆฌ์Šคํ‹ฑํ•œ ํƒ์ƒ‰ ๋ฐฉ๋ฒ•์œผ๋กœ ์ตœ๋Œ€ํ•œ ๊ฐ€๋Šฅ์„ฑ์ด ๋†’์€ ์ถœ๋ ฅ ์‹œํ€€์Šค๋ฅผ ๋””์ฝ”๋”ฉํ•˜๊ธฐ 

 

 

 

๐Ÿ”ธ Greedy decoding 

 

โ—ฝ  ๊ฐ step ๋งˆ๋‹ค ๊ฐ€์žฅ ํฐ ํ™•๋ฅ ๊ฐ’์„ ๊ฐ€์ง€๋Š” ํ•œ ๊ฐœ์˜ ๋‹จ์–ด๋ฅผ ์„ ํƒ : argmax

โ—ฝ  Backtracking ์ด ๋ถ€์กฑํ•ด ์–ด๋–ค ๋‹จ๊ณ„์—์„œ ์‹ค์ˆ˜๊ฐ€ ๋ฐœ์ƒํ•œ ๊ฒฝ์šฐ์—, ๋’ค์ด์€ ์ตœ์ข… ๊ฒฐ๊ณผ๊ฐ€ ์ข‹์ง€ ์•Š๋‹ค. ๋ฌธ๋ฒ•์ ์œผ๋กœ ๋งž์ง€ ์•Š๊ฑฐ๋‚˜ ๋ถ€์ž์—ฐ์Šค๋Ÿฝ๊ฑฐ๋‚˜ ๋ง์ด ๋˜์ง€ ์•Š๋Š” ๊ฒฐ๊ณผ๊ฐ€ ๋‚˜์˜ฌ ์ˆ˜๋„ ์žˆ๋‹ค. 

 

 

๐Ÿ”ธ Beam search 

 

โ—ฝ  ๊ฐ step ๋งˆ๋‹ค ๊ฐ€์žฅ ํฐ ํ™•๋ฅ ๊ฐ’์„ ๊ฐ€์ง€๋Š” k ๊ฐœ์˜ ๋‹จ์–ด๋ฅผ ์„ ํƒ → negative log ๊ฐ’์ด ๊ฐ€์žฅ ๋†’์€ ๊ฒฝ์šฐ๋ฅผ ์ฐพ์•„ ๋‚˜๊ฐ€๋Š” ๋ฐฉ๋ฒ•

 

 

 

 

โ—ฝ  k ๊ฐ€ ์ปค์งˆ์ˆ˜๋ก ์—ฐ์‚ฐ๋Ÿ‰์ด ๋†’์•„์ง€๊ณ , ๋ฌธ์žฅ์ด ์งง์•„์งˆ ์ˆ˜ ์žˆ์–ด BLEU ์ ์ˆ˜๊ฐ€ ๊ฐ์†Œํ•˜๋Š” ๊ฒฝํ–ฅ์ด ์กด์žฌํ•œ๋‹ค. 

 

 

→ beam size ๊ฐ€ ๋„ˆ๋ฌด ์ž‘์œผ๋ฉด ์ฃผ์ œ์— ๋” ๊ฐ€๊น์ง€๋งŒ ๋ง์ด ์•ˆ๋˜๋Š” ๋‹ต๋ณ€์„ ๋ฑ‰์Œ 

→ beam size ๊ฐ€ ๋„ˆ๋ฌด ํฌ๋ฉด ๋„ˆ๋ฌด generic ํ•˜๊ณ  ์งง์€ ๋‹ต๋ณ€์„ ๋ฑ‰์œผ๋ฉฐ BLUE score ๋ฅผ ๋–จ์–ดํŠธ๋ฆผ 

 

 

 

โœ” Sampling-based decoding 

 

 

๐Ÿ‘€ Beam search ์—์„œ ํฐ k ๋ฅผ ๊ฐ€์ง€๋”๋ผ๋„ ๋„ˆ๋ฌด generic ํ•œ ๊ฒฐ๊ณผ๋Š” ๋‚˜์˜ค์ง€ ์•Š๋„๋ก ํ•˜๋Š” ๋ฐฉ๋ฒ• 

 

 

๐Ÿ”ธ Pure sampling 

 

โ—ฝ  ๊ฐ step ๋งˆ๋‹ค ํ™•๋ฅ  ๋ถ„ํฌ Pt ๋กœ๋ถ€ํ„ฐ ๋žœ๋คํ•˜๊ฒŒ ์ƒ˜ํ”Œ๋งํ•˜๋Š” ๋ฐฉ์‹์œผ๋กœ greedy decoding ๊ณผ ๋น„์Šทํ•˜๋‚˜ argmax ๋ฅผ ์‚ฌ์šฉํ•˜์ง„ ์•Š๋Š”๋‹ค. 

 

 

 

๐Ÿ”ธ Top-n sampling  

 

โ—ฝ  ๊ฐ step ๋งˆ๋‹ค ์ ˆ๋‹จ๋œ ํ™•๋ฅ ๋ถ„ํฌ Pt ๋กœ๋ถ€ํ„ฐ ๋žœ๋คํ•˜๊ฒŒ ์ƒ˜ํ”Œ๋งํ•˜๋Š” ๋ฐฉ์‹ 

โ—ฝ  ์™„์ „ํ•˜๊ฒŒ ๋žœ๋ค ์ƒ˜ํ”Œ๋ง์„ ํ•˜๋Š” ๊ฒƒ์ด ์•„๋‹ˆ๋ผ ํ™•๋ฅ ์ด ๊ฐ€์žฅ ํฐ n ๊ฐœ์˜ ๋‹จ์–ด๋“ค ์ค‘ ๋žœ๋ค ์ƒ˜ํ”Œ๋ง์„ ์ง„ํ–‰ํ•œ๋‹ค. 

 

 

 

โ—ฝ  n=1 ์ธ ๊ฒฝ์šฐ greedy search ์™€ ๋™์ผํ•˜๋ฉฐ n=v ์ธ ๊ฒฝ์šฐ์—๋Š” pure sampling ์— ํ•ด๋‹นํ•œ๋‹ค. 

โ—ฝ  n ์ด ์ปค์งˆ์ˆ˜๋ก ๋‹ค์–‘ํ•œ ํ•˜์ง€๋งŒ ์ ์ ˆํ•˜์ง€ ์•Š์€ ๋ฌธ์žฅ์ด ๋‚˜์˜ฌ ์ˆ˜ ์žˆ๊ณ , n ์ด ์ž‘์•„์งˆ์ˆ˜๋ก ์ผ๋ฐ˜์ ์ธ ํ‰๋ฒ”ํ•œ ๋ฌธ์žฅ์ด ๋‚˜์˜ค๊ฒŒ ๋œ๋‹ค. 

 

* n ์€ ์‚ฌ์šฉํ•  ๋‹จ์–ด ๊ฐœ์ˆ˜ 

 

 

โ‘ฃ Softmax temperature 

 

โœ” decoding ์•Œ๊ณ ๋ฆฌ์ฆ˜๊ณผ ํ•จ๊ป˜ ์‚ฌ์šฉ๋˜๋Š” ๊ธฐ๋ฒ•

 

โ—ฝ timestep t ์—์„œ LM ์€ ํ™•๋ฅ ๋ถ„ํฌ Pt ๋ฅผ softmax ๋ฅผ ์ด์šฉํ•ด ๊ตฌํ•œ๋‹ค. 

 

 

โ—ฝ Softmax ํ•จ์ˆ˜์— temperature hyperparameter τ ๋ฅผ ์ ์šฉํ•œ๋‹ค. 

 

 

 

 

โœ” ํ™•๋ฅ ๋ถ„ํฌ์˜ ๋‹ค์–‘์„ฑ์„ ์กฐ์ ˆํ•  ์ˆ˜ ์žˆ๋Š” ๋ฐฉ๋ฒ• 

 

โ—ฝ  temperature hyperparameter τ ๊ฐ€ ์ปค์งˆ์ˆ˜๋ก Pt ๋Š” Uniform ํ•ด์ง → ๊ฒฐ๊ณผ ๊ฐ’์ด ๊ธฐ์กด๋ณด๋‹ค ์ž‘์•„์ง →  ํ™•๋ฅ  ๋ถ„ํฌ๊ฐ€ ๊ท ์ผํ•ด์ง„๋‹ค. 

 

โ—ฝ  temperature hyperparameter τ ๊ฐ€ ์ž‘์„์ˆ˜๋ก Pt ๋Š” Spiky ํ•ด์ง → ๊ฒฐ๊ณผ ๊ฐ’์ด ๊ธฐ์กด๋ณด๋‹ค ์ปค์ง →  ํ™•๋ฅ  ๋ถ„ํฌ๊ฐ€ ๋พฐ์กฑํ•ด์ง„๋‹ค. 

 

 

 

 

 

 

 

๋ฐฉ๋ฒ• ์ •๋ฆฌ
Greedy decoding ๋‹จ์ˆœํ•œ ๋ฐฉ๋ฒ•์ด๋‚˜ ์„ฑ๋Šฅ์ด ์ข‹์ง€ ์•Š์Œ
Beam Search k ๊ฐ€ ํด์ˆ˜๋ก ๋‹ค์–‘ํ•œ output ์ด ๋‚˜์˜ค๋‚˜ ์ ์ ˆํ•˜์ง€ ์•Š์Œ 
Sampling method ๋‹ค์–‘์„ฑ๊ณผ ๋žœ๋ค์„ฑ์„ ๋ถ€์—ฌํ•จ
Softmax temperatures ๋””์ฝ”๋”ฉ ์•Œ๊ณ ๋ฆฌ์ฆ˜์€ ์•„๋‹ˆ์ง€๋งŒ ํ•จ๊ป˜ ์‚ฌ์šฉ๋˜์–ด ๋‹ค์–‘์„ฑ์„ ์กฐ์ ˆํ•  ์ˆ˜ ์žˆ๋Š” ๋ฐฉ๋ฒ•

 

 

 

 

 

 

2๏ธโƒฃ NLG tasks and neural approaches to them


โ‘   text summarization 

 

โœ” ํ…์ŠคํŠธ ์š”์•ฝ 

 

 ์ž…๋ ฅ ํ…์ŠคํŠธ x ๊ฐ€ ์ฃผ์–ด์ง€๊ณ  x ์˜ ์ฃผ์š” ์ •๋ณด๋ฅผ ํฌํ•จํ•˜๋Š” ์š”์•ฝ y ๋ฅผ ์ƒ์„ฑํ•˜๋Š” ์ž‘์—…

 

โ—ฝ Single-document : ํ•˜๋‚˜์˜ ๋ฌธ์„œ x ์— ๋Œ€ํ•œ ํ•˜๋‚˜์˜ ์š”์•ฝ y 

โ—ฝ Multi-document : ์—ฌ๋Ÿฌ ๊ฐœ์˜ ๋ฌธ์„œ x1,x2,x3,...,xn ์— ๋Œ€ํ•œ ํ•˜๋‚˜์˜ ์š”์•ฝ y → ์—ฌ๋Ÿฌ ๊ฐœ์˜ ๋ฌธ์„œ๋Š” ์ผ๋ฐ˜์ ์œผ๋กœ ์„œ๋กœ ์ค‘๋ณต๋˜๋Š” ๋‚ด์šฉ๋“ค์˜ ๋ฌธ์„œ๋“ค (ex. ๋™์ผํ•œ ์ด์Šˆ์— ๋Œ€ํ•œ ๋‰ด์Šค๊ธฐ์‚ฌ) 

 

 

 

 

 

โœ” Single document ํ…์ŠคํŠธ ์š”์•ฝ์— ์ ํ•ฉํ•œ ๋ฐ์ดํ„ฐ์…‹

 

โ—ฝ Reddit TIFU ๋ฐ์ดํ„ฐ์…‹์˜ ๊ฒฝ์šฐ, ๊ฒŒ์‹œ๊ธ€์„ ์˜ฌ๋ฆด ๋•Œ ๋งˆ์ง€๋ง‰์— ์š”์•ฝ๊ธ€์„ ์ž‘์„ฑํ•˜๋„๋ก ๋˜์–ด์žˆ์–ด ์ ํ•ฉํ•จ 

 

 

 

 

 

โœ” 2๊ฐ€์ง€ ์ฃผ์š” ์ ‘๊ทผ๋ฒ•

 

 

๐Ÿ”ธ Extractive summrization 

 

โ—ฝ ํ…์ŠคํŠธ ๋‚ด์—์„œ ์›๋ณธ ๊ธ€์ž ๊ทธ๋Œ€๋กœ ์ค‘์š”ํ•œ ๋ฌธ์žฅ์„ ์ถ”์ถœํ•˜๋Š” ๋ฐฉ๋ฒ• 

โ—ฝ ์›๋ณธ ๊ธ€์ž๋ฅผ ์œ ์ง€ํ•˜๋ฉด์„œ ์š”์•ฝํ•˜๋ฏ€๋กœ ์‰ฝ์ง€๋งŒ, ๊ทธ๋งŒํผ ์ œ์•ฝ์ ์ธ ๋ถ€๋ถ„์ด ์กด์žฌํ•œ๋‹ค. 

 

 

๐Ÿ”ธ Abstractive summrization 

 

โ—ฝ ์›๋ณธ ํ…์ŠคํŠธ์—์„œ ๊ฐ€์žฅ ์ค‘์š”ํ•œ ์ •๋ณด๋ฅผ ๋‚ดํฌํ•˜๋Š” ์ƒˆ๋กœ์šด ๋ฌธ์žฅ์„ ์ƒ์„ฑํ•˜๋Š” ๋ฐฉ๋ฒ• 

โ—ฝ ์–ด๋ ค์šด task ์ด์ง€๋งŒ ์ข€ ๋” ์œ ์—ฐํ•œ ๊ฒฐ๊ณผ๋ฅผ ๋„์ถœํ•  ์ˆ˜ ์žˆ๋‹ค. 

 

 

 

 

โœ” Pre-neural summarization 

 

โ—ฝ Neural Network ์„ ์‚ฌ์šฉํ•˜๊ธฐ ์ด์ „์—๋Š” ๋Œ€๋ถ€๋ถ„ extractive summarization ๊ธฐ๋ฒ•์œผ๋กœ ํ…์ŠคํŠธ ์š”์•ฝ์„ ์ง„ํ–‰ํ•จ

โ—ฝ extractive summarization ์€ 3๊ฐ€์ง€ ๋‹จ๊ณ„๋กœ ๊ตฌ์„ฑ๋จ 

 

 

โ‘  Content selection : ๋ฌธ์„œ์—์„œ ์ค‘์š”ํ•œ ๋ฌธ์žฅ (topic ์— ํ•ด๋‹นํ•˜๋Š” ๋ฌธ์žฅ) ์„ ์ถ”์ถœํ•˜๋Š” ๋‹จ๊ณ„
โ‘ก Information ordering : ์ถ”์ถœํ•œ ๋ฌธ์žฅ์—์„œ ์ค‘์š”๋„์— ๋”ฐ๋ผ ์ •๋ ฌํ•˜๋Š” ๋‹จ๊ณ„ 
โ‘ข Sentence realization : ์š”์•ฝ ๋ฌธ์žฅ์„ ๊ตฌ์„ฑํ•˜๋Š” ๋‹จ๊ณ„ (ex. simplify, fix continuity issues)

 

 

 

 

โœ” Pre-neural summarization - content selection

 

โ—ฝ ๋ฌธ์žฅ์— ๋Œ€ํ•œ ์ ์ˆ˜ ๊ณ„์‚ฐ์€ tf-idf ๋ฅผ ์ด์šฉ

โ—ฝ Graph-based ์•Œ๊ณ ๋ฆฌ์ฆ˜์€ ๋ฌธ์„œ ๋‚ด ๋ฌธ์žฅ์ด ๋…ธ๋“œ๊ฐ€ ๋˜๊ณ  ๋ฌธ์žฅ๊ณผ ๋ฌธ์žฅ์˜ ์œ ์‚ฌํ•œ ์ •๋„๋ฅผ ์—ฃ์ง€๋กœ ํ‘œํ˜„ํ•œ๋‹ค. 

 

  • PageRank ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•จ 
  • ๋ฌธ์žฅ์€ ๊ทธ๋ž˜ํ”„์˜ ๋…ธ๋“œ๊ฐ€ ๋˜๊ณ  ์—ฃ์ง€๋Š” ๋ฌธ์žฅ๊ณผ ๋ฌธ์žฅ ์‚ฌ์ด์˜ ๊ด€๊ณ„๋ฅผ ๋‚˜ํƒ€๋ƒ„
  • ์ฃผ๋กœ ๋ฌธ์žฅ์€ TF-IDF ๋ฅผ ์ด์šฉํ•œ Vectorization ๋ฐฉ๋ฒ•์„ ์‚ฌ์šฉํ•ด ๋‚˜ํƒ€๋ƒ„ 

 

 

 

 

โœ” ํ…์ŠคํŠธ ์š”์•ฝ ๋ชจ๋ธ ์„ฑ๋Šฅ ํ‰๊ฐ€์ง€ํ‘œ : ROUGE 

 

โ—ฝ n-gram overlap ์„ ์‚ฌ์šฉํ•˜๋Š” ์  (์–ผ๋งŒํผ ๋งž์•˜๋Š”์ง€์— ๋Œ€ํ•ด ๊ด€์‹ฌ) ์—์„œ BLUE ์™€ ๋น„์Šทํ•˜์ง€๋งŒ โ€ฅโ€ฅ

 

  • BLUE ๋Š” MT ์— ROUGE ๋Š” Summarization ์— ์ฃผ๋กœ ์‚ฌ์šฉ๋จ 
  • ROUGE ๋Š” ๋ฌธ์žฅ ๊ธธ์ด์— ๋Œ€ํ•œ ๊ณผ์ ํ•ฉ ๋ณด์ • (brevity penalty) ๊ฐ€ ์—†์Œ
  • ROUGE ๋Š” recall ์— ๊ธฐ๋ฐ˜ํ•˜๊ณ  BLUE ๋Š” precision ์— ๊ธฐ๋ฐ˜ํ•œ ์ ์ˆ˜ ์‚ฐ์ถœ์„ ๊ณ„์‚ฐํ•จ
  • BLUE ๋Š” n=1,2,3,4 n-gram ์˜ precision ์— ๋Œ€ํ•œ combination ๊ฐ’์ด์ง€๋งŒ ROUGE ๋Š” ๊ฐ n-gram ์— ๋Œ€ํ•œ ๊ฒฐ๊ณผ๊ฐ€ ๋”ฐ๋กœ ๋‚˜์˜จ๋‹ค. 

 

 

 

โ—ฝ ์ž์ฃผ ์‚ฌ์šฉ๋˜๋Š” ROUGE ์ ์ˆ˜ 

 

  • ROUGE-1 : Unigram overlap 
  • ROUGE-2 : bigram overlap 
  • ROUGE-L : longest common subsequences (LCS) overlap → ๋‹จ์–ด ์ˆœ์„œ๋Œ€๋กœ ์ผ์น˜ํ•˜๋Š” ๊ฐœ์ˆ˜ (์ˆœ์„œ๊ฐ€ ์ค‘์š”) 

 

 

 

 

 

 

 

โ‘ก  Neural text summarization 

 

โœ” NN ๊ธฐ๋ฐ˜ ํ…์ŠคํŠธ ์š”์•ฝ ๋ชจ๋ธ 

 

โ—ฝ 2015๋…„ Ruch ๊ฐ€ ์ฒ˜์Œ์œผ๋กœ Seq2Seq based summarization ๋…ผ๋ฌธ์„ ๋ƒ„ 

โ—ฝ single-document ์š”์•ฝ task ๋Š” ๋ฒˆ์—ญ task ๋กœ ๊ฐ„์ฃผํ•  ์ˆ˜ ์žˆ๋‹ค → NMT ๋ฐฉ๋ฒ•์ธ seq2seq+attention ์„ ์ ์šฉ 

 

 

 

๐Ÿ‘‰ Seq2seq ์™€ attention ๋งŒ ์ ์šฉํ•œ ๋ชจ๋ธ์€ ๋””ํ…Œ์ผ์„ ์žก์•„๋‚ด๊ธฐ์— ํ•œ๊ณ„์ ์ด ์กด์žฌ 

 

 

 

โœ” ์ดํ›„ ๋ฐœ์ „ ํ˜•ํƒœ 

 

โ—ฝ copy mechanism ์„ ์‚ฌ์šฉํ•ด ๋””ํ…Œ์ผ์„ ์žก์•„๋ƒ„ 

โ—ฝ attention ๊ตฌ์กฐ๊ฐ€ ๊ณ„์ธต์ /๋‹ค์ธต์  ๊ตฌ์กฐ๋ฅผ ๊ฐ€์ง€๊ฒŒ ๋จ 

โ—ฝ More global, high level ๋ฌธ์žฅ ์„ ํƒ 

โ—ฝ ์š”์•ฝํ•œ ๊ธธ์ด๋ฅผ ์ž˜ ๋งž์ถ”๊ฑฐ๋‚˜ ROUGE ์ ์ˆ˜๋ฅผ ๋†’์ด๋Š” ๋ฐฉํ–ฅ์œผ๋กœ ํ•™์Šตํ•  ์ˆ˜ ์žˆ๋„๋ก '๊ฐ•ํ™”ํ•™์Šต' ์„ ์‚ฌ์šฉ 

 

 

 

 

 

 

 

โœ” copy mechanism 

 

โ—ฝ seq2seq + attention ๋ชจ๋ธ์˜ decoding ๊ณผ์ •์—์„œ ๋ฐœ์ƒํ•˜๋Š” ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•œ ๋ฐฉ๋ฒ• 

 

  • ๋ฌธ์žฅ ์ƒ์„ฑ ์‹œ OOV ๋ฌธ์ œ 
  • ๊ณ ์œ  ๋ช…์‚ฌ (ex. ์‚ฌ๋žŒ ์ด๋ฆ„) ๋“ค์˜ ์ถœ๋ ฅ ํ™•๋ฅ ์ด ๋‚ฎ์•„์ง€๋Š” ๋ฌธ์ œ 

 

โ—ฝ input ๋ฌธ์žฅ์—์„œ ์ถœ๋ ฅ์— ํ•„์š”ํ•œ ๋‹จ์–ด๋‚˜ ๊ตฌ๋ฌธ์„ ๋ณต์‚ฌํ•˜๋Š” ๋ฐฉ๋ฒ• 

โ—ฝ Copy & generation ๐Ÿ‘‰ hybrid extractive/abstractive approach 

 

  •  extractive approach์™€ abstractive appoarch๋ฅผ ๋ชจ๋‘ ๊ณ ๋ คํ•˜์—ฌ ๋””ํ…Œ์ผ์„ ์žก์•„๋‚ธ๋‹ค. 

 

 

โœ” Bottom-up summarization  

 

โ—ฝ pre-neural summarization ์€ ์ค‘์š” ๋ฌธ์žฅ์„ ์„ ํƒํ•˜๋Š” ๋ถ€๋ถ„๊ณผ ์š”์•ฝํ•˜๋Š” ๋ถ€๋ถ„์ด ๋‚˜๋‰˜์–ด์ € ๋™์ž‘ํ•œ๋‹ค.

โ—ฝ ๊ทธ๋Ÿฌ๋‚˜ neural approach ๋Š” ํ•˜๋‚˜๋กœ ๋ฌถ์–ด์ ธ ๋‚˜์˜ค๊ธฐ ๋•Œ๋ฌธ์— ์ „์ฒด์ ์ธ ๊ฒƒ์„ ๋ณด์ง€ ๋ชปํ•˜๋Š” ๋ฌธ์ œ์ ์ด ์กด์žฌํ•œ๋‹ค. ๋”ฐ๋ผ์„œ copy ๋ฅผ ๋” ๋งŽ์ด ์ง„ํ–‰ํ•ด extractive ํ˜•ํƒœ๊ฐ€ ๋˜์–ด๋ฒ„๋ฆฌ๋Š” ๊ฒฝ์šฐ๊ฐ€ ๋งŽ๋‹ค. 

 

๐Ÿ‘‰ ์ด๋Ÿฌํ•œ ๋ถ€๋ถ„์„ ๋ณด์™„ํ•˜๊ธฐ ์œ„ํ•ด ๋“ฑ์žฅํ•œ ๋ฐฉ๋ฒ•์ด bottom-up summarization ๊ธฐ๋ฒ•์ด๋‹ค. 

 

 

 

โ—ฝ ๋‹จ์–ด๊ฐ€ ํฌํ•จ๋˜์—ˆ๋Š”์ง€ ์—ฌ๋ถ€์— ๋”ฐ๋ผ 0๊ณผ 1์„ ํƒœ๊น…ํ•˜์—ฌ ๋ชจ๋ธ์€ ๋‹จ์–ด๊ฐ€ ํฌํ•จ๋˜์ง€ ์•Š์€ ๋ถ€๋ถ„์—๋Š” ์ง‘์ค‘ํ•˜์ง€ ์•Š๋„๋ก ํ•œ๋‹ค. ๊ฐ„๋‹จํ•˜์ง€๋งŒ ๋งค์šฐ ํšจ๊ณผ์ ์ธ ๋ฐฉ๋ฒ•์ด๋‹ค. 

 

 

 

 

 

 

โœ” Pointer-Generator Networks 

 

 

seq2seq + attention + pointer network

 

 

โ—ฝ 2017 ๋…„ ์ œ์•ˆ๋œ abstractive summarization model 

 

โ—ฝ seq2seq + attention ์ด ๊ฐ€์ง€๋Š” ๋ฌธ์ œ์  

 

  • ๋ถ€์ •ํ™•ํ•˜๊ฒŒ ๋ฌธ์žฅ์„ ์ƒ์„ฑ 
  • ํŠน์ • ๋‹จ์–ด๊ฐ€ ๋ฐ˜๋ณต๋˜๋Š” ๋ฌธ์ œ 

 

๐Ÿ‘‰ ์ด ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด seq2seq + attention ๋ชจ๋ธ์— ๊ฐœ๋…์„ ์ถ”๊ฐ€ 

 

  • Source text ์—์„œ ๋‹จ์–ด๋ฅผ copy ํ•˜๋Š” pointer
  • ๋‹จ์–ด๋ฅผ ์ƒ์„ฑํ•˜๋Š” generator
  • ๋‹จ์–ด๊ฐ€ ๋ฐ˜๋ณต ์ƒ์„ฑ๋˜๋Š” ๊ฒƒ์„ ๋ง‰๊ธฐ ์œ„ํ•œ coverage 

 

 

 

โ—ฝ generation probability ์ธ P_gen ์„ ํ†ตํ•ด timestep t ์—์„œ ๋‹จ์–ด๋ฅผ copy ํ• ์ง€ ์ƒ์„ฑํ• ์ง€ ๊ฒฐ์ •ํ•œ๋‹ค. 

 

 

 

โ—ฝ ์ตœ์ข… p(w) ๋Š” P_vocab ๊ณผ attention distribution ์˜ ํ˜ผํ•ฉ ํ˜•ํƒœ์ด๋‹ค. 

 

 

 

โœ” Pointer-Generator Networks - Coverage mechanism 

 

โ—ฝ ๋‹จ์–ด๊ฐ€ ๋ฐ˜๋ณต๋˜๋Š” ๊ฒƒ์€ seq2seq ์—์„œ ์ž์ฃผ ๋ฐœ์ƒํ•˜๋Š” ๋ฌธ์ œ์ด๋‹ค. 

โ—ฝ ๋ฐ˜๋ณต ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด coverage model ์„ ์ ์šฉํ•œ๋‹ค. 

 

 

 

 

โœ” Pointer-Generator Networks - ์‹คํ—˜ ๊ฒฐ๊ณผ 

 

โ—ฝ Dataset : CNN ๋‰ด์Šค ์š”์•ฝ ๋ฐ์ดํ„ฐ์…‹ 

 

 

โ—ฝ Model size 

 

 

 

โ—ฝTraining

 

 

 

 

 

 

 

 

 

โ‘ข Dialogue 

 

โœ” ๋Œ€ํ™” ์‹œ์Šคํ…œ 

 

โ—ฝ Task-oriented dialogue

 

  • Assistive: ๊ณ ๊ฐ ์„œ๋น„์Šค, ์ถ”์ฒœ ์ œ๊ณต, ์งˆ์˜ ์‘๋‹ต
  • Co-operative: ๋‘ agent๊ฐ€ ํ•˜๋‚˜์˜ ํƒœ์Šคํฌ๋ฅผ ํ•จ๊ป˜ ํ•ด๊ฒฐ
  • Adversarial: ๋‘ agent๊ฐ€ ๋Œ€ํ™”๋ฅผ ํ†ตํ•ด ํƒœ์Šคํฌ์—์„œ ๊ฒฝ์Ÿ

 

โ—ฝ social dialogue

 

  • Chit-chat
  • Therapy 

 

โ—ฝ Neural dialogue ์ด์ „์—๋Š” prefined template ๊ธฐ๋ฐ˜์œผ๋กœ ์‹œ์Šคํ…œ์„ ๊ตฌ์ถ•ํ•˜๊ฑฐ๋‚˜ ์‘๋‹ต ์ฝ”ํผ์Šค์—์„œ ๊ฒ€์ƒ‰ํ•˜๋Š” ๋ฐฉ์‹์„ ์‚ฌ์šฉํ–ˆ๋‹ค.

โ—ฝ 2015๋…„ ์ดํ›„ seq2seq ๋ฐฉ์‹์ด ๋„์ž…๋˜๋ฉฐ open-ended freeform ๋Œ€ํ™” ์‹œ์Šคํ…œ์„ ๋งŒ๋“ค๊ฒŒ ๋˜์—ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ์‚ฌ์šฉ์ž์˜ ๋ฐœํ™”์™€ ๊ด€๊ณ„์—†๋Š” ๋ฐ˜์‘์„ ์ƒ์„ฑํ•˜๊ฑฐ๋‚˜, ๋„ˆ๋ฌด ๊ด‘๋ฒ”์œ„ํ•˜๊ฑฐ๋‚˜ ๋น„์Šทํ•œ ์‘๋‹ต์„ ์ƒ์„ฑํ•˜๊ฑฐ๋‚˜, ๊ฐ™์€ ๋ฐ˜์‘์„ ๋ฐ˜๋ณตํ•ด์„œ ์ƒ์„ฑํ•˜๊ฑฐ๋‚˜, ๋ชจ๋ธ์˜ ํŽ˜๋ฅด์†Œ๋‚˜๊ฐ€ ์ผ๊ด€๋˜์ง€ ๋ชปํ•˜๋Š” ๋“ฑ์˜ ๋ฌธ์ œ์ ์ด ์กด์žฌํ–ˆ๋‹ค.  

 

 

โœ” End to End method 

 

 

 

 

 

โ‘ฃ Storytelling 

 

โœ” sequences of events

 

โ—ป ์ด๋ฏธ์ง€๊ฐ€ ์ฃผ์–ด์กŒ์„ ๋•Œ ์Šคํ† ๋ฆฌ ์ƒ์„ฑ

โ—ป ์งง์€ ํ‚ค์›Œ๋“œ๋“ค์ด ์ฃผ์—ฌ์กŒ์„ ๋•Œ ์Šคํ† ๋ฆฌ ์ƒ์„ฑ 

โ—ป ํ˜„์žฌ ์‹œ์ ๊นŒ์ง€์˜ ์Šคํ† ๋ฆฌ๊ฐ€ ์ฃผ์–ด์กŒ์„ ๋•Œ ์•ž์œผ๋กœ์˜ ์Šคํ† ๋ฆฌ ์ƒ์„ฑ 

 

 

 

 

๋ฌธ์žฅ ์ž์ฒด๋ฅผ ์ž„๋ฒ ๋”ฉ ํ•˜๋ ค๊ณ  ์‹œ๋„ + ์ผ๋ฐ˜์ ์ธ ์ธ์ฝ”๋”๋ฅผ ๋งŒ๋“ค๊ณ ์ž ์‹œ๋„

 

 

 

 

 

 

 

3๏ธโƒฃ NLG evaluation, trends , Unpaired corpus


 

โ‘   NLG ํ‰๊ฐ€์ง€ํ‘œ 

 

 

โœ” NLP task ์˜ ํ‰๊ฐ€์ง€ํ‘œ 

 

โ—ฝ BLUE, ROUGE, F1 ... → ๊ธฐ๊ณ„๋ฒˆ์—ญ์—์„œ๋Š” ์ด์ƒ์ ์ธ ์ง€ํ‘œ๋Š” ์•„๋‹˜ , ํ…์ŠคํŠธ ์š”์•ฝ์ด๋‚˜ ๋Œ€ํ™” task ์—์„œ๋Š” ๋” ์ ํ•ฉํ•˜์ง€ ์•Š์Œ

โ—ฝ perplexity : ๊ฐ’์ด ๋‚ฎ์„์ˆ˜๋ก ํ† ํ”ฝ ๋ชจ๋ธ ํ•™์Šต์ด ์ž˜ ๋˜์—ˆ๋‹ค๊ณ  ํ‰๊ฐ€ํ•  ์ˆ˜ ์žˆ์œผ๋‚˜, generation ์„ ํ‰๊ฐ€ํ•˜์ง„ ๋ชปํ•œ๋‹ค. 

 

๐Ÿ‘‰ ์ „๋ฐ˜์ ์ธ NLG ์„ฑ๋Šฅ์„ ํ‰๊ฐ€ํ•˜๋Š” ์ง€ํ‘œ๋Š” ์—†์Œ. ์‚ฌ๋žŒ์ด ์ง์ ‘ ํ‰๊ฐ€ํ•˜๋Š” ๊ฒƒ์ด ๊ฐ€์žฅ ์ด์ƒ์ ์ธ ๊ธฐ์ค€์— ๊ฐ€๊นŒ์šด ์ง€ํ‘œ์ด๋‚˜, ๋น„์šฉ๊ณผ ์‹œ๊ฐ„์ด ๋„ˆ๋ฌด ์˜ค๋ž˜ ๊ฑธ๋ฆฐ๋‹ค. 

 

 

 

โ‘ก Trends 

 

โ—ฝ NMT ๋ฐฉ๋ฒ•์ด ์•„๋‹Œ ๋‹ค์–‘ํ•œ NLG ๊ธฐ๋ฒ•๋“ค์ด ์ƒ๊ธฐ๊ณ  ์žˆ์Œ 

 

NLP Trends (2022)

 

 

 

 

โœ” NLG research Tip

 

 

 

 

 

โ‘ข Unpaired Corpus 

 

https://velog.io/@tobigs-text1415/Lecture-15-Natural-Language-Generation

 

 

โ—ฝ ์ง€๊ธˆ๊นŒ์ง€ ๋ฐฐ์›Œ์˜จ NLP ๋ฌธ์ œ ํ•ด๊ฒฐ ๋ฐฉ๋ฒ• : Supervised traning 

 

  • ์ž…๋ ฅ ์ •๋ณด์— ๋Œ€์‘ํ•˜๋Š” ์ถœ๋ ฅ๋ฌธ์žฅ์„ ์ค€๋น„์‹œ์ผœ ํ•™์Šตํ•˜๋Š” Paired corpus ๊ธฐ๋ฐ˜ ํ•™์Šต ๋ฐฉ๋ฒ•
  • ์ด๋Ÿฌํ•œ ๋ฐ์ดํ„ฐ๋ฅผ ๋Œ€๋Ÿ‰์œผ๋กœ ๊ตฌ์ถ•ํ•˜๋Š” ๊ฒƒ์€ ๊ต‰์žฅํžˆ ์–ด๋ ค์›€ ๐Ÿ‘‰ Unsupervised traning ์— ๊ด€ํ•œ ์—ฐ๊ตฌ๊ฐ€ ์ง„ํ–‰ ์ค‘ 

 

 

๐Ÿ‘€ ์–ด๋–ค ์Šคํƒ€์ผ์˜ ๋ฌธ์žฅ์ด ๋“ค์–ด์™€๋„ Latent vector ํ˜•ํƒœ๋กœ ์ธ์ฝ”๋”ฉ ํ•œ๋‹ค. 

๐Ÿ‘€ ์ธ์ฝ”๋”ฉ๋œ Latent vector ๊ฐ€ ์ฃผ์–ด์กŒ์„ ๋•Œ ๊ฐ ์Šคํƒ€์ผ์— ํ•ด๋‹น๋˜๋Š” ๋””์ฝ”๋”๋Š” ํ•ด๋‹น ์Šคํƒ€์ผ์˜ ๋ฌธ์žฅ์„ ์ƒ์„ฑํ•  ์ˆ˜ ์žˆ์–ด์•ผ ํ•จ

๐Ÿ‘€ ์œ„์˜ ๋‚ด์šฉ์„ ํ•™์Šตํ•˜๊ธฐ ์œ„ํ•ด ์ธ๊ณต ์‹ ๊ฒฝ๋ง์€ Autoencoder loss, Cycle loss ๋ฅผ ์ตœ์†Œํ™”ํ•˜๋Š” ๋ฐฉํ–ฅ์œผ๋กœ ํ•™์Šตํ•˜๊ฒŒ ๋œ๋‹ค. 

 

 

 

 

โ‘ฃ PORORO

 

 

 

 

 

728x90

'1๏ธโƒฃ AIโ€ขDS > ๐Ÿ“— NLP' ์นดํ…Œ๊ณ ๋ฆฌ์˜ ๋‹ค๋ฅธ ๊ธ€

[cs224n] Future NLP (2021 version)  (0) 2022.07.18
[cs224n] 18๊ฐ• ๋‚ด์šฉ์ •๋ฆฌ  (0) 2022.07.18
[cs224n] 13๊ฐ• ๋‚ด์šฉ์ •๋ฆฌ  (0) 2022.07.04
NER ์‹ค์Šต  (0) 2022.06.02
Glove ์‹ค์Šต  (0) 2022.05.31

๋Œ“๊ธ€