๋ณธ๋ฌธ ๋ฐ”๋กœ๊ฐ€๊ธฐ
1๏ธโƒฃ AI•DS/๐Ÿ“— NLP

[cs224n] 6๊ฐ• ๋‚ด์šฉ ์ •๋ฆฌ

by isdawell 2022. 3. 24.
728x90

๐Ÿ’ก ์ฃผ์ œ : Language models and RNN (Recurrent Neural Network) 

 

๐Ÿ“Œ ํ•ต์‹ฌ 

  • Task : ๋ฌธ์žฅ์ด ์ฃผ์–ด์งˆ ๋•Œ ์ง€๊ธˆ๊นŒ์ง€ ๋‚˜์˜จ ๋‹จ์–ด๋“ค ์ดํ›„์— ๋‚˜์˜ฌ ๋‹จ์–ด๋ฅผ ์˜ˆ์ธก
  • RNN : ๋‹ค์Œ์— ์˜ฌ ๋‹จ์–ด๋ฅผ ์˜ˆ์ธกํ•˜๋Š” ๊ณผ์ œ๋ฅผ ํšจ๊ณผ์ ์œผ๋กœ ์ˆ˜ํ–‰ํ•˜๊ธฐ ์œ„ํ•ด ๋„์ž…ํ•œ NN ์˜ ์ผ์ข… 

 

 

 

๐Ÿ“Œ ๋ชฉ์ฐจ / ๋‚ด์šฉ 

1. Language model 

 

(1) Language model ์ด๋ž€ 

 

โœ” ์ •์˜ 

  • ๋‹จ์–ด์˜ ์‹œํ€€์Šค(๋ฌธ์žฅ) ์— ๋Œ€ํ•ด ์–ผ๋งˆ๋‚˜ ์ž์—ฐ์Šค๋Ÿฌ์šด ๋ฌธ์žฅ์ธ์ง€๋ฅผ 'ํ™•๋ฅ ' ์„ ์ด์šฉํ•ด ์˜ˆ์ธกํ•˜๋Š” ๋ชจ๋ธ
  • Language modeling = ์ฃผ์–ด์ง„ ๋‹จ์–ด์˜ ์‹œํ€€์Šค์— ๋Œ€ํ•ด ๋‹ค์Œ์— ๋‚˜ํƒ€๋‚  ๋‹จ์–ด๊ฐ€ ์–ด๋–ค ๊ฒƒ์ธ์ง€๋ฅผ ์˜ˆ์ธกํ•˜๋Š” ์ž‘์—… 

์กฐ๊ฑด๋ถ€ํ™•๋ฅ ๋กœ ํ‘œํ˜„

 

๋‹จ์–ด sequence ๐Ÿ‘‰ ์—ฐ์†์ ์œผ๋กœ ๋ฐœ์ƒํ•˜๋Š” ์‚ฌ๊ฑด์— ๋Œ€ํ•œ ํ™•๋ฅ  ๐Ÿ‘‰ ํ™•๋ฅ  ๊ณฑ

 

  • ํŠน์ • ๋ฌธ์žฅ์— ํ™•๋ฅ ์„ ํ• ๋‹นํ•œ๋‹ค. ๋ฌธ์žฅ์˜ ๋‹จ์–ด w(1), w(2) , ... w(t) ๊ฐ€ ์ฃผ์–ด์กŒ์„ ๋•Œ ๋‹ค์Œ์— ์˜ฌ ๋‹จ์–ด w(t+1) ์˜ ํ™•๋ฅ  

 

 

 

โœ” ํ™œ์šฉ 

  • ๋ฌธ์žฅ์˜ ํ™•๋ฅ  ๋˜๋Š” ๋‹จ์–ด์˜ ๋“ฑ์žฅ ํ™•๋ฅ ์„ ์˜ˆ์ธก
  • ๊ธฐ๊ณ„๋ฒˆ์—ญ, ์Œ์„ฑ์ธ์‹, ์ž๋™์™„์„ฑ(ex. ๊ตฌ๊ธ€ ๊ฒ€์ƒ‰) 

 

 

 

(2) N-gram Language model 

 

โœ” ์ •์˜ 

  • NN (๋”ฅ๋Ÿฌ๋‹ ๋ชจ๋ธ๋“ค) ์ด์ „์— ์‚ฌ์šฉ๋˜์—ˆ๋˜ ์–ธ์–ด๋ชจ๋ธ์ด๋‹ค. 
  • ์˜ˆ์ธก์— ์‚ฌ์šฉํ•  ์•ž ๋‹จ์–ด๋“ค์˜ ๊ฐœ์ˆ˜ (window) ๋ฅผ ์ •ํ•˜์—ฌ ๋ชจ๋ธ๋งํ•˜๋Š” ๋ฐฉ๋ฒ• (์ด์ „์— ๋“ฑ์žฅํ•œ n-1 ๊ฐœ์˜ ๋‹จ์–ด๋“ค์„ ์ด์šฉํ•ด ๋‹ค์Œ ๋‹จ์–ด๋ฅผ ์˜ˆ์ธกํ•œ๋‹ค) 
  • N-gram : n ๊ฐœ์˜ ์—ฐ์ด์€ ๋‹จ์–ด ๋ญ‰์น˜ 

์ „์ฒด ์–ธ์–ด ๋ชจ๋ธ์˜ ํ™•๋ฅ ์„ ์•ž์˜ ๋‹จ์–ด n ๊ฐœ๋งŒ ์ •ํ•œ ์กฐ๊ฑด๋ถ€ํ™•๋ฅ ์˜ N-gram ์–ธ์–ด๋ชจ๋ธ์˜ ํ™•๋ฅ ๋กœ ๊ทผ์‚ฌ

 

  • ๋‹ค์Œ์— ์˜ฌ ๋‹จ์–ด๋Š” ์ด์ „์— ๋“ฑ์žฅํ•œ ๋‹จ์–ด๋“ค์—๋งŒ ์˜ํ–ฅ์„ ๋ฐ›๋Š”๋‹ค๋Š” ๊ฐ€์ • ํ•˜์—, corpus ์—์„œ counting ์„ ํ•˜๋Š” ๋ฐฉ์‹์œผ๋กœ ํ™•๋ฅ ์„ ๊ตฌํ•œ๋‹ค. 

์ „์ฒด ๋‹จ์–ด ํ™•๋ฅ  ๐Ÿ‘‰ N-gram ํ™•๋ฅ ๋กœ ๊ทผ์‚ฌ ๐Ÿ‘‰ Count ๋ฐฉ๋ฒ•์œผ๋กœ ํ™•๋ฅ ์„ ๊ณ„์‚ฐํ•˜์—ฌ ๊ทผ์‚ฌ

 

  • N-gram ๋ฌธ์žฅ์ด ๋‚˜ํƒ€๋‚  ํ™•๋ฅ ๊ณผ (N-1) gram ์ด ๋‚˜ํƒ€๋‚  ํ™•๋ฅ ์„ ์ด์šฉํ•ด ํ˜„์žฌ ๋ฌธ์žฅ์ด ์ฃผ์–ด์กŒ์„ ๋•Œ ๋‹ค์Œ ๋‹จ์–ด๊ฐ€ ์˜ฌ ํ™•๋ฅ ์„ ๊ณ„์‚ฐํ•ด๋‚ผ ์ˆ˜ ์žˆ๋‹ค. ์ด๋•Œ ๊ณ„์‚ฐ์— ํ•„์š”ํ•œ ํ™•๋ฅ ์€ ํฐ corpus ์—์„œ '์ถœํ˜„ ๋นˆ๋„' ๋ฅผ ์„ธ์„œ ์–ป์„ ์ˆ˜ ์žˆ๋‹ค. 
  • N-gram ์˜ ๋นˆ๋„์— ๋Œ€ํ•œ ํ†ต๊ณ„๋ฅผ ์ˆ˜์ง‘ํ•˜๊ณ  ์ด๋ฅผ ๋‹ค์Œ ๋‹จ์–ด๋ฅผ ์˜ˆ์ธกํ•˜๋Š”๋ฐ ์‚ฌ์šฉ

 

 

 

โœ” ๊ณ„์‚ฐ ์˜ˆ์‹œ 

books ๋‹จ์–ด๊ฐ€ ๋“ฑ์žฅํ•  ํ™•๋ฅ ์ด ๋” ๋†’์œผ๋ฏ€๋กœ ๋‹ค์Œ ๋‹จ์–ด๋ฅผ books ๋กœ ์˜ˆ์ธกํ•œ๋‹ค.

 

 

โœ” N-gram ๋ชจ๋ธ์˜ ๋ฌธ์ œ์  

 

  1. Sparsity ๋ฌธ์ œ : n (window ํฌ๊ธฐ) ๊ฐ€ ์ปค์งˆ์ˆ˜๋ก ์•ˆ์ข‹์•„์ง€๋ฉฐ ์ผ๋ฐ˜์ ์œผ๋กœ n < 5 ๋กœ ์„ค์ •ํ•จ 

 

๋ฐ์ดํ„ฐ์—์„œ ํ•ด๋‹น ์‹œํ€€์Šค ๋ฌธ์žฅ์ด ํ•œ ๋ฒˆ๋„ ๋“ฑ์žฅํ•˜์ง€ ์•Š์œผ๋ฉด ํ™•๋ฅ  ๊ณ„์‚ฐ์ด ๋ถˆ๊ฐ€๋Šฅํ•˜๊ฑฐ๋‚˜ 0์ด ๋œ๋‹ค ๐Ÿ‘‰ backoff ๋‚˜ smoothing ํ•ด๊ฒฐ ๋ฐฉ๋ฒ•์ด ์กด์žฌ

 

  • ๋ถ„๋ชจ์—๋Š” smoothing ๋ฐฉ์‹์„ ์“ฐ์ง€ ์•Š๊ณ  backoff ๋ฐฉ์‹์„ ์“ฐ๋Š” ์ด์œ  : ๋ถ„๋ชจ๊ฐ€ 0์ธ ๊ฒฝ์šฐ๊ฐ€ ๋” ์‹ฌ๊ฐํ•˜๊ธฐ ๋•Œ๋ฌธ 

 

 

   2. Storage ๋ฌธ์ œ 

  • n ์ด ์ปค์ง€๊ฑฐ๋‚˜ corpus ๊ฐ€ ์ฆ๊ฐ€ํ•˜๋ฉด Corpus ๋‚ด ๋ชจ๋“  n-gram ์— ๋Œ€ํ•œ count ๋ฅผ ์ €์žฅํ•ด์ค˜์•ผ ํ•˜๊ธฐ ๋•Œ๋ฌธ์— ๋ชจ๋ธ์˜ ํฌ๊ธฐ๊ฐ€ ์ฆ๊ฐ€ํ•œ๋‹ค. (์‹คํ–‰์ด ์˜ค๋ž˜๊ฑธ๋ฆฌ๋Š” ๋‹จ์ ) 

 

   3. Incoherence ๋ฌธ์ œ 

 

๐Ÿค” N-gram ๋ฐฉ์‹์€ ์•ž์ „ ๋‹จ์–ด๋“ค๋งŒ ์ด์šฉํ•˜๋‹ˆ๊นŒ context (๋ฌธ๋งฅ)์„ ๋‹ด๊ธฐ์—” ํ•œ๊ณ„๊ฐ€ ์žˆ๋Š” ๊ฒƒ ๊ฐ™์•„! 

  • ๋‹ค์Œ ๋‹จ์–ด๋Š” ์•ž์˜ ๋‹จ์–ด๋“ค์—๊ฒŒ๋งŒ ์˜ํ–ฅ์„ ๋ฐ›๋Š”๋‹ค๋ผ๋Š” ๊ฐ€์ • ๋•Œ๋ฌธ์— ์ด์ „ ๋ฌธ๋งฅ์„ ์ถฉ๋ถ„ํžˆ ๋ฐ˜์˜ํ•˜์ง€ ๋ชปํ•จ
  • ์ฆ‰ ๋‹ค์Œ ๋‹จ์–ด๋ฅผ ์˜ˆ์ธกํ•˜๋Š”๋ฐ ์•„์ฃผ ์ค‘์š”ํ•œ ์ •๋ณด๊ฐ€ ๊ทธ ๋‹จ์–ด์™€ ๋ฌธ์žฅ์—์„œ ๋ฉ€๋ฆฌ์— ์œ„์น˜ํ•˜๋ฉด ๊ทธ ์ •๋ณด๋ฅผ ๋†“์น˜๊ฒŒ ๋จ 
  • N ์˜ ํฌ๊ธฐ๋ฅผ ๋Š˜๋ฆฌ๋ฉด ์–ด๋Š์ •๋„ ํ•ด๊ฒฐํ•  ์ˆ˜ ์žˆ์ง€๋งŒ sparsity ๋ฌธ์ œ๊ฐ€ ์‹ฌํ•ด์ง„๋‹ค. 

 

โœ” Process ์‚ดํŽด๋ณด๊ธฐ 

 

๋ฃจ์ดํ„ฐ ํ†ต์‹  ๋‰ด์Šค๊ธฐ์‚ฌ ์ฝ”ํผ์Šค๋ฅผ ๊ฐ€์ง€๊ณ  ์‹คํ—˜

 

  • ๊ฐ€๋Šฅ์„ฑ ์žˆ๋Š” ๋‹จ์–ด๋“ค์ด ํ™•๋ฅ ๋ถ„ํฌ๋กœ ๋„์ถœ๋จ 
  • condition ์กฐ๊ฑด ์„ ํƒ → sampling ํ™•๋ฅ  ๋ถ„ํฌ์—์„œ ์ œ์ผ ํ™•๋ฅ ์ด ๋†’์€ ๋‹จ์–ด๋ฅผ ์„ ํƒ  → condition ์กฐ๊ฑด ์„ ํƒ ... ๋ฐ˜๋ณต 

 

 

์ƒ๊ฐ๋ณด๋‹ค ๋ฌธ๋ฒ•์ ์ธ ๊ฒฐ๊ณผ๊ฐ€ ๋‚˜์˜ด. ๊ทธ๋Ÿฌ๋‚˜ ์ „์ฒด์ ์ธ ์˜๋ฏธ์—์„œ ์ผ๊ด€์„ฑ์ด ์—†๊ณ  n ์„ ๋Š˜๋ฆฌ๋ฉด ์šฐ๋ ค๋˜๋Š” ํฌ์†Œ์„ฑ ๋•Œ๋ฌธ์— ํ•œ๊ณ„์ ์„ ํŒŒ์•…ํ•ด๋ณผ ์ˆ˜ ์žˆ์Œ

 

 

 

(3) Window-based Neural Network Language model (NNLM)

 

โœ” ์ •์˜ 

  • N-gram ์˜ ๋ฌธ์ œ์ ์ธ Sparsity (์ถฉ๋ถ„ํ•œ ๋ฐ์ดํ„ฐ๊ฐ€ ์—†๋‹ค๋ฉด ์–ธ์–ด๋ฅผ ์ •ํ™•ํžˆ ๋ชจ๋ธ๋ง ํ•˜์ง€ ๋ชปํ•จ) , Incoherence ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด ์ œ์•ˆ๋œ ์‹ ๊ฒฝ๋ง ๊ธฐ๋ฐ˜์˜ ๋ชจ๋ธ
  • ํฌ์†Œ ๋ฌธ์ œ๋Š” ๊ธฐ๊ณ„๊ฐ€ ๋‹จ์–ด ๊ฐ„ ์œ ์‚ฌ๋„๋ฅผ ์•Œ ์ˆ˜ ์žˆ๋‹ค๋ฉด ํ•ด๊ฒฐํ•  ์ˆ˜ ์žˆ๊ฒŒ ๋จ : ํ›ˆ๋ จ ์ฝ”ํผ์Šค์— ์—†๋Š” ๋‹จ์–ด ์‹œํ€€์Šค์— ๋Œ€ํ•œ ์˜ˆ์ธก์ด๋ผ๋„ ์œ ์‚ฌํ•œ ๋‹จ์–ด๊ฐ€ ์‚ฌ์šฉ๋œ ๋‹จ์–ด ์‹œํ€€์Šค๋ฅผ ์ฐธ๊ณ ํ•˜์—ฌ ์ •ํ™•ํ•œ ์˜ˆ์ธก์„ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ์Œ ๐Ÿ‘‰ ์ด๋Ÿฌํ•œ ์•„์ด๋””์–ด๋ฅผ ๊ฐ€์ง€๊ณ  ํƒ„์ƒํ•œ ์–ธ์–ด๋ชจ๋ธ์ด NNLM 
  • ๋‹ค์Œ์— ๋“ฑ์žฅํ•  ๋‹จ์–ด๋ฅผ ์˜ˆ์ธกํ•˜๋Š” ์–ธ์–ด๋ชจ๋ธ์ด๋ฉด์„œ ๋™์‹œ์— ๋‹จ์–ด์˜ 'distributed representation' (๋‹จ์–ด ๋ฒกํ„ฐ ํ‘œํ˜„) ์„ ํ•™์Šตํ•œ๋‹ค. 
  • NNLM ๋„ N-gram ๊ณผ ์œ ์‚ฌํ•˜๊ฒŒ ์ •ํ•ด์ง„ n ๊ฐœ์˜ ๋‹จ์–ด๋งŒ์„ ์ฐธ๊ณ ํ•ด์„œ (์œˆ๋„์šฐ ๋ฒ”์œ„) ์˜ˆ์ธก์„ ์ˆ˜ํ–‰ํ•œ๋‹ค. 

 

 

 

 

โœจ x ์˜ ์‹œํ€€์Šค๋ฅผ window ์‚ฌ์ด์ฆˆ ๋งŒํผ ์ž…๋ ฅ ๐Ÿ‘‰  ๋‹จ์–ด๋ฅผ ์›ํ•ซ์ธ์ฝ”๋”ฉ ๋ฒกํ„ฐ๋กœ ํ‘œํ˜„ ๐Ÿ‘‰ ๊ฐ ๋‹จ์–ด์— ๋Œ€ํ•ด ์ž„๋ฒ ๋”ฉ ๋ฒกํ„ฐ๋ฅผ ๋ฝ‘์•„๋‚ด๊ณ  ์ด๋ฅผ ์ด์–ด๋ถ™์ธ๋‹ค (e) ๐Ÿ‘‰ hidden layer ๐Ÿ‘‰ Softmax ๋ฅผ ํ†ต๊ณผ ๐Ÿ‘‰ ๊ทธ ๋‹ค์Œ ๋‹จ์–ด๊ฐ€ ๋‚˜ํƒ€๋‚ผ 'ํ™•๋ฅ ๋ถ„ํฌ' ๋ฅผ output ์œผ๋กœ ๋„์ถœ  

 

 

โšพ input : ๋‹จ์–ด๋“ค์˜ ์‹œํ€€์Šค 

๐ŸฅŽ output : ๋‹ค์Œ ๋‹จ์–ด์— ๋Œ€ํ•œ ํ™•๋ฅ  ๋ถ„ํฌ 

 

 

โœ” ์žฅ์ 

  • ๋‹จ์–ด ์ž„๋ฒ ๋”ฉ์„ ํ†ตํ•ด Sparsity ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐ
  • ๊ด€์ธก๋œ n-gram ์„ ์ €์žฅํ•  ํ•„์š”๊ฐ€ ์—†์–ด์ง ← ์ž„๋ฒ ๋”ฉ ๋ฐฉ์‹์„ ํ†ตํ•ด ๊ฐœ๋ณ„ ํ™•๋ฅ ์ด ์•„๋‹ˆ๋ผ ์ „์ฒด ํ™•๋ฅ ๋ถ„ํฌ๋กœ ํ‘œํ˜„๋˜๊ธฐ ๋•Œ๋ฌธ 

 

โœ” ๋‹จ์  

  • ๊ณ ์ •๋œ window ํฌ๊ธฐ๊ฐ€ ๋„ˆ๋ฌด ์ž‘๋‹ค. (n<5)
  • Window ํฌ๊ธฐ๊ฐ€ ์ปค์งˆ์ˆ˜๋ก W ๋„ ์ปค์ง„๋‹ค → window ํฌ๊ธฐ์˜ ํ•œ๊ณ„ 
  • ๊ฐ ๋ฒกํ„ฐ๋“ค์€ ์™„์ „ํžˆ ๋‹ค๋ฅธ ๊ฐ€์ค‘์น˜ W๊ฐ€ ๊ณฑํ•ด์ง€๋ฏ€๋กœ ๋‹จ์–ด์™€ ๋‹จ์–ด ๊ฐ„์ด No symmetry ํ•˜๋‹ค๋Š” ๋ฌธ์ œ์ ์ด ์กด์žฌ  

 

โœ” W ์—์„œ์˜ symmetry

 

โž• http://norman3.github.io/prml/docs/chapter05/1.html

  • ๊ณต๊ฐ„ ๋Œ€์นญ์„ฑ : feed-forward ๋„คํŠธ์›Œํฌ์—์„œ ์„œ๋กœ ๋‹ค๋ฅธ w์— ๋Œ€ํ•ด์„œ๋„ ๋™์ผํ•œ ์ž…๋ ฅ์— ๋Œ€ํ•ด ๋™์ผํ•œ ์ถœ๋ ฅ ๊ฒฐ๊ณผ๋ฅผ ๋งŒ๋“ค์–ด๋‚ผ ์ˆ˜ ์žˆ๋Š” ์„ฑ์งˆ์„ ์˜๋ฏธํ•œ๋‹ค. 
  • Sign-flip symmetry : ๋ถ€ํ˜ธ๋งŒ ๋ฐ˜๋Œ€์ธ ๊ฒฝ์šฐ์—” ๋‘ ๋‹จ๊ณ„๋ฅผ ๊ฑฐ์น˜๋ฉด ๋™์ผํ•œ ๊ฒฐ๊ณผ๋ฅผ ๋งŒ๋“ค ์ˆ˜ ์žˆ๋‹ค. 
  • Interchange symmetry : ๊ฐ™์€ ๋ ˆ์ด์–ด ๋‚ด ์ž„์˜์˜ ํžˆ๋“  ์œ ๋‹› 2๊ฐœ์— ๋Œ€ํ•ด ์„œ๋กœ ์œ„์น˜๋ฅผ ๋ฐ”๊พธ์–ด๋„ ์ตœ์ข… ์ถœ๋ ฅ๊ฐ’์€ ๋ณ€ํ™”๊ฐ€ ์—†๋‹ค. 

๐Ÿคจ ๊ฐ€์ค‘์น˜ ๊นจ์ง

 

 

โœ” ๋‹จ์–ด์™€ ๋‹จ์–ด๊ฐ€ symmetry ํ•˜์ง€ ์•Š๋‹ค๋Š” ๊ฒƒ์˜ ์˜๋ฏธ

  • ๋ฃฉ์—… ํ…Œ์ด๋ธ” : ์›ํ•ซ๋ฒกํ„ฐ์˜ ํŠน์„ฑ์œผ๋กœ ์ธํ•ด i ๋ฒˆ์งธ ์ธ๋ฑ์Šค์— 1์ด๋ผ๋Š” ๊ฐ’์„ ๊ฐ€์ง€๊ณ  ๊ทธ ์ด์™ธ์—๋Š” 0์˜ ๊ฐ’์„ ๊ฐ€์ง€๋Š” ์›ํ•ซ๋‹จ์–ด ๋ฒกํ„ฐ์™€ ๊ฐ€์ค‘์น˜ W ํ–‰๋ ฌ์˜ ๊ณฑ์€ ์‚ฌ์‹ค์ƒ Wํ–‰๋ ฌ์˜ i ๋ฒˆ์งธ ํ–‰์„ ๊ทธ๋Œ€๋กœ ์ฝ์–ด์˜ค๋Š” ๊ฒƒ (lookup) ๊ณผ ๋™์ผํ•˜๋‹ค๋Š” ๊ฐœ๋… 
  • ๋ฃฉ์—… ํ…Œ์ด๋ธ”์˜ ์ž‘์—…์„ ๊ฑฐ์น˜๋ฉด V ์ฐจ์›์„ ๊ฐ€์ง€๋Š” ์›ํ•ซ๋ฒกํ„ฐ๋Š” ์ด๋ณด๋‹ค ๋” ์ฐจ์›์ด ์ž‘์€ M์ฐจ์›์˜ ๋‹จ์–ด๋กœ ๋งคํ•‘์ด ๋œ๋‹ค. ํ…Œ์ด๋ธ” ๋ฃฉ์—… ๊ณผ์ •์„ ๊ฑฐ์นœ ํ›„ ์ด ๋‹จ์–ด์˜ ๋ฒกํ„ฐ๋ฅผ ์ž„๋ฒ ๋”ฉ ๋ฒกํ„ฐ๋ผ๊ณ  ํ•œ๋‹ค. 
  • ๋ฒกํ„ฐ์™€ ๊ฐ€์ค‘์น˜ ํ–‰๋ ฌ์—์„œ์˜ ์—ฐ์‚ฐ์€ ๊ฐ ๋ฒกํ„ฐ๋“ค์ด ๊ฐ๊ฐ ๋‹ค๋ฅธ W ๊ฐ€์ค‘์น˜ ๋ถ€๋ถ„์„ ๊ณฑํ•˜๊ฒŒ ๋˜๋ฉด์„œ ๊ฐ ๋‹จ์–ด๋“ค์ด No symmetry ํ•˜๊ฒŒ ๋˜๋Š” ๋ฌธ์ œ์ ์„ ๊ฐ€์ง€๊ฒŒ ๋œ๋‹ค. 

๐Ÿ‘‰ ๊ฐ™์€ ๋‹จ์–ด๊ฐ€ ๋‹ค๋ฅธ ์œ„์น˜์— ๋‚˜ํƒ€๋‚˜๋ฉด ๋‹ค๋ฅด๊ฒŒ ์ฒ˜๋ฆฌ๋œ๋‹ค. ๋‹จ์–ด์˜ ์œ„์น˜์— ๋”ฐ๋ผ ๊ณฑํ•ด์ง€๋Š” ๊ฐ€์ค‘์น˜๊ฐ€ ๋‹ฌ๋ผ์ง€๋ฏ€๋กœ ๋ชจ๋ธ์ด ๋น„์Šทํ•œ ๋‚ด์šฉ์„ ์—ฌ๋Ÿฌ ๋ฒˆ ํ•™์Šตํ•˜๋Š” ๋น„ํšจ์œจ์„ฑ์„ ๊ฐ€์ง„๋‹ค. 

 

 

2. Recurrent Neural Network (RNN) 

 

(1) RNN

 

 

 

โœ” ๋น„๊ต 

  • FFNN : ์€๋‹‰์ธต์—์„œ ํ™œ์„ฑํ™” ํ•จ์ˆ˜๋ฅผ ์ง€๋‚œ ๊ฐ’์€ ์˜ค์ง ์ถœ๋ ฅ์ธต ๋ฐฉํ–ฅ์œผ๋กœ๋งŒ ํ–ฅํ•˜๋Š” ์‹ ๊ฒฝ๋ง 
  • RNN ์€ ์€๋‹‰์ธต์˜ ๋…ธ๋“œ์—์„œ ํ™œ์„ฑํ™” ํ•จ์ˆ˜๋ฅผ ํ†ตํ•ด ๋‚˜์˜จ ๊ฒฐ๊ณผ๊ฐ’์„ ์ถœ๋ ฅ์ธต ๋ฐฉํ–ฅ์œผ๋กœ๋„ ๋ณด๋‚ด๋ฉด์„œ ๋‹ค์‹œ ์€๋‹‰์ธต ๋…ธ๋„์˜ ๋‹ค์Œ ๊ณ„์‚ฐ์˜ ์ž…๋ ฅ์œผ๋กœ ๋ณด๋‚ด๋Š” ํŠน์ง•์„ ๊ฐ€์ง€๊ณ  ์žˆ๋‹ค. 

 

โœ” ์ •์˜ 

  • ์‹œํ€€์Šค ๋ฐ์ดํ„ฐ๋ฅผ ๋ชจ๋ธ๋งํ•˜๊ธฐ ์œ„ํ•ด ๋“ฑ์žฅํ•œ ๋ชจ๋ธ๋กœ ๊ธฐ์กด NN ๊ณผ ๋‹ค๋ฅธ์ ์€ '๊ธฐ์–ต(hidden state)' ๋ฅผ ๊ฐ€์ง€๊ณ  ์žˆ๋‹ค๋Š” ์ ์ด๋‹ค. 
  • ๊ธฐ์กด ์‹ ๊ฒฝ๋ง์€ ๋ชจ๋“  ์ž…๋ ฅ์ด ๊ฐ๊ฐ ๋…๋ฆฝ์ ์ด๋ผ๊ณ  ๊ฐ€์ •ํ–ˆ๋Š”๋ฐ, NLP ์—์„œ๋Š” ์ด๋Ÿฌํ•œ ๊ฐ€์ •์˜ ์ ์šฉ์ด ์˜ณ์ง€ ์•Š์„ ์ˆ˜ ์žˆ๋‹ค. ๋ฌธ์žฅ์—์„œ ๋‹ค์Œ์— ๋‚˜์˜ฌ ๋‹จ์–ด๋ฅผ ์ถ”์ธกํ•˜๊ณ  ์‹ถ๋‹ค๋ฉด ์ด์ „์— ๋‚˜์˜จ ๋‹จ์–ด๋“ค์˜ ์—ฐ์†์„ฑ์„ ์•„๋Š” ๊ฒƒ ์ž์ฒด๊ฐ€ ํฐ ๋„์›€์ด ๋  ์ˆ˜ ์žˆ๋‹ค. 
  • Recurrent : ์ง์ „ ์‹œ์ ์˜ ์€๋‹‰์ธต์—์„œ ์ƒ์„ฑ๋œ hidden states ๋ฅผ ๋‹ค์Œ ์‹œ์ ์˜ input ์œผ๋กœ ์ „๋‹ฌํ•˜๋Š” ๊ฒƒ์ด ํŠน์ง•. ์ฆ‰ ์ถœ๋ ฅ ๊ฒฐ๊ณผ๋Š” ์ด์ „์˜ ๊ณ„์‚ฐ ๊ฒฐ๊ณผ์— ์˜ํ–ฅ์„ ๋ฐ›๋Š”๋‹ค. 

 

  • ๋™์ผํ•œ ๊ฐ€์ค‘์น˜ W ๋ฅผ ๋ฐ˜๋ณต์ ์œผ๋กœ ์ ์šฉ ๐Ÿ‘‰ ๋‹จ์–ด๊ฐ„์˜ symmetric ํ•˜์ง€ ์•Š์•˜๋˜ NNLM ์˜ ๋‹จ์ ์„ ๋ณด์™„ 

 

#python code
hidden_state_t = 0 # ์ดˆ๊ธฐ ์€๋‹‰ ์ƒํƒœ๋ฅผ 0(๋ฒกํ„ฐ)๋กœ ์ดˆ๊ธฐํ™”
for input_t in input_length: # ๊ฐ ์‹œ์ ๋งˆ๋‹ค ์ž…๋ ฅ์„ ๋ฐ›๋Š”๋‹ค.
    output_t = tanh(input_t, hidden_state_t) # ๊ฐ ์‹œ์ ์— ๋Œ€ํ•ด์„œ ์ž…๋ ฅ๊ณผ ์€๋‹‰ ์ƒํƒœ๋ฅผ ๊ฐ€์ง€๊ณ  ์—ฐ์‚ฐ
    hidden_state_t = output_t # ๊ณ„์‚ฐ ๊ฒฐ๊ณผ๋Š” ํ˜„์žฌ ์‹œ์ ์˜ ์€๋‹‰ ์ƒํƒœ๊ฐ€ ๋œ๋‹ค.

 

 

 

ํ•ด๋‹น ์‹œ์ ์˜ ์ž„๋ฒ ๋”ฉ ๋ฒกํ„ฐ์™€ ์ง์ „ ์‹œ์ ์˜ hidden states ๋ฅผ input ์œผ๋กœ ๋„ฃ๋Š”๋‹ค.

 

 

 

โœ” ํ‘œ๊ธฐ 

๐Ÿ‘‰ h์˜ ์—ญํ• ์„ ํ†ตํ•ด ๋ฉ”๋ชจ๋ฆฌ(๊ธฐ์–ต๋ ฅ) ์ด ์žˆ๋Š” ๊ณ„์ธต์ด๋ผ ๋ถ€๋ฅธ๋‹ค. 

 

 

โœ” ์žฅ์ 

  • ์ด์ „์˜ ์ •๋ณด๋“ค์„ ํ™œ์šฉํ•  ์ˆ˜ ์žˆ๋‹ค. 
  • ์‹œํ€€์Šค ์ˆœ์„œ์— ๋งž๊ฒŒ ํ•˜๋‚˜์”ฉ ์ž…๋ ฅํ•ด์ฃผ๊ธฐ ๋•Œ๋ฌธ์— ์ž…๋ ฅ์˜ ๊ธธ์ด์— ์ œํ•œ์ด ์—†์Œ 
  • ์ด๋ก ์ ์œผ๋กœ๋Š” ๊ธธ์ด๊ฐ€ ๊ธด timestamp t ์— ๋Œ€ํ•ด ์ฒ˜๋ฆฌ๊ฐ€ ๊ฐ€๋Šฅํ•˜๋‹ค. (์–ด๋–ค ๊ธธ์ด์˜ ํ…์ŠคํŠธ์ด๋˜ ๊ณ„์‚ฐ ๊ฐ€๋Šฅ) 
  • ๋งค step ๋งˆ๋‹ค ๋™์ผํ•œ ๊ฐ€์ค‘์น˜ W๊ฐ€ ์ ์šฉ๋˜๊ธฐ ๋•Œ๋ฌธ์— ์ž…๋ ฅ์— ๋”ฐ๋ฅธ ๋ชจ๋ธ์˜ ํฌ๊ธฐ๊ฐ€ ์ฆ๊ฐ€ํ•˜์ง€ ์•Š๋Š”๋‹ค. ๋ชจ๋ธ์˜ ํฌ๊ธฐ๋Š” Wh ์™€ We ๋กœ ๊ณ ์ •๋˜์–ด ์žˆ๋‹ค. 
  • ๋งค step ์— ๋™์ผํ•œ ๊ฐ€์ค‘์น˜๋ฅผ ์ ์šฉํ•˜๋ฏ€๋กœ symmetry ํ•˜๋‹ค  

 

โœ” ๋‹จ์  

  • ๋‹จ์–ด๊ฐ€ ํ•˜๋‚˜์”ฉ ์ž…๋ ฅ๋˜๊ธฐ ๋•Œ๋ฌธ์— ์ˆœ์ฐจ์ ์ธ ๊ณ„์‚ฐ์ด ํ•„์š”ํ•˜์—ฌ Recurrent ๊ณ„์‚ฐ์ด ๋Š๋ฆฌ๋‹ค. 
  • ์ •๋ณด์˜ ์†์‹ค ๋ฌธ์ œ (๊ธฐ์šธ๊ธฐ ์†Œ์‹ค ๋ฌธ์ œ) ๋•Œ๋ฌธ์— ์‹ค์ œ๋กœ๋Š” ๊ธธ์ด๊ฐ€ ๊ธด timestep ์— ๋Œ€ํ•ด์„œ๋Š” ์ฒ˜๋ฆฌ๊ฐ€ ๋˜๊ธฐ ์–ด๋ ต๋‹ค. ์ฆ‰, ๋จผ ๊ณณ์— ์žˆ๋Š” ๋‹จ์–ด ์ •๋ณด๋ฅผ ๋ฐ˜์˜ํ•˜๊ธฐ๋Š” ์–ด๋ ต๋‹ค๋Š” ์˜๋ฏธ์ด๋‹ค. = ์ค‘์š”ํ•œ ์ž…๋ ฅ๊ณผ ์ถœ๋ ฅ ๋‹จ๊ณ„ ์‚ฌ์ด์˜ ๊ฑฐ๋ฆฌ๊ฐ€ ๋ฉ€์–ด์งˆ์ˆ˜๋ก ๊ทธ ๊ด€๊ณ„๋ฅผ ํ•™์Šตํ•˜๊ธฐ ์–ด๋ ค์›Œ์ง ๐Ÿ‘‰ ๋ณ€ํ˜• ๋ชจ๋ธ์ธ LSTM, attention ๋ชจ๋ธ์ด ์ œ์‹œ 

 

 

 

(2) RNN training 

 

โœ” ๊ณผ์ • 

๊ฐ ์ถœ๋ ฅ๊ฐ’์— ๋Œ€ํ•ด Loss ๋ฅผ ๊ตฌํ•œ ํ›„ ์ „์ฒด step ์— ๋Œ€ํ•ด ํ‰๊ท ์„ ๋‚ด๋ฆฐ๋‹ค. 

 

1. ๋‹จ์–ด๋“ค๋กœ ์ด๋ฃจ์–ด์ง„ ์‹œํ€€์Šค์˜ corpus ๋ฅผ ์ค€๋น„ํ•œ๋‹ค. 

2. ๋‹จ์–ด๋“ค์„ ์ˆœ์„œ๋Œ€๋กœ RNN ์— ์ž…๋ ฅํ•˜๊ณ  ๋งค ๋‹จ๊ณ„ t ์— ๋Œ€ํ•œ ์ถœ๋ ฅ๋ถ„ํฌ๋ฅผ ๊ณ„์‚ฐํ•œ๋‹ค. 

3. t ๋‹จ๊ณ„์— ๋Œ€ํ•œ ์†์‹คํ•จ์ˆ˜ Cross-Entropy ๋ฅผ ๊ณ„์‚ฐํ•œ๋‹ค. 

4. ์ „์ฒด training set ์— ๋Œ€ํ•œ ์†์‹ค์„ ๊ตฌํ•˜๊ธฐ ์œ„ํ•ด ํ‰๊ท ๊ฐ’์„ ๊ตฌํ•œ๋‹ค. 

 

* ์ „์ฒด corpus ์— ๋Œ€ํ•œ loss ์™€ ๊ธฐ์šธ๊ธฐ ๊ณ„์‚ฐ์€ ์‹œ๊ฐ„์ด ๋งŽ์ด ๊ฑธ๋ฆฌ๋ฏ€๋กœ ์‹ค์ œ๋ก  ๋ฌธ์žฅ์ด๋‚˜ ๋ฌธ์„œ ๋‹จ์œ„๋กœ ์ž…๋ ฅ์„ ์ฃผ๊ธฐ๋„ ํ•œ๋‹ค. 

* ํ˜น์€ SGD ๋ฅผ ํ†ตํ•ด ์ตœ์ ํ™”๋ฅผ ํ•˜๊ธฐ๋„ ํ•œ๋‹ค. 

 

 

โœ” Backpropagation

  • ๊ธฐ์กด ์—ญ์ „ํŒŒ์™€ ๋‹ค๋ฅด๊ฒŒ ์ˆœํ™˜ ์‹ ๊ฒฝ๋ง์€ ๊ณ„์‚ฐ์— ์‚ฌ์šฉ๋œ ์‹œ๊ฐ„, ์‹œ์ ์˜ ์ˆ˜๊ฐ€ ์˜ํ–ฅ์„ ์ค€๋‹ค. ๋”ฐ๋ผ์„œ ์‹œ๊ฐ„์— ๋”ฐ๋ฅธ ์—ญ์ „ํŒŒ๋ผ๋Š” BPTT ๋ฅผ ์‚ฌ์šฉํ•˜๊ฒŒ ๋œ๋‹ค. 
  • BPTT(Backpropagation Through Time) ๋ฐฉ์‹ : timestep ์— ๋”ฐ๋ผ gradient ๋ฅผ ๋”ํ•ด๊ฐ„๋‹ค. 

 ๊ฐ ๋ ˆ์ด์–ด๋งˆ๋‹ค์˜ weight๋Š” ์‹ค์ œ๋ก  ๋™์ผํ•œ ์›จ์ดํŠธ์—ฌ์•ผ ํ•˜๋ฏ€๋กœ ๋ชจ๋“  ์—…๋ฐ์ดํŠธ๋„ ๋™์ผํ•˜๊ฒŒ ์ด๋ฃจ์–ด์ ธ์•ผ ํ•œ๋‹ค. ๋”ฐ๋ผ์„œ ๊ฐ layer๋งˆ๋‹ค ๋™์ผํ•œ ์œ„์น˜์˜ weight์— ํ•ด๋‹นํ•˜๋Š” ๋ชจ๋“  derivative error๋ฅผ ๋‹ค ๋”ํ•œ๋‹ค์Œ (๋”ํ•˜๋Š” ๊ฑฐ๋‚˜ ํ‰๊ท  ๋‚ด๋Š”๊ฑฐ๋‚˜ ์‚ฌ์‹ค์ƒ ๊ฐ™์€ ์˜๋ฏธ) weight๋ฅผ 1๋ฒˆ ์—…๋ฐ์ดํŠธ ํ•ด์ค€๋‹ค.

 

 

(3) RNN ์˜ ํ™œ์šฉ 

 

โœ” RNN ์˜ ์ž…์ถœ๋ ฅ์€ task ๋ชฉ์ ์— ๋”ฐ๋ผ ์–ผ๋งˆ๋“ ์ง€ ๋‹ฌ๋ผ์งˆ ์ˆ˜ ์žˆ๋‹ค. 

 

 

  • One-to-One : ์ˆœํ™˜์ ์ธ ๋ถ€๋ถ„์ด ์—†์œผ๋ฏ€๋กœ RNN ์ด ์•„๋‹˜ 
  • One to many : ๊ณ ์ •ํฌ๊ธฐ๋ฅผ ์ž…๋ ฅํ•ด ์‹œํ€€์Šค๋ฅผ ์ถœ๋ ฅํ•œ๋‹ค. ์˜ˆ๋ฅผ๋“ค์–ด ์ด๋ฏธ์ง€๋ฅผ ์ž…๋ ฅํ•ด ์ด๋ฏธ์ง€์— ๋Œ€ํ•œ ์„ค๋ช…์„ ๋ฌธ์žฅ์œผ๋กœ ์ถœ๋ ฅํ•˜๋Š” ์ด๋ฏธ์ง€ ์บก์…˜ ์ƒ์„ฑ task ๋ฅผ ์ˆ˜ํ–‰ํ•œ๋‹ค. 
  • Many to one : ์‹œํ€€์Šค๋ฅผ ์ž…๋ ฅํ•ด ๊ณ ์ • ํฌ๊ธฐ๋ฅผ ์ถœ๋ ฅํ•œ๋‹ค. ์˜ˆ๋ฅผ๋“ค์–ด ๋ฌธ์žฅ์„ ์ž…๋ ฅํ•ด ๊ธ๋ถ€์ • ์ •๋„๋ฅผ ์ถœ๋ ฅํ•˜๋Š” ๊ฐ์ • ๋ถ„์„๊ธฐ task ๋ฅผ ์ˆ˜ํ–‰ํ•œ๋‹ค. 
  • Many to Many : ์‹œํ€€์Šค๋ฅผ ์ž…๋ ฅํ•ด ์‹œํ€€์Šค๋ฅผ ์ถœ๋ ฅํ•œ๋‹ค. ์˜ˆ๋ฅผ๋“ค์–ด ์˜์–ด๋ฅผ ํ•œ๊ตญ์–ด๋กœ ๋ฒˆ์—ญํ•˜๋Š” ์ž๋™ ๋ฒˆ์—ญ๊ธฐ task ๋ฅผ ์ˆ˜ํ–‰ํ•œ๋‹ค. 
  • Many to Many(2) : ๋™๊ธฐํ™”๋œ ์‹œํ€€์Šค๋ฅผ ์ž…๋ ฅํ•ด ์‹œํ€€์Šค๋ฅผ ์ถœ๋ ฅํ•œ๋‹ค. ์˜ˆ๋ฅผ๋“ค์–ด ๋ฌธ์žฅ์—์„œ ๋‹ค์Œ์— ๋‚˜์˜ฌ ๋‹จ์–ด๋ฅผ ์˜ˆ์ธกํ•˜๋Š” ์–ธ์–ด ๋ชจ๋ธ task (์ด๋ฒˆ chapter ์—์„œ ๋‹ค๋ฃฌ ๋‚ด์šฉ) ์„ ์ˆ˜ํ–‰ํ•œ๋‹ค. 

 

 

โœ” tagging : part-of-speech tagging, named entity recognition

 

 

โœ” ๋ฌธ์žฅ๋ถ„๋ฅ˜/๊ฐ์ •๋ถ„๋ฅ˜

 

 

 

โœ” encoder module : question answering, machine translation

 

 

 

โœ” generate text :  speech recognition, machine translation, summarization

 

 

3. Evaluating 

(1) Perplexity 

 

โœ” ์ •์˜ 

  • ์–ธ์–ด๋ชจ๋ธ์€ ์ฃผ์–ด์ง„ ๊ณผ๊ฑฐ ๋‹จ์–ด ์ •๋ณด๋กœ๋ถ€ํ„ฐ ๋‹ค์Œ์— ์ถœํ˜„ํ•  ๋‹จ์–ด์˜ ํ™•๋ฅ  ๋ถ„ํฌ๋ฅผ ์ถœ๋ ฅํ•˜๋Š” ๋ชจ๋ธ 
  • ์–ธ์–ด๋ชจ๋ธ์„ ํ‰๊ฐ€ํ•˜๋Š” ๋Œ€ํ‘œ์ ์ธ ์ฒ™๋„๊ฐ€ Perplexity ๐Ÿ‘‰ ์ถœํ˜„ํ•  ๋‹จ์–ด์˜ ํ™•๋ฅ ์— ๋Œ€ํ•œ ์—ญ์ˆ˜ 
  • ๊ฐ’์ด ์ž‘์„์ˆ˜๋ก ์ข‹์€ ์–ธ์–ด๋ชจ๋ธ์ด๋ผ ํ•  ์ˆ˜ ์žˆ๋‹ค. 

 

โœ” ์ˆ˜์‹ ํ˜•ํƒœ 

  • ์†์‹คํ•จ์ˆ˜๋ฅผ ๋„์ž…ํ•˜์—ฌ e^L ํ˜•ํƒœ๋กœ ์ •๋ฆฌ๋จ 

 

โœ” ํŽ˜์ด์Šค๋ถ ์‹คํ—˜ ๊ฒฐ๊ณผ 

 

๐Ÿ‘€ ๋” ์•Œ์•„๋ณด๊ธฐ 

  • ์–‘๋ฐฉํ–ฅ ์ˆœํ™˜ ์‹ ๊ฒฝ๋ง : ์‹œ์  t์—์„œ์˜ ์ถœ๋ ฅ๊ฐ’์„ ์˜ˆ์ธกํ•  ๋•Œ ์ด์ „ ์‹œ์ ์˜ ์ž…๋ ฅ๋ฟ๋งŒ ์•„๋‹ˆ๋ผ, ์ดํ›„ ์‹œ์ ์˜ ์ž…๋ ฅ ๋˜ํ•œ ์˜ˆ์ธก์— ๊ธฐ์—ฌํ•  ์ˆ˜ ์žˆ๋‹ค๋Š” ์•„์ด๋””์–ด์— ๊ธฐ๋ฐ˜

 

 

๐Ÿ“Œ ์‹ค์Šต ์ž๋ฃŒ 

 

๊ธฐ์ดˆ๋ถ€ํ„ฐ ์‹œ์ž‘ํ•˜๋Š” NLP: ๋ฌธ์ž-๋‹จ์œ„ RNN์œผ๋กœ ์ด๋ฆ„ ๋ถ„๋ฅ˜ํ•˜๊ธฐ — PyTorch Tutorials 1.11.0+cu102 documentation

Note Click here to download the full example code ๊ธฐ์ดˆ๋ถ€ํ„ฐ ์‹œ์ž‘ํ•˜๋Š” NLP: ๋ฌธ์ž-๋‹จ์œ„ RNN์œผ๋กœ ์ด๋ฆ„ ๋ถ„๋ฅ˜ํ•˜๊ธฐ Author: Sean Robertson ๋ฒˆ์—ญ: ํ™ฉ์„ฑ์ˆ˜ ๋‹จ์–ด๋ฅผ ๋ถ„๋ฅ˜ํ•˜๊ธฐ ์œ„ํ•ด ๊ธฐ์ดˆ์ ์ธ ๋ฌธ์ž-๋‹จ์œ„ RNN์„ ๊ตฌ์ถ•ํ•˜๊ณ  ํ•™์Šต ํ• 

tutorials.pytorch.kr

 

 

1) ์ˆœํ™˜ ์‹ ๊ฒฝ๋ง(Recurrent Neural Network, RNN)

RNN(Recurrent Neural Network)์€ ์ž…๋ ฅ๊ณผ ์ถœ๋ ฅ์„ ์‹œํ€€์Šค ๋‹จ์œ„๋กœ ์ฒ˜๋ฆฌํ•˜๋Š” ์‹œํ€€์Šค(Sequence) ๋ชจ๋ธ์ž…๋‹ˆ๋‹ค. ๋ฒˆ์—ญ๊ธฐ๋ฅผ ์ƒ๊ฐํ•ด๋ณด๋ฉด ์ž…๋ ฅ์€ ๋ฒˆ์—ญํ•˜๊ณ ์ž ํ•˜๋Š” ...

wikidocs.net

 

 

6) RNN์„ ์ด์šฉํ•œ ํ…์ŠคํŠธ ์ƒ์„ฑ(Text Generation using RNN)

๋‹ค ๋Œ€ ์ผ(many-to-one) ๊ตฌ์กฐ์˜ RNN์„ ์‚ฌ์šฉํ•˜์—ฌ ๋ฌธ๋งฅ์„ ๋ฐ˜์˜ํ•ด์„œ ํ…์ŠคํŠธ๋ฅผ ์ƒ์„ฑํ•˜๋Š” ๋ชจ๋ธ์„ ๋งŒ๋“ค์–ด๋ด…์‹œ๋‹ค. ##**1. RNN์„ ์ด์šฉํ•˜์—ฌ ํ…์ŠคํŠธ ์ƒ์„ฑํ•˜๊ธฐ** ์˜ˆ๋ฅผ ...

wikidocs.net

 

728x90

๋Œ“๊ธ€