๋ณธ๋ฌธ ๋ฐ”๋กœ๊ฐ€๊ธฐ
1๏ธโƒฃ AI•DS/๐Ÿ“’ Deep learning

[์ธ๊ณต์ง€๋Šฅ] NLP

by isdawell 2022. 6. 10.
728x90

๐Ÿ“Œ ๊ต๋‚ด '์ธ๊ณต์ง€๋Šฅ' ์ˆ˜์—…์„ ํ†ตํ•ด ๊ณต๋ถ€ํ•œ ๋‚ด์šฉ์„ ์ •๋ฆฌํ•œ ๊ฒƒ์ž…๋‹ˆ๋‹ค. 

 

Recap


โœจ RNN, LSTM 

 

โ—พ RNN → gradient vanishing problem → LSTM

 

 

 

 

 

1๏ธโƒฃ NLP 


โ‘   Natural language processing

 

โ—ผ NLP : ์ปดํ“จํ„ฐ๋กœ ์ธ๊ฐ„์˜ ์–ธ์–ด๋ฅผ ์‚ฌ์šฉํ•˜๋Š” ๊ฒƒ 

 

โ—ผ Natural language

 

โ—ผ example

 

๐Ÿ’จ machine translation 

๐Ÿ’จ Sentiment classification 

๐Ÿ’จ Spam filtering 

๐Ÿ’จ Chat-bot 

 

๐Ÿ‘‰ ๋งŽ์€ NLP ์‘์šฉ์€ language model ์„ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•˜๊ณ  ์žˆ๋‹ค. 

 

 

 

 

โ‘ก Language model 

 

(1)  language model 

 

โ—ผ ์—ฐ์†๋œ ๋‹จ์–ด์— ๋Œ€ํ•œ ํ™•๋ฅ ๋ถ„ํฌ๋ฅผ ํ• ๋‹นํ•˜์—ฌ ์–ธ์–ด ๋ชจ๋ธ์„ ์ƒ์„ฑํ•œ๋‹ค. 

โ—ผ ์ผ๋ จ์˜ ๋‹จ์–ด ๋ฐฐ์—ด์ด ์žˆ์„ ๋•Œ ๊ทธ ๋‹ค์Œ์— ์˜ฌ ๋‹จ์–ด๋ฅผ ์˜ˆ์ธก 

 

 

→ ๊ฐ€์žฅ ํ™•๋ฅ ์ด ๋†’์€ ๋‹จ์–ด w5 ๋ฅผ ๊ทธ ๋‹ค์Œ์— ์˜ฌ ๋‹จ์–ด๋กœ ์˜ˆ์ธกํ•œ๋‹ค.

 

 

(2)  How to represent words in Numbers 

 

๐Ÿค” ๋‹จ์–ด๋ฅผ input ์œผ๋กœ ๋„ฃ์„ ๋•Œ ์–ด๋–ค ์ˆซ์ž ํ˜•ํƒœ๋กœ ๋„ฃ์–ด์ฃผ์–ด์•ผ ํ•˜๋Š”๊ฐ€

 

 

๐Ÿ’จ One-hot vector (Sparse representation) 

 

  • ๋‹จ์–ด ์‚ฌ์ „์„ ์ •์˜ํ•œ๋‹ค : vocabularly ๐Ÿ‘‰ ๊ฐ ๋‹จ์–ด๋งˆ๋‹ค ์ˆœ์„œ์— ๋Œ€ํ•œ index ๋ฅผ ๋ถ€์—ฌ 
  • vocab size ๋งŒํผ์˜ ํฌ๊ธฐ๋ฅผ ๊ฐ€์ง„ ๋ฒกํ„ฐ์—์„œ ํ•ด๋‹น ๋‹จ์–ด๊ฐ€ ์œ„์น˜ํ•œ ๊ณณ์—์„œ๋งŒ ๊ฐ’์ด 1์ธ ์›ํ•ซ ๋ฒกํ„ฐ๋ฅผ ์ƒ์„ฑ

 

 

 

โ—พ ์›ํ•ซ๋ฒกํ„ฐ ํ‘œํ˜„์˜ ๋ฌธ์ œ์  

 

  • ๊ฐ€๋Šฅํ•œ ๋‹จ์–ด ์ˆ˜๋ฅผ ์ƒ๊ฐํ•˜๋ฉด ๋ฒกํ„ฐ ์‚ฌ์ด์ฆˆ๊ฐ€ ๋„ˆ๋ฌด ์ปค์ง„๋‹ค → NN input ์œผ๋กœ ์“ฐ๊ธฐ ์–ด๋ ค์›€ 
  • 0๊ณผ 1์˜ ์ˆซ์ž๋กœ๋งŒ ์ด๋ฃจ์–ด์ง„ ๊ฐ’์ด๋ฏ€๋กœ ์—ฐ๊ด€์„ฑ ์žˆ๋Š” ๋‹จ์–ด ๊ด€๊ณ„๋ฅผ ๋ฐ˜์˜ํ•˜๊ธฐ ์–ด๋ ต๋‹ค. ex) Queen-Woman 

 

 

 

๐Ÿ’จ Embedding vector (Dense representation) 

 

  • ๋‹จ์–ด์˜ ์—ฐ๊ด€์„ฑ์„ ๊ณ ๋ คํ•˜์—ฌ ์ˆซ์ž๋กœ ํ‘œํ˜„ํ•œ ๋ฐฉ๋ฒ• 
  • ๋‹จ์–ด๊ฐ„ ์œ ์‚ฌ์„ฑ์„ ํ‘œํ˜„ํ•  ์ˆ˜ ์žˆ๋Š” ๋Œ€ํ‘œ ํŠน์ง• (ex. Gender, Age.....) ๋“ค์„ ์†Œ์ˆ˜์  ์ˆซ์ž๋กœ ํ‘œํ˜„ํ•  ์ˆ˜ ์žˆ๊ฒŒ ํ•˜๋ฉด์„œ ๋ฒกํ„ฐ์˜ ํฌ๊ธฐ๋ฅผ ๊ณ ์ •๋˜๊ฒŒ ๋งŒ๋“ฆ 

 

 

  • ๋ฒกํ„ฐ ํฌ๊ธฐ๋ฅผ 300์œผ๋กœ ๊ณ ์ •์‹œํ‚จ๋‹ค๋ฉด, ํฌ๊ธฐ๊ฐ€ 300์ธ ๋ฒกํ„ฐ์— ์ˆซ์ž ๊ฐ’์ด ์กด์žฌํ•˜๊ฒŒ ๋œ๋‹ค. 
  • ๋ฒกํ„ฐ๋ฅผ ์ƒ์„ฑํ•˜๋Š” ๊ณผ์ •์€ feature extraction ์œผ๋กœ ๋ณผ ์ˆ˜ ์žˆ์œผ๋ฉฐ, ์œ„์˜ ์˜ˆ์ œ์™€ ๊ฐ™์€ ํŠน์„ฑ๋“ค์„ ๊ธฐ๊ณ„๊ฐ€ ํ•™์Šต์„ ํ†ตํ•ด ๋„์ถœํ•ด๋‚ธ๋‹ค.

 

 

 

2๏ธโƒฃ Word Embedding 


โ‘   Embedding table 

 

โ—ผ One-hot vector → (feature extraction) → Embeeding vector 

 

  • embeding table ์ด ์ฃผ์–ด์กŒ์„ ๋•Œ ์›ํ•ซ๋ฒกํ„ฐ์™€ ๊ณฑํ•ด์ง€๋Š” ๊ณผ์ •์„ ํ†ตํ•ด ํŠน์ • ๋‹จ์–ด์— ๋Œ€ํ•œ ์ž„๋ฒ ๋”ฉ ๋ฒกํ„ฐ๋ฅผ ์ƒ์„ฑํ•œ๋‹ค 
  • ์ž„๋ฒ ๋”ฉ ํ…Œ์ด๋ธ”์—์„œ ํŠน์ • ๋‹จ์–ด์™€ ๋Œ€์‘๋˜๋Š” ์ธ๋ฑ์Šค ์นผ๋Ÿผ์„ ๋ถˆ๋Ÿฌ์˜ค๋Š” ๊ณผ์ •์œผ๋กœ ์ž„๋ฒ ๋”ฉ ๋ฒกํ„ฐ๋ฅผ ์ƒ์„ฑํ•˜๊ธฐ ๋•Œ๋ฌธ์— embedding lookup ์ด๋ผ๊ณ ๋„ ๋ถ€๋ฅธ๋‹ค. 

 

โญ embedding table ๊ฐ’์€ ๊ธฐ๊ณ„ 'ํ•™์Šต'์„ ํ†ตํ•ด์„œ ์–ป๋Š”๋‹ค. (ex. Word2Vec)

 

 

 

 

 

โ‘ก Word2Vec

 

โญ embedding vector ๋ฅผ ๋„์ถœํ•˜๋Š” ๋ฐฉ๋ฒ• 

โญ key Idea : Distributional Hypothesis → ๊ฐ™์ด ๋ฐ˜๋ณตํ•ด์„œ ๋“ฑ์žฅํ•œ ๋‹จ์–ด์ผ์ˆ˜๋ก ์œ ์‚ฌ๋„๊ฐ€ ๋†’์„ ๊ฒƒ์ด๋ผ๋Š” ๊ฐ€์ • 

 

(1)  CBOW

 

 

โ—ผ window size ๋งŒํผ์˜ ์ฃผ๋ณ€ ๋‹จ์–ด๋ฅผ ๋ฐ”ํƒ•์œผ๋กœ ์ค‘์‹ฌ ๋‹จ์–ด๋ฅผ ์˜ˆ์ธกํ•˜๋Š” ๋ฐฉ์‹์œผ๋กœ embedding table ์„ ๋„์ถœํ•œ๋‹ค. (์ผ์ข…์˜ ์ง€๋„ํ•™์Šต ๋ฐฉ๋ฒ•) 

 

 

โ—ผ input : ์ฃผ๋ณ€ ๋‹จ์–ด์˜ ์›ํ•ซ๋ฒกํ„ฐ (์ฐจ์› |v| : vocab size) ๋“ค

 

๐Ÿ’จ input vector x W :๊ฐ  input vector ์— ๋Œ€ํ•ด ๊ฐ€์ค‘์น˜๋ฅผ ๊ณฑํ•˜์—ฌ ๊ตฌํ•œ ๋ฒกํ„ฐ V ์— ๋Œ€ํ•ด ํ‰๊ท ์„ ๋‚ด๋ ค M ๋ฒกํ„ฐ๋ฅผ ๋„์ถœํ•œ๋‹ค. 

๐Ÿ’จ output vector = M x W' : embedding vector M ๊ณผ ๋˜ ๋‹ค๋ฅธ ๊ฐ€์ค‘์น˜ ํ–‰๋ ฌ W' ๊ฐ’์„ ๊ณฑํ•˜์—ฌ ์ค‘์‹ฌ ๋‹จ์–ด ๋ฒกํ„ฐ๋ฅผ ์˜ˆ์ธกํ•œ๋‹ค. 

 

โ—ผ output : ์ค‘์‹ฌ ๋‹จ์–ด์˜ ์›ํ•ซ๋ฒกํ„ฐ

 

๐Ÿ‘‰ 2๊ฐœ์˜ weight matrix ๊ฐ€ ํ•™์Šต ๊ณผ์ •์—์„œ ๋„์ถœ๋˜๋Š”๋ฐ, ๋ณดํ†ต 2๊ฐœ์˜ W matrix ๋ฅผ ํ‰๊ท ํ•˜๊ฑฐ๋‚˜ ๋‘˜ ์ค‘ ํ•˜๋‚˜๋ฅผ ์„ ํƒํ•œ ๊ฒƒ์ด embedding table ์ด ๋œ๋‹ค. 

 

 

 

(2)  Skip-gram 

 

 

 

โ—ผ ์ฃผ๋ณ€ window ๋งŒํผ์˜ ๋‹จ์–ด๋ฅผ ์ค‘์‹ฌ ๋‹จ์–ด๋ฅผ ํ†ตํ•ด ์˜ˆ์ธกํ•œ๋‹ค. 

 

โ—ผ input : ์ค‘์‹ฌ ๋‹จ์–ด์˜ ์›ํ•ซ๋ฒกํ„ฐ, output : ์ฃผ๋ณ€ ๋‹จ์–ด์˜ ์›ํ•ซ๋ฒกํ„ฐ 

 

โ—ผ softmax ๊ฒฐ๊ณผ์™€ Ground truth ๊ฒฐ๊ณผ ์‚ฌ์ด์˜ ์˜ค์ฐจ๋ฅผ ๊ณ„์‚ฐํ•˜์—ฌ ๋„์ถœํ•œ gradient ๋กœ embedding table ์˜ embedding vector ์— ๋Œ€ํ•ด ์—…๋ฐ์ดํŠธ๋ฅผ ์ˆ˜ํ–‰ํ•œ๋‹ค. 

 

 

๐Ÿ’จ Negative sampling 

 

  • ๋‹จ์–ด์˜ ๊ฐœ์ˆ˜๊ฐ€ ๋งŽ์€ ๊ฒฝ์šฐ embedding table ์˜ ์ฐจ์›์ด ์ฆ๊ฐ€ํ•˜๋ฏ€๋กœ ๊ฐ’์„ ๋ชจ๋‘ ์—…๋ฐ์ดํŠธ ํ•˜๋Š” ๋ฐ ์žˆ์–ด cost ๊ฐ€ ์ฆ๊ฐ€ํ•˜๊ธฐ ๋•Œ๋ฌธ์— ์ด๋ฅผ ์ค„์ด๊ธฐ ์œ„ํ•ด negative sampling ์„ ์ง„ํ–‰ํ•œ๋‹ค. 
  • window size ์— ํ•ด๋‹น๋˜์ง€ ์•Š๋Š” ๋‹จ์–ด๋“ค์€ ๊ด€๋ จ์„ฑ์ด ์ ์„ ๊ฒƒ์ด๋ผ๋Š” ํŒ๋‹จ ์•„๋ž˜์—, ๊ทธ์— ํ•ด๋‹น๋˜๋Š” ์ž„๋ฒ ๋”ฉ ๋ฒกํ„ฐ๋ฅผ ์—…๋ฐ์ดํŠธ ํ•˜๋Š” ๊ฒƒ์€ ๋น„ํšจ์œจ์ ์ด๋ฏ€๋กœ, ์œˆ๋„์šฐ ์‚ฌ์ด์ฆˆ ์™ธ์— ์žˆ๋Š” ์ž„๋ฒ ๋”ฉ ๋ฒกํ„ฐ ์ค‘ ๋žœ๋คํ•˜๊ฒŒ ๋ฝ‘์€ ์ƒ˜ํ”Œ๋“ค์— ๋Œ€ํ•ด์„œ ์ž„๋ฒ ๋”ฉ ๋ฒกํ„ฐ์˜ ์—…๋ฐ์ดํŠธ๋ฅผ ์ˆ˜ํ–‰
  • positive sample : ์œˆ๋„์šฐ ํฌ๊ธฐ์— ํ•ด๋‹น๋˜๋Š” ๋ฒกํ„ฐ
  • negative sample : ๋žœ๋คํ•˜๊ฒŒ ๋ฝ‘์€ ๋‹จ์–ด ๋ฒกํ„ฐ 
  • positive, negative label ์˜ classification ๋ฌธ์ œ๊ฐ€ ๋œ๋‹ค. 

 

 

โ—ผ ์ ์€ ๊ฐœ์ˆ˜์˜ input ์— ๋น„ํ•ด update ๋˜๋Š” ๋ถ€๋ถ„์ด ๋งŽ๊ธฐ ๋•Œ๋ฌธ์— (์ ์€ ๊ฐœ์ˆ˜์˜ input ์œผ๋กœ ๋งŽ์€ output ์„ ์˜ˆ์ธกํ•˜๋Š” ๊ผด) CBOW ๋ณด๋‹ค ์„ฑ๋Šฅ์ด ์ข‹์•„ skip-gram ๋ฐฉ์‹์ด ๋งŽ์ด ์‚ฌ์šฉ๋œ๋‹ค. 

 

 

 

(3)  Property of Word Embedding 

 

โ—ผ language model ์—์„œ ๋ถ„ํฌ ๊ฐ€์ •์— ๊ธฐ๋ฐ˜ํ•œ word embedding ๋ฐฉ๋ฒ•์€ ๊ต‰์žฅํžˆ ์ค‘์š”ํ•˜๋‹ค. 

โ—ผ ๋‹ค๋ฅธ ๋‹จ์–ด์˜ ์œ ์‚ฌ๋„๋ฅผ ํ†ตํ•ด ์ƒˆ๋กœ์šด ๋‹จ์–ด๋ฅผ ์˜ˆ์ธกํ•  ์ˆ˜ ์žˆ๋‹ค → language model ์— ์ ์ ˆํ•œ ํ‘œํ˜„๋ฐฉ์‹ 

 

 

์œ ์‚ฌ๋„๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ king ์ด๋ผ๋Š” ๋‹จ์–ด๋ฅผ ํ†ตํ•ด queen ์ด๋ผ๋Š” ๋‹จ์–ด๋ฅผ ์œ ์ถ”ํ•  ์ˆ˜ ์žˆ๊ฒŒ ๋จ

 

 

 

โ‘ข Pretrained Word embedding 

 

 

 

โ—ผ word embedding ์— ํ•„์š”ํ•œ embedding table ์„ ํ›ˆ๋ จํ•˜๋Š” ๊ฒƒ์€, ๋‹จ์–ด๊ฐ€ ๋งŽ์„์ˆ˜๋ก ํ–‰๋ ฌ ์ฐจ์›์ด ๋งค์šฐ ํฌ๊ธฐ ๋•Œ๋ฌธ์— ๊ฝค๋‚˜ ์‹œ๊ฐ„์ด ์˜ค๋ž˜๊ฑธ๋ฆฐ๋‹ค. 

โ—ผ ๋”ฐ๋ผ์„œ ๋ฏธ๋ฆฌ ๋งŒ๋“ค์–ด๋†“์€ embedding table , "pre-trained word embedding" ์„ ์‚ฌ์šฉํ•œ๋‹ค. 

โ—ผ Transfer learning : ๋ฏธ๋ฆฌ ์ƒ์„ฑํ•œ embedding table์„ ์‚ฌ์šฉํ•˜๋Š” ๊ฒƒ 

 

 

 

 

 

3๏ธโƒฃ Machine Translation  


โ‘   Conditional Language model  : Translation

 

โ—ผ language model : ์–ด๋– ํ•œ ๋‹จ์–ด๊ฐ€ ์ž…๋ ฅ๋˜์—ˆ์„ ๋•Œ ๊ทธ ๋‹ค์Œ์— ๋“ฑ์žฅํ•  ๋‹จ์–ด๋ฅผ ์˜ˆ์ธก 

 

 

โ—ผ machine translation (Seq2Seq) : conditional language model ๋กœ ์–ด๋– ํ•œ ๋ฌธ์žฅ์ด ์ฃผ์–ด์กŒ์„ ๋•Œ (์กฐ๊ฑด๋ถ€) ๊ทธ์— ๊ฑธ๋งž๋Š” ๋ฒˆ์—ญ๋œ ๋‹จ์–ด๊ฐ€ ๋“ฑ์žฅํ•  ํ™•๋ฅ ์„ ๋ชจ๋ธ๋ง ํ•˜๋Š” task ์ด๋‹ค. 

 

 

 

 

โ‘ก ๊ฐ€์žฅ ์ข‹์€ ๋ฒˆ์—ญ ๊ฒฐ๊ณผ ์ฐพ๊ธฐ 

 

(1)  Probability 

 

โ—ผ ๊ฐ€์žฅ ์ข‹์€ ๋ฒˆ์—ญ ๊ฒฐ๊ณผ๋ฅผ ์–ป๊ธฐ ์œ„ํ•ด์„  ๊ฐ€์žฅ ํ™•๋ฅ ์ด ๋†’์€ ๋‹จ์–ด์˜ ์กฐํ•ฉ์„ ์ฐพ๋Š”๋‹ค.

 

 

 

(2)  Greedy Search

 

โ—ผ ๊ฐ step ๋ณ„๋กœ ๊ฐ€์žฅ ๋†’์€ ํ™•๋ฅ ์„ ๊ฐ€์ง„ output ์„ ๋‚ด๋Š” ๋ฐฉ๋ฒ• (huristic method) 

 

 

  • ๊ฐ step ๋ณ„๋กœ 1๋งŒ๋ฒˆ์”ฉ search ๋ฅผ ํ•˜์—ฌ ๊ฐ€์žฅ ๋†’์€ ํ™•๋ฅ ์— ํ•ด๋‹นํ•˜๋Š” ๋‹จ์–ด๋ฅผ ๋„์ถœํ•˜๋Š” ๋ฐฉ๋ฒ•์œผ๋กœ, ์†๋„๊ฐ€ ๋น ๋ฅด์ง€๋งŒ greedy ํ•˜๊ฒŒ ํƒ์ƒ‰ํ•˜๋Š” ๋ฐฉ๋ฒ•์ด๊ธฐ ๋•Œ๋ฌธ์— ์ตœ๊ณ ์˜ ๊ฒฐ๋ก ์€ ์•„๋‹ ์ˆ˜ ์žˆ๋‹ค. ์ฆ‰, ์‹ค์ œ ์–ป๊ณ ์ž ํ–ˆ๋˜ ๋ฒˆ์—ญ ๊ฒฐ๊ณผ์— ์ž˜ ๋งž์ง€ ์•Š๋Š” ๊ฒฐ๊ณผ๊ฐ€ ๋„์ถœ ๋  ์ˆ˜๋„ ์žˆ๋‹ค. 

 

 

 

 

(3)  Beam Search 

 

โ—ผ greedy search ๋‹จ์ ์„ ๋ณด์™„ํ•˜์—ฌ ๋“ฑ์žฅํ•œ ํƒ์ƒ‰ ๋ฐฉ๋ฒ•์œผ๋กœ, greedy search ๋Š” ๊ฐ step ์—์„œ ๊ฐ€์žฅ ํฐ ํ™•๋ฅ  ๊ฐ’์„ ๊ฐ€์ง„ ํ•˜๋‚˜์˜ ๊ฐ’๋งŒ ๊ณ ๋ คํ–ˆ๋‹ค๋ฉด beam search ์—์„œ๋Š” ๊ฐ€์žฅ ๋†’์€ ํ™•๋ฅ ์„ k ๊ฐœ ๊ฐ€์ ธ์˜จ๋‹ค. 

 

โ—ผ greedy searh ๋ณด๋‹จ ์ข€ ๋” ๋งŽ์€ ๊ฒฝ์šฐ์˜ ์ˆ˜๋ฅผ ๊ณ ๋ คํ•˜๋ฏ€๋กœ ๋ฒˆ์—ญ์˜ ์งˆ์ด ์˜ฌ๋ผ๊ฐ„๋‹ค. 

 

โ—ผ k = beam size 

 

 

→ k=2 ์ด๋ฉด ๊ฐ step ๋งˆ๋‹ค ๊ฐ€์žฅ ๋†’์€ ํ™•๋ฅ  ๊ฒฐ๊ณผ๋ฅผ 2๊ฐœ์”ฉ ๋„์ถœํ•ด๋‚ธ๋‹ค. 

 

 

โ‘ข Evaluation 

 

โญ ๋ฒˆ์—ญ์˜ ์งˆ์„ ์ •๋Ÿ‰์ ์œผ๋กœ ์ธก์ •(ํ‰๊ฐ€) ํ•˜๋Š” ๋ฐฉ๋ฒ• 

 

 

 

๐Ÿค” ๊ธฐ๊ณ„๊ฐ€ ๋ฒˆ์—ญํ•œ ๊ฒฐ๊ณผ ๋ฌธ์žฅ๊ณผ ์‚ฌ๋žŒ์ด ๋ฒˆ์—ญํ•œ G.T ๋ฌธ์žฅ ๊ฒฐ๊ณผ์˜ ์œ ์‚ฌ๋„๋ฅผ ์–ด๋–ป๊ฒŒ ์ •๋Ÿ‰์ ์œผ๋กœ ์ธก์ •ํ•  ์ˆ˜ ์žˆ์„๊นŒ

 

 

(1)  Unigram precision

 

โ—ผ ๊ธฐ๊ณ„๋ฒˆ์—ญ๋œ ๋ฌธ์žฅ์—์„œ ํŠน์ • ๋‹จ์–ด๊ฐ€ ์ •๋‹ต reference ํ›„๋ณด ๋ฌธ์žฅ์—์„œ ๋“ฑ์žฅํ–ˆ๋Š”์ง€ ์—ฌ๋ถ€๋ฅผ ์„ธ์–ด๋ณธ๋‹ค. 

 

 

โญ unigram precision = (reference ๋ฌธ์žฅ๋“ค์— ์กด์žฌํ•˜๋Š” ํ›„๋ณด ๋ฌธ์žฅ ๋‹จ์–ด์˜ ๊ฐœ์ˆ˜) / (ํ›„๋ณด ๋ฌธ์žฅ์— ๋ณธ์žฌํ•˜๋Š” ์ด ๋‹จ์–ด ๊ฐœ์ˆ˜)

 

 

 

(2)  Modified Unigram precision 

 

โ—ผ unigram precision ์˜ ์น˜๋ช…์ ์ธ ๋‹จ์  

 

 

โ—ผ ๋”ฐ๋ผ์„œ ์ค‘๋ณตํ•ด์„œ count ๋˜๋Š” ๊ฒƒ์„ ์—†์• ์ฃผ๋Š” ๋ฐฉ๋ฒ•์œผ๋กœ modified unigram precision ๋ฐฉ๋ฒ•์ด ๋“ฑ์žฅํ–ˆ๋‹ค. 

 

 

โญ Count_clip = min(Count, Max_Ref_Count) 

 

  • Count : ํ•ด๋‹น๋˜๋Š” unigram ๊ฐœ์ˆ˜ ๐Ÿ‘‰ candidate ๋ฌธ์žฅ์—์„œ ๋“ฑ์žฅํ•œ the ์˜ ๊ฐœ์ˆ˜๋Š” 7
  • Max_Ref_Count : unigram ์ด ํ•˜๋‚˜์˜ reference ์— ๋“ฑ์žฅํ•œ ์ตœ๋Œ€ ๊ฐœ์ˆ˜ ๐Ÿ‘‰ reference1 ์— 'the' ๋ผ๋Š” ๋‹จ์–ด๊ฐ€ 2๋ฒˆ, reference2 ์—์„œ๋Š” 1๋ฒˆ ๋“ฑ์žฅํ–ˆ์œผ๋ฏ€๋กœ ์ตœ๋Œ€ 2๋ฒˆ ๋“ฑ์žฅ 
  • Count_clip(the) = min(7,2) = 2

 

โญ modified unigram precision = Sum (Count_clip(unigram)) / Sum(Count(unigram)) 

 

  • candidate ๋ฌธ์žฅ์˜ ๊ฐ (์ค‘๋ณต๋˜์ง€ ์•Š๋Š” ๊ณ ์œ ์˜) ๋‹จ์–ด unigram ๋ณ„๋กœ, Count_clip ๋ฅผ ๊ตฌํ•ด์„œ ๋ชจ๋‘ ๋”ํ•œ ๊ฐ’๊ณผ, Count ๋ฅผ ๊ตฌํ•ด์„œ ๋”ํ•œ ๊ฐ’์„ ๋‚˜๋ˆ„์–ด ์ฃผ๋ฉด ๋จ โ—โ— ์ฃผ์˜ โ—โ—
  • ํ•ด๋‹น Candidate ๋ฌธ์žฅ์—๋Š” ๊ตฌ๋ถ„๋˜๋Š” unigram ๋‹จ์–ด๊ฐ€ 'the' ๋ฟ์ด๋ฏ€๋กœ Count_clip(the) / Count(the) ๋ฅผ ๊ณ„์‚ฐํ•˜๋ฉด ๋จ 
  • Count(the) ๋Š” candidate ๋ฌธ์žฅ ๋‚ด์— the ๊ฐ€ 7๋ฒˆ ๋“ฑ์žฅํ•˜๋ฏ€๋กœ 7 ์ด๊ณ  Count_clip(the) ๋Š” ์œ„์—์„œ ๊ตฌํ•œ 2์ด๋ฏ€๋กœ 2/7์ด ์ •๋‹ต

 

 

(3)  Modified n-gram precision 

 

โ—ผ Unigram ๋งŒ ๋ณด๋ฉด ๋‹จ์–ด์˜ ์ˆœ์„œ๊ฐ€ ์ „ํ˜€ ๊ณ ๋ ค๋˜์ง€ ์•Š๊ธฐ ๋•Œ๋ฌธ์— N-gram precision ๋ฐฉ์‹์„ ์‚ฌ์šฉํ•œ๋‹ค. 

 

 

 

โญ ๊ผญ ์†์œผ๋กœ ์ง์ ‘ ๊ณ„์‚ฐํ•ด๋ณผ๊ฒƒ! 

 

 

 

(4)  BLEU

 

โ—ผ bilingual evaluation understudy 

โ—ผ ๊ธฐ๊ณ„๋ฒˆ์—ญ์˜ ์ •๋Ÿ‰์  ์งˆ์„ ํŒ๋‹จํ•  ์ˆ˜ ์žˆ๋Š” metric 

 

 

 

โ—ผ Wn : n-gram precision ๋ณ„๋กœ ๋‹ค๋ฅด๊ฒŒ ๊ฐ€์ค‘์น˜๋ฅผ ๋ถ€์—ฌํ•œ๋‹ค. ๋งŒ์•ฝ N=4 ๋ผ๋ฉด unigram, biagram, trigram 4-gram ๋ณ„๋กœ ๊ฐ๊ฐ w1, w2, w3, w4 ์˜ ๊ฐ€์ค‘์น˜๋ฅผ ๋ถ€์—ฌํ•œ๋‹ค. ์ด๋•Œ ๊ฐ€์ค‘์น˜๋“ค์˜ ์ดํ•ฉ์€ 1์ด ๋˜๋„๋ก ํ•œ๋‹ค. 

 

โ—ผ Pn : modified n-gram score 

 

โ—ผ BP : ๋ฌธ์žฅ ๊ธธ์ด์— ๋Œ€ํ•œ ํŒจ๋„ํ‹ฐ ๊ฐ’์œผ๋กœ, ๋ฌธ์žฅ ๊ธธ์ด๊ฐ€ ์งง์€ ๊ฒฝ์šฐ ํŒจ๋„ํ‹ฐ๋ฅผ ๋ถ€์—ฌํ•œ๋‹ค. 

 

  • ๊ธฐ๊ณ„๋ฒˆ์—ญ์˜ ๊ฒฐ๊ณผ๊ฐ€ ์งง์„์ˆ˜๋ก n-gram precision ์ด ๋†’์•„์ง€๋Š” ๊ฒฝํ–ฅ์„ฑ์ด ์žˆ๋‹ค. 
  • ๋งŒ์•ฝ ํ›„๋ณด๋ฌธ์žฅ์˜ ๊ธธ์ด๊ฐ€ ์ฐธ์กฐ๋ฌธ์žฅ์˜ ๊ธธ์ด๋ณด๋‹ค ๊ธธ๋ฉด BP=1 ๋กœ ํŒจ๋„ํ‹ฐ๊ฐ€ ์—†๊ณ  
  • ํ›„๋ณด๋ฌธ์žฅ์˜ ๊ธธ์ด๊ฐ€ ์ฐธ์กฐ๋ฌธ์žฅ์˜ ๊ธธ์ด๋ณด๋‹ค ์งง์œผ๋ฉด ์ ์ˆ˜์— ๋Œ€ํ•œ ํŒจ๋„ํ‹ฐ๋ฅผ e^(r/c) ๋งŒํผ ๋ถ€์—ฌํ•œ๋‹ค. 
  • c : candidate ๋ฌธ์žฅ์˜ ๊ธธ์ด, r : reference ๋ฌธ์žฅ์˜ ๊ธธ์ด 

 

 

 

 

728x90

๋Œ“๊ธ€