๋ณธ๋ฌธ ๋ฐ”๋กœ๊ฐ€๊ธฐ
1๏ธโƒฃ AI•DS/๐Ÿ“— NLP

[cs224n] 14๊ฐ• ๊ฐ„๋‹จ ๋‚ด์šฉ์ •๋ฆฌ

by isdawell 2022. 7. 18.
728x90

 

๐Ÿ“Œ ํ•ต์‹ฌ 

 

  • Task : Transformer, Self - Attention 

 

 

 

 

 

โœ… Self Attention 


 

๐Ÿ”น Seq2Seq learning

 

  • NMT, QA, Summarization 
  • ๊ฐ€๋ณ€ ๊ธธ์ด์˜ data ๋ฅผ ๊ณ ์ • ํฌ๊ธฐ์˜ vector ๋˜๋Š” matrix ๋กœ ํ‘œํ˜„ํ•˜๋Š” ๊ณผ์ •์ด ํ•„์ˆ˜์   

 

 

 

 

๐Ÿ”น ๊ธฐ์กด RNN ๊ณ„์—ด ๋ชจ๋ธ์˜ ํ•œ๊ณ„์  

 

  • RNN ๊ณ„์—ด์˜ ๋ชจ๋ธ์€ ๋ณ‘๋ ฌํ™”๊ฐ€ ๋ถˆ๊ฐ€๋Šฅ 
  • long-term dependency ๋ฅผ ์ž˜ ๋ฐ˜์˜ํ•˜์ง€ ๋ชปํ•จ : LSTM, GRU ๋„ ์ž…๋ ฅ ์‹œํ€€์Šค๊ฐ€ ๊ต‰์žฅํžˆ ๊ธด ๊ฒฝ์šฐ์— ์ด๋ฅผ ์ž˜ ๋ฐ˜์˜ํ•˜์ง€ ๋ชปํ•จ 

 

 

 

 

 

๐Ÿ”น CNN ๋ชจ๋ธ์˜ ํ•œ๊ณ„์  

 

  • CNN ์€ ๋ณ‘๋ ฌ ์ฒ˜๋ฆฌ๊ฐ€ ๊ฐ€๋Šฅํ•˜์ง€๋งŒ long-term dependency ๋ฅผ ์œ„ํ•ด ๋‹ค์ˆ˜์˜ ๋ ˆ์ด์–ด๊ฐ€ ํ•„์š”ํ•˜๋‹ค 

 

 

 

๐Ÿ”น Self attention 

 

  • ๋ณ‘๋ ฌํ™”๊ฐ€ ๊ฐ€๋Šฅํ•˜๊ณ  ๊ฐ ํ† ํฐ์ด ์ตœ๋‹จ๊ฑฐ๋ฆฌ๋กœ ์—ฐ๊ฒฐ๋˜๊ธฐ ๋•Œ๋ฌธ์— long-term dependency ๋ฌธ์ œ ํ•ด๊ฒฐ๋„ ๊ฐ€๋Šฅํ•˜๋‹ค.
  • LSTM, RNN ๊ฐ™์ด learning mechanism ์œผ๋กœ ๋‹ค์–‘ํ•œ ๋ชจ๋ธ์— ํ™œ์šฉ๋  ์ˆ˜ ์žˆ๋‹ค. 

 

 

 

 

  • ๋ชจ๋ธ์˜ ์ฐจ์›์ด ์ž…๋ ฅ ์‹œํ€€์Šค ๊ธธ์ด๋ณด๋‹ค ํฐ ๊ฒฝ์šฐ๊ฐ€ ๋งŽ๊ธฐ ๋•Œ๋ฌธ์— ์ผ๋ฐ˜์ ์œผ๋กœ self-attention ์˜ ์—ฐ์‚ฐ๋Ÿ‰์ด ๊ฐ€์žฅ ์ž‘๋‹ค

 

 

 

โญ Self attention ์€ ๊ฐ ํ† ํฐ์„ sequence ๋‚ด ๋ชจ๋“  ํ† ํฐ๊ณผ์˜ ์—ฐ๊ด€์„ฑ์„ ๊ธฐ๋ฐ˜์œผ๋กœ ์žฌํ‘œํ˜„ ํ•˜๋Š” ๊ณผ์ •์œผ๋กœ ํ•ด์„ํ•  ์ˆ˜ ์žˆ๋‹ค.

 

 

 

 

๐Ÿ”น Self attention Process 

 

 

โ‘  Input ์„ linear transformation ํ•˜์—ฌ query, key, value ์ƒ์„ฑ 

 

 

 

 

โ‘ก Query ์™€ key pair ์˜ dot product ๊ณ„์‚ฐ 

 

 

 

โ‘ข Scaling ์ ์šฉ : sclaed dot product attention 

 

  •  attention score ๋“ค์„ ๋ณด๋‹ค ๋‹ค์–‘ํ•œ ๋ฒกํ„ฐ์— ๋ถ„์‚ฐ์‹œํ‚ค๋Š” ํšจ๊ณผ
  • ์Šค์ผ€์ผ๋ง์„ ํ•˜์ง€ ์•Š์œผ๋ฉด score ๋“ค์˜ ๋ถ„์‚ฐ์ด ์ปค์ ธ์„œ gradient ์ „ํŒŒ๊ฐ€ ์ž˜ ์•ˆ์ด๋ฃจ์–ด์งˆ ์ˆ˜ ์žˆ๋‹ค. gradient ์ „ํŒŒ ๊ฐ€ ์ž˜ ์ด๋ฃจ์–ด์ ธ ๋‹ค์–‘ํ•œ ๋ฒกํ„ฐ๋“ค์˜ ์ •๋ณด๋“ค์„ ์ž˜ ์ˆ˜ํ•ฉํ•  ์ˆ˜ ์žˆ๋„๋ก ํ•ด์•ผ ํ•œ๋‹ค.

 

 

 

 

 

โ‘ฃ Softmax function ์ ์šฉ 

 

 

 

 

โ‘ค Softmax output ์„ weight ๋กœ value vector ๋“ค์˜ weighted sum ์„ ์‚ฐ์ถœ 

 

 

 

 

 

 

 

๐Ÿ”น Self Head Attention 

 

  • ํ•œ ๋ฌธ์žฅ ๋‚ด์—๋„ ๋‹ค์–‘ํ•œ ์ •๋ณด๊ฐ€ ์กด์žฌํ•˜๋ฉฐ ํ•œ ๋ฒˆ์˜ attention ์œผ๋กœ ๋ชจ๋“  ์ •๋ณด๋ฅผ ์ ์ ˆํžˆ ๋ฐ˜์˜ํ•˜๊ธฐ ์–ด๋ ต๊ธฐ ๋•Œ๋ฌธ์—, ๋‹ค์–‘ํ•œ attention weight ๋ฅผ ํ†ตํ•ด ๊ฐ’์„ ์–ป๋Š”๋‹ค. 
  • ์„œ๋กœ ๋‹ค๋ฅธ scaled dot product attention ์„ ใ…‡๋Ÿฌ๋ฒˆ ์ ์šฉํ•˜์—ฌ concat ํ•œ๋‹ค. 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

โœ… Transformer 


 

๐Ÿ”น ๊ตฌ์กฐ 

 

 

  • Encoder self attention : Encoder input ์˜ learned representation ์‚ฐ์ถœ 
  • Decoder self attention : Decoder input ์˜ learned representation ์‚ฐ์ถœ 
  • Encoder - Decoder attention : Encoder output ๊ณผ decoder input ์˜ ์—ฐ๊ด€์„ฑ์„ ๋ฐ˜์˜ํ•œ representation ์„ ์‚ฐ์ถœ 

 

 

 

 

๐Ÿ”น Image Transformer 

 

 

 

๐Ÿ”น Music Transformer 

 

 

 

 

 

728x90

'1๏ธโƒฃ AIโ€ขDS > ๐Ÿ“— NLP' ์นดํ…Œ๊ณ ๋ฆฌ์˜ ๋‹ค๋ฅธ ๊ธ€

[cs224n] Future NLP (2021 version)  (0) 2022.07.18
[cs224n] 18๊ฐ• ๋‚ด์šฉ์ •๋ฆฌ  (0) 2022.07.18
[cs224n] 15๊ฐ• ๋‚ด์šฉ์ •๋ฆฌ  (0) 2022.07.04
[cs224n] 13๊ฐ• ๋‚ด์šฉ์ •๋ฆฌ  (0) 2022.07.04
NER ์‹ค์Šต  (0) 2022.06.02

๋Œ“๊ธ€