๋ณธ๋ฌธ ๋ฐ”๋กœ๊ฐ€๊ธฐ
1๏ธโƒฃ AI•DS/๐ŸŒ LLM

[์ฑ…์Šคํ„ฐ๋””] 7. ๋ชจ๋ธ ๊ฐ€๋ณ๊ฒŒ ๋งŒ๋“ค๊ธฐ

by isdawell 2025. 8. 23.
728x90
๐Ÿ“ ๋ชจ๋ธ ์ถ”๋ก  ํšจ์œจํ™”๋ฅผ ์œ„ํ•ด ๋ชจ๋ธ ์šฉ๋Ÿ‰์„ ์ค„์ด๋Š” ๋ฒ• 

1. KV์บ์‹œ, ๋ฉ€ํ‹ฐ์ฟผ๋ฆฌ์–ดํ…์…˜, ๊ทธ๋ฃน์ฟผ๋ฆฌ์–ดํ…์…˜
2. ์–‘์žํ™” 
3. ์ง€์‹์ฆ๋ฅ˜

 

 

 

1.   ์–ธ์–ด๋ชจ๋ธ ์ถ”๋ก  ์ดํ•ดํ•˜๊ธฐ 


 

1.1   ์–ธ์–ด๋ชจ๋ธ์ด ์–ธ์–ด๋ฅผ ์ƒ์„ฑํ•˜๋Š” ๋ฐฉ๋ฒ•

 

โ  ์–ธ์–ด๋ชจ๋ธ์˜ ์ž๊ธฐํšŒ๊ท€์  ํŠน์„ฑ

 โ†ช๏ธŽ  ์–ธ์–ด๋ชจ๋ธ์€ ์ž…๋ ฅํ•œ ํ…์ŠคํŠธ ๋‹ค์Œ์— ์˜ฌ ํ† ํฐ์˜ ํ™•๋ฅ ์„ ๊ณ„์‚ฐํ•˜๊ณ  ๊ทธ์ค‘ ๊ฐ€์žฅ ํ™•๋ฅ ์ด ๋†’์€ ํ† ํฐ์„ ์ž…๋ ฅ ํ…์ŠคํŠธ์— ์ถ”๊ฐ€ํ•˜๋ฉด์„œ ํ•œ ํ† ํฐ์”ฉ ์ƒ์„ฑํ•œ๋‹ค. 

 

 

 

 

โ  ์–ธ์–ด๋ชจ๋ธ์˜ ์ถ”๋ก ๊ณผ์ •

 โ†ช๏ธŽ  1) ํ”„๋กฌํ”„ํŠธ๋ฅผ ์ฒ˜๋ฆฌํ•˜๋Š” ์‚ฌ์ „๊ณ„์‚ฐ๋‹จ๊ณ„(Prefill phase) : ์ž…๋ ฅ ํ”„๋กฌํ”„ํŠธ(ex. ๊ฒ€์€ ๊ณ ์–‘์ด๊ฐ€ ๋ฐฅ์„)๋Š” ํ•œ ๋ฒˆ์— ํ•˜๋‚˜์”ฉ ํ† ํฐ์„ ์ฒ˜๋ฆฌํ•  ํ•„์š” ์—†์ด ๋™์‹œ์— ๋ณ‘๋ ฌ์ฒ˜๋ฆฌ๊ฐ€ ๊ฐ€๋Šฅ 

 โ†ช๏ธŽ  2) ์ดํ›„์— ํ•œ ํ† ํฐ์”ฉ ๋’ค์ด์–ด ๋‹จ์–ด๋ฅผ ์ƒ์„ฑ(ex. ๋จน๊ณ ) ํ•˜๋Š” ๋””์ฝ”๋”ฉ ๋‹จ๊ณ„ (Decoding phase)

 โ†ช๏ธŽ  ์ด๋•Œ, ํ•œ ํ† ํฐ์”ฉ ์ƒˆ๋กœ ์ƒ์„ฑํ•  ๋•Œ, ์•ž์„  ๊ณผ์ •๊นŒ์ง€ ์ƒ์„ฑ๋œ ๋™์ผํ•œ ํ† ํฐ์ด ์ค‘๋ณต ๋ฐ ๋ฐ˜๋ณตํ•ด์„œ ์ž…๋ ฅ๋˜๋Š” ๊ตฌ์กฐ๊ฐ€ ๋˜๊ธฐ ๋•Œ๋ฌธ์— ๋น„ํšจ์œจ์ ์ด๊ฒŒ ๋  ์ˆ˜ ์žˆ๋‹ค. ๋”ฐ๋ผ์„œ ์ค‘๋ณต ์—ฐ์‚ฐ์„ ์ค„์ด๋Š” KV์บ์‹œ ๋ฐฉ๋ฒ•์„ ์‚ฌ์šฉํ•œ๋‹ค. 

 

 

 

 

 

1.2  ์ค‘๋ณต ์—ฐ์‚ฐ์„ ์ค„์ด๋Š” KV์บ์‹œ 

 

โ  [๋ณต์Šต] Self attention : key, value, query 

โ†ช๏ธŽ  (key, value, query) : ๊ฐ™์€ ํ† ํฐ ์ž„๋ฒ ๋”ฉ์—์„œ ์„œ๋กœ ๋‹ค๋ฅธ ์„ ํ˜•๋ณ€ํ™˜์„ ๊ฑฐ์ณ ๋งŒ๋“  ์„ธ ์Œ

๋™์ผ ํ† ํฐ ํ–‰๋ ฌ X๋ฅผ ํ™œ์šฉ & ๊ฐ€์ค‘์น˜๋Š” ๋‹ค๋ฅด๊ฒŒ

 

Q, K, V ์ƒ์„ฑ ๊ตฌ์กฐ ๋ฐ Self-attention ์˜ˆ์‹œ ์„ค๋ช…

 

 

 

โ†ช๏ธŽ  Key-Value ์บ์‹œ : ์…€ํ”„ ์–ดํ…์…˜ ์—ฐ์‚ฐ ๊ณผ์ •์—์„œ ๋™์ผํ•œ ์ž…๋ ฅ ํ† ํฐ์— ๋Œ€ํ•ด ์ค‘๋ณต ๊ณ„์‚ฐ์ด ๋ฐœ์ƒํ•˜๋Š” ๋น„ํšจ์œจ์„ ์ค„์ด๊ธฐ ์œ„ํ•ด ๋จผ์ € ๊ณ„์‚ฐํ–ˆ๋˜ Key Value ๊ณ„์‚ฐ ๊ฒฐ๊ณผ๋ฅผ ๋ฉ”๋ชจ๋ฆฌ์— ์ €์žฅํ•ด ํ™œ์šฉํ•˜๋Š” ๋ฐฉ๋ฒ• 

 

(Machine learning is fun)๋ฅผ ์ƒ์„ฑํ•˜๊ณ  ๋‹ค์Œ ํ† ํฐ์„ ์˜ˆ์ธกํ•˜๋Š” ๊ฒƒ์„ ์ˆ˜ํ–‰ํ•  ๋•Œ, Machine Learning is ์— ๋Œ€ํ•œ ๋ถ€๋ถ„์€ KV์บ์‹œ์—์„œ ๊ณ„์‚ฐ ๊ฒฐ๊ณผ๋ฅผ ๊ฐ€์ ธ์™€ ์‚ฌ์šฉํ•˜๊ณ , ์ƒˆ๋กœ์šด ํ† ํฐ์ธ fun์— ๋Œ€ํ•œ ๋ถ€๋ถ„๋งŒ ์ƒˆ๋กญ๊ฒŒ ์—ฐ์‚ฐํ•œ๋‹ค.

 

 

 

โ  KV์บ์‹œ๋ฅผ ์‚ฌ์šฉํ•˜๋Š” ๊ฒฝ์šฐ GPU๋ฉ”๋ชจ๋ฆฌ๋ฅผ ์ฐจ์ง€ํ•˜๋Š” ๋ฐ์ดํ„ฐ 

 

 

โ   KV์บ์‹œ๋ฉ”๋ชจ๋ฆฌ = 2๋ฐ”์ดํŠธ(fp16 ํ˜•์‹ ์‚ฌ์šฉ) x 2(Key, Value) x Layer ์ˆ˜ x ํ† ํฐ ์ž„๋ฒ ๋”ฉ ์ฐจ์› x ์ตœ๋Œ€ ์‹œํ€€์Šค ๊ธธ์ด x ๋ฐฐ์น˜ ํฌ๊ธฐ

โ˜‡  ๋ ˆ์ด์–ด ์ˆ˜ : ์…€ํ”„ ์–ดํ…์…˜ ๊ฒฐ๊ณผ์˜ ๋ ˆ์ด์–ด ์ˆ˜

โ˜‡  ์ตœ๋Œ€ ์‹œํ€€์Šค ๊ธธ์ด๋งŒํผ์˜ ๋ฉ”๋ชจ๋ฆฌ ํ™•๋ณด 

โ˜‡  ๋ฐฐ์น˜ํฌ๊ธฐ๊ฐ€ ์ปค์งˆ์ˆ˜๋ก ์ €์žฅํ•˜๋Š” ๋ฐ์ดํ„ฐ๊ฐ€ ๋งŽ์•„์ง 

 

 

 

1.3  GPU ๊ตฌ์กฐ์™€ ์ตœ์ ์˜ ๋ฐฐ์น˜ํฌ๊ธฐ 

 

 

โ  ํšจ์œจ์ ์ธ ์„œ๋น™์˜ ๊ธฐ์ค€ 

โ†ช๏ธŽ  1) ์ฒ˜๋ฆฌ๋Ÿ‰ : ์‹œ๊ฐ„ ๋‹น ์ฒ˜๋ฆฌํ•œ ์š”์ฒญ ์ˆ˜ (query/s)

โ†ช๏ธŽ  2) ์ง€์—ฐ์‹œ๊ฐ„ : ํ•˜๋‚˜์˜ ํ† ํฐ์„ ์ƒ์„ฑํ•˜๋Š”๋ฐ ๊ฑธ๋ฆฌ๋Š” ์‹œ๊ฐ„ (token/s) 

โ†ช๏ธŽ  ์ ์€ ๋น„์šฉ์œผ๋กœ ๋” ๋งŽ์€ ์š”์ฒญ์„ ์ฒ˜๋ฆฌํ•˜๋ฉด์„œ ์ƒ์„ฑํ•œ ๋‹ค์Œ ํ† ํฐ์„ ๋น ๋ฅด๊ฒŒ ์ „๋‹ฌํ•œ๋‹ค๋ฉด ํšจ์œจ์ ์ธ ์„œ๋น™์ด๋ผ ํ•  ์ˆ˜ ์žˆ์Œ, ๊ฐ™์€ GPU๋กœ ์ฒ˜๋ฆฌ๋Ÿ‰์„ ๋†’์ด๊ณ  ์ง€์—ฐ์‹œ๊ฐ„์„ ๋‚ฎ์ถ”์–ด์•ผ ํ•จ 

 

 

โ  GPU๊ตฌ์กฐ 

 

โ†ช๏ธŽ  ํ•˜๋‚˜์˜ GPU๋Š” ์—ฌ๋Ÿฌ ์ŠคํŠธ๋ฆฌ๋ฐ ๋ฉ€ํ‹ฐํ”„๋กœ์„ธ์„œ(SM)์œผ๋กœ ๊ตฌ์„ฑ๋˜๊ณ , ๊ฐ SM์€ ์—ฐ์‚ฐ์„ ์ˆ˜ํ–‰ํ•˜๋Š” ๋ถ€๋ถ„ (Compute)์™€ ๊ณ„์‚ฐํ•  ๊ฐ’์„ ์ €์žฅํ•˜๋Š” SRAM์œผ๋กœ ๊ตฌ์„ฑ๋œ๋‹ค. ์—ฐ์‚ฐ์„ ์ˆ˜ํ–‰ํ•˜๋Š” ๋ถ€๋ถ„๊ณผ ๊ฐ€๊นŒ์šด SRAM์€ ํฐ ๋ฉ”๋ชจ๋ฆฌ๋ฅผ ๊ฐ€์ง€๊ธฐ ์–ด๋ ค์›Œ ํฐ ๊ณ ๋Œ€์—ญํญ ๋ฉ”๋ชจ๋ฆฌ (HBM)์— ํฐ ๋ฐ์ดํ„ฐ๋ฅผ ์ €์žฅํ•œ๋‹ค. HBM์ด ํ”ํžˆ ๋งํ•˜๋Š” GPU ๋ฉ”๋ชจ๋ฆฌ์˜ ๊ธฐ์ค€์ด๋‹ค. 

 

 

โ  ๋ฐฐ์น˜ ์ถ”๋ก  (๋ฌธ์žฅ ์—ฌ๋Ÿฌ๊ฐœ๋ฅผ ํ•œ ๋ฒˆ์— ๋ชจ๋ธ์— ๋„ฃ๊ธฐ)

๊ธธ์ด๊ฐ€ ์„œ๋กœ ๋‹ค๋ฅธ ์ž…๋ ฅ ๋ฐ์ดํ„ฐ์˜ ๋ฐฐ์น˜์ถ”๋ก 

 

โ†ช๏ธŽ  ์ถ”๋ก ์„ ์ˆ˜ํ–‰ํ•  ๋•Œ, ๋ฐฐ์น˜ํฌ๊ธฐ๋งŒํผ์˜ ํ† ํฐ์„ ํ•œ๋ฒˆ์— ์ƒ์„ฑํ•œ๋‹ค. ์ž…๋ ฅ๋ฐฐ์น˜์˜ ๊ฐ ๋ฌธ์žฅ(S)๋Š” ๊ธธ์ด๊ฐ€ ์„œ๋กœ ๋‹ค๋ฅธ๋ฐ, ์ถ”๋ก ์„ ์ˆ˜ํ–‰ํ•˜๋ฉด ๊ฐ ํ”„๋กฌํ”„ํŠธ ํ† ํฐ (๋…ธ๋ž€์ƒ‰) ๋’ค๋กœ ์ƒˆ๋กญ๊ฒŒ ์ƒ์„ฑํ•œ ํ† ํฐ (ํŒŒ๋ž€์ƒ‰)์ด ๋”ํ•ด์ง„๋‹ค. KV์บ์‹œ๋ฅผ ํ™œ์šฉํ•˜๋ฉด ๋…ธ๋ž€์ƒ‰์€ ์บ์‹œ์—์„œ ๊ฐ€์ ธ์˜ค๊ณ  ํŒŒ๋ž€์ƒ‰ ๋ถ€๋ถ„๋งŒ ์‹ค์ œ ๊ณ„์‚ฐํ•œ๋‹ค. 

 

 

โ†ช๏ธŽ  ๋ชจ๋ธ ์ถ”๋ก  ๊ณผ์ •์—์„œ 1) ๋ฐฐ์น˜์ฒ˜๋ฆฌ ์—ฐ์‚ฐ์— ๊ฑธ๋ฆฌ๋Š” ์‹œ๊ฐ„๊ณผ, 2) ๋ชจ๋ธ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ๊ณ ๋Œ€์—ญํญ ๋ฉ”๋ชจ๋ฆฌ HBM์—์„œ SRAM์œผ๋กœ ์ด๋™์‹œํ‚ค๋Š” ๋ฐ ๊ฑธ๋ฆฌ๋Š” ์‹œ๊ฐ„์ด์žˆ๋‹ค. x์ถ•์ด ๋ฐฐ์น˜ํฌ๊ธฐ, y์ถ•์ด ์‹œ๊ฐ„์ด๋ผ๊ณ  ํ–ˆ์„ ๋•Œ, ๋ฐฐ์น˜ํฌ๊ธฐ๊ฐ€ ์ปค์ง€๋ฉด ์—ฐ์‚ฐ์— ํ•„์š”ํ•œ ์‹œ๊ฐ„์€ ์ฆ๊ฐ€ํ•˜๋‚˜, ๋ชจ๋ธ ํŒŒ๋ผ๋ฏธํ„ฐ์˜ ์ด๋™์— ๊ฑธ๋ฆฌ๋Š” ์‹œ๊ฐ„์€ ๋ณ€ํ•จ์ด ์—†๋‹ค. ์—ฐ์‚ฐ๊ณผ์ •๊ณผ ๋ชจ๋ธ ์ด๋™ ๊ณผ์ •์€ ๋™์‹œ์— ์ง„ํ–‰๋˜๋ฏ€๋กœ ๋‘ ๊ฐ€์ง€ ์‹œ๊ฐ„์ด ๊ฐ™์„ ๋•Œ๊ฐ€ ์ตœ์ ์˜ ๋ฐฐ์น˜ํฌ๊ธฐ๊ฐ€ ๋œ๋‹ค. ๋งŒ์•ฝ ์„œ๋กœ ๋‹ค๋ฅธ ์‹œ๊ฐ„์ด ๊ฑธ๋ฆฐ๋‹ค๋ฉด, ์ด๋™ ํ˜น์€ ์—ฐ์‚ฐ๋งŒ ํ•˜๋ฉด์„œ ๋‹ค๋ฅธ ํ•œ์ชฝ์ด ๋ฉˆ์ถ”๊ฒŒ ๋˜์–ด ๋น„ํšจ์œจ์ด ๋ฐœ์ƒํ•œ๋‹ค. 

โ†ช๏ธŽ  Memory bound : ์ตœ์ ์˜ ๋ฐฐ์น˜ํฌ๊ธฐ๋ณด๋‹ค ์ž‘์œผ๋ฉด ๋ชจ๋ธ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ์ด๋™์‹œํ‚ค๋А๋ผ ์—ฐ์‚ฐ์ด ๋ฉˆ์ถ”๋Š” ๋น„ํšจ์œจ ๋ฐœ์ƒ

โ†ช๏ธŽ  Compute bound : ์ตœ์ ์ด ๋ฐฐ์น˜ํฌ๊ธฐ๋ณด๋‹ค ๋ฐฐ์น˜ํฌ๊ธฐ๊ฐ€ ์ปค์ง€๋ฉด ์—ฐ์‚ฐ์— ์˜ค๋žœ์‹œ๊ฐ„์ด ๊ฑธ๋ ค ์ง€์—ฐ ์‹œ๊ฐ„์ด ๊ธธ์–ด์ง€๋Š” ์—ฐ์‚ฐ ๋ฐ”์šด๋“œ๊ฐ€ ๋ฐœ์ƒ 

 

 

โ  GPU๋ฅผ ๋” ํšจ์œจ์ ์œผ๋กœ ํ™œ์šฉํ•˜๊ธฐ 

โ†ช๏ธŽ  ์ตœ๋Œ€ ๋ฐฐ์น˜ํฌ๊ธฐ๊ฐ€ ์ตœ์  ๋ฐฐ์น˜ํฌ๊ธฐ์— ๊ฐ€๊นŒ์›Œ์งˆ ์ˆ˜ ์žˆ๋Š” ๋ฐฉ๋ฒ•์„ ์ฐพ์•„์•ผ ํ•œ๋‹ค. ๋ฐฐ์น˜ํฌ๊ธฐ๋ฅผ ํ‚ค์šธ๋ ค๋ฉด GPU ๋ฉ”๋ชจ๋ฆฌ์— ์˜ฌ๋ผ๊ฐ€๋Š” ์ฃผ์š” ๋ฐ์ดํ„ฐ์ธ ๋ชจ๋ธ ํŒŒ๋ผ๋ฏธํ„ฐ or KV์บ์‹œ์˜ ์šฉ๋Ÿ‰์„ ์ค„์ด๋Š” ๋ฐฉ๋ฒ•์ด ์žˆ๋‹ค. 

 

 


1.4  KV ์บ์‹œ ๋ฉ”๋ชจ๋ฆฌ ์ค„์ด๊ธฐ

 

โ  [๋ณต์Šต] ๋ฉ€ํ‹ฐํ—ค๋“œ์–ดํ…์…˜

โ†ช๏ธŽ  ๊ฐ™์€ ์ž…๋ ฅ์— ๋Œ€ํ•ด ์—ฌ๋Ÿฌ ๊ฐœ์˜ ์‹œ๊ฐ์„ ๋ณ‘๋ ฌ๋กœ ๋Œ๋ ค ๋‹ค์–‘ํ•œ ๋ฌธ์žฅ ๊ด€๊ณ„ (์ฃผ์–ด-๋™์‚ฌ, ๋ชฉ์ ์–ด-๋™์‚ฌ, ์‹œ์  ๋“ฑ)์„ ๋™์‹œ์— ํฌ์ฐฉํ•œ๋‹ค. ๊ฐ™์€ ์ž…๋ ฅ(๋‹จ์–ด ์ž„๋ฒ ๋”ฉ)์ด๋ผ๋„, ๋‹ค๋ฅธ ๊ฐ€์ค‘์น˜ ํ–‰๋ ฌ์„ ์—ฌ๋Ÿฌ๊ฐœ ๋‘์–ด head๊ฐ€ ๋‹ค๋ฅธ ๊ด€์ ์œผ๋กœ attention์„ ์ˆ˜ํ–‰ํ•œ๋‹ค. 

 

 

โ  KV์บ์‹œ ๋ฉ”๋ชจ๋ฆฌ๋ฅผ ์ค„์ด๋Š” ๋ฐฉ๋ฒ• 

 

 

 

(1) ๋ฉ€ํ‹ฐ์ฟผ๋ฆฌ์–ดํ…์…˜

โ†ช๏ธŽ  ํŠธ๋žœ์Šคํฌ๋จธ ๋ชจ๋ธ์ด ๋ฉ€ํ‹ฐํ—ค๋“œ์–ดํ…์…˜์„ ํ™œ์šฉํ•ด ์—ฐ์‚ฐ์„ ํ•  ๋•Œ, ๋งŽ์€ ์ˆ˜์˜ ํ‚ค์™€ ๊ฐ’ ๋ฒกํ„ฐ๋ฅผ ์ €์žฅํ•˜๋ฏ€๋กœ KV์บ์‹œ์— ๋งŽ์€ ๋ฉ”๋ชจ๋ฆฌ๊ฐ€ ์‚ฌ์šฉ๋˜์–ด ์†๋„๊ฐ€ ๋А๋ ค์ง โ–บ ๋ชจ๋“  ์ฟผ๋ฆฌ ๋ฒกํ„ฐ๊ฐ€ ํ•˜๋‚˜์˜ ํ‚ค์™€ ๊ฐ’ ๋ฒกํ„ฐ๋ฅผ ๊ณต์œ ํ•˜๋Š” ๋ฐฉ์‹์ธ ๋ฉ€ํ‹ฐ์ฟผ๋ฆฌ์–ดํ…์…˜ ๋ฐฉ์‹์„ ์‚ฌ์šฉ

โ†ช๏ธŽ  ์ด ๋ฐฉ์‹์€ ํ›จ์”ฌ ์ ์€ ๋ฉ”๋ชจ๋ฆฌ๋ฅผ ์‚ฌ์šฉํ•˜์ง€๋งŒ, ์„ฑ๋Šฅ ์ €ํ•˜ ๋ฌธ์ œ๊ฐ€ ๋ฐœ์ƒ

 

(2) ๊ทธ๋ฃน์ฟผ๋ฆฌ์–ดํ…์…˜

โ†ช๏ธŽ  key, value์˜ ์ˆ˜๋ฅผ ์ค„์—ฌ ์‚ฌ์šฉํ•˜๋Š” ๋ฐฉ์‹์ด๋‚˜ ๋ฉ€ํ‹ฐ์ฟผ๋ฆฌ์–ดํ…์…˜๋ณด๋‹ค๋Š” ๋งŽ์ด ์‚ฌ์šฉํ•˜๋Š” ๋ฐฉ์‹

โ†ช๏ธŽ  ์„ฑ๋Šฅ ์ €ํ•˜ ๋ฌธ์ œ๊ฐ€ ๋œํ•˜๊ธฐ์— ํ™œ๋ฐœํžˆ ์‚ฌ์šฉ๋˜๋Š” ๋ฐฉ์‹ 

 

 

 

 


2.   ์–‘์žํ™”๋กœ ๋ชจ๋ธ ์šฉ๋Ÿ‰ ์ค„์ด๊ธฐ 


 

2.1   ์–‘์žํ™” 

 

โ  ์–‘์žํ™”

 โ†ช๏ธŽ  ๋ถ€๋™์†Œ์ˆ˜์  ๋ฐ์ดํ„ฐ๋ฅผ, ๋” ์ ์€ ๋ฉ”๋ชจ๋ฆฌ๋ฅผ ์‚ฌ์šฉํ•˜๋Š” ์ •์ˆ˜ ํ˜•์‹์œผ๋กœ ๋ณ€ํ™˜ํ•ด ํšจ์œจ์ ์œผ๋กœ GPU๋ฅผ ์‚ฌ์šฉํ•˜๋Š” ๋ฐฉ๋ฒ• 

 โ†ช๏ธŽ  ์–‘์žํ™” ์ˆ˜ํ–‰ ์‹œ์ ์— ๋”ฐ๋ผ 1) ํ•™์Šตํ›„ ์–‘์žํ™” (PTQ), 2)์–‘์žํ™” ํ•™์Šต (QAT)์œผ๋กœ ๋‚˜๋‰œ๋‹ค.  

 โ†ช๏ธŽ  LLMํ•™์Šต์—๋Š” ๋งŽ์€ ์ž์›์ด ๋“ค์–ด๊ฐ€๋ฏ€๋กœ ์ƒˆ๋กœ์šด ํ•™์Šต์ด ํ•„์š”ํ•œ QAT๋ณด๋‹ค๋Š” PTQ๋ฅผ ์ฃผ๋กœ ํ™œ์šฉํ•œ๋‹ค. 

 

 

2.2   ๋น„์ธ ์•ค๋ฐ”์ด์ธ 

 

โ  ๋น„์ฆˆ์•ค๋ฐ”์ด์ธ 

 โ†ช๏ธŽ  ์›Œ์‹ฑํ„ด๋Œ€ํ•™๊ต์—์„œ ๊ฐœ๋ฐœํ•œ ์–‘์žํ™” ๋ฐฉ์‹์„ ์‰ฝ๊ฒŒ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ๋„๋ก ์ œ๊ณตํ•˜๋Š” ์–‘์žํ™” ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ, ๋ชจ๋ธ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ๋” ์ž‘์€ ๋น„ํŠธ์ˆ˜๋กœ ์ค„์—ฌ์„œ GPU๋ฉ”๋ชจ๋ฆฌ ์‚ฌ์šฉ์„ ํฌ๊ฒŒ ์ ˆ์•ฝ 

 โ†ช๏ธŽ  8๋น„ํŠธ ํ–‰๋ ฌ ์—ฐ์‚ฐ, 4๋น„ํŠธ ์ •๊ทœ ๋ถ„ํฌ ์–‘์žํ™” ๋ฐฉ์‹ 

 

https://yooonlp.tistory.com/22

 

 

 

2.3   GPTQ

 

โ  GPTQ

 โ†ช๏ธŽ  ์—˜๋ฆฌ์•„์Šค ํ”„๋ž€ํƒ€๋ฅด๊ฐ€ ๊ฐœ๋ฐœํ•œ ์–‘์žํ™” ๋ฐฉ์‹์œผ๋กœ, ์–‘์žํ™” ์ด์ „์˜ ๋ชจ๋ธ์— ์ž…๋ ฅ์„ ๋„ฃ์—ˆ์„ ๋•Œ์™€, ์–‘์žํ™” ์ดํ›„ ๋ชจ๋ธ์— ์ž…๋ ฅ์„ ๋„ฃ์—ˆ์„ ๋•Œ ์˜ค์ฐจ๊ฐ€ ๊ฐ€์žฅ ์ž‘์•„์ง€๋„๋ก ์–‘์žํ™”๋ฅผ ์ˆ˜ํ–‰ํ•œ๋‹ค. ์ฆ‰, ์„ฑ๋Šฅ ์†์‹ค์„ ์ตœ์†Œํ™” 

 

 

 

 

2.4   AWQ

 

โ  AWQ

 

https://velog.io/@hyunku/Paper-Review-AWQ-ACTIVATION-AWARE-WEIGHT-QUANTIZATION-FOR-ON-DEVICE-LLM-COMPRESSION-AND-ACCELERATION

 

 โ†ช๏ธŽ  MIT์—์„œ ๊ฐœ๋ฐœํ•œ ๋ฐฉ์‹์œผ๋กœ, ํŠน๋ณ„ํžˆ ์ค‘์š”ํ•œ ํŒŒ๋ผ๋ฏธํ„ฐ์˜ ์ •๋ณด๋ฅผ ์œ ์ง€ํ•˜๋ฉด์„œ ์–‘์žํ™”๋ฅผ ์ˆ˜ํ–‰ํ•˜๋Š” ๋ฐฉ๋ฒ•์ด๋‹ค. GPTQ๋Š” ์ฃผ๋กœ ๊ฐ€์ค‘์น˜๋งŒ ๋ณด๋Š”๋ฐ, AWQ๋Š” ๊ฐ€์ค‘์น˜ + ํ™œ์„ฑ๊ฐ’๊นŒ์ง€ ๊ณ ๋ คํ•˜์—ฌ ๋ชจ๋ธ์ด ์‹ค์ œ๋กœ ๋™์ž‘ํ•  ๋•Œ ์–ด๋–ค ๋ถ€๋ถ„์ด ์ค‘์š”ํ•œ์ง€ ๋ณด๊ณ  ์ค‘์š”ํ•˜์ง€ ์•Š์€ ๋ถ€๋ถ„์€ ๋” ๊ณผ๊ฐํžˆ ์••์ถ•ํ•œ๋‹ค. 

 

 

 

 


3.   ์ง€์‹์ฆ๋ฅ˜ํ™œ์šฉ


 

โ  ์ง€์‹์ฆ๋ฅ˜

 โ†ช๏ธŽ  ๋” ํฌ๊ณ  ์„ฑ๋Šฅ์ด ๋†’์€ teacher model์˜ ์ƒ์„ฑ ๊ฒฐ๊ณผ๋ฅผ ํ™œ์šฉํ•ด, ๋” ์ž‘๊ณ  ์„ฑ๋Šฅ์ด ๋‚ฎ์€ student model์„ ๋งŒ๋“œ๋Š” ๋ฐฉ๋ฒ• 

 โ†ช๏ธŽ  ํ•™์ƒ๋ชจ๋ธ์€ ์„ ์ƒ๋ชจ๋ธ์˜ ์ƒ์„ฑ ๊ฒฐ๊ณผ๋ฅผ ๋ชจ๋ฐฉํ•˜๋Š” ๋ฐฉ์‹์œผ๋กœ ํ•™์Šตํ•˜๋Š”๋ฐ, ํ•™์ƒ๋ชจ๋ธ์˜ ํฌ๊ธฐ๊ฐ€ ์ž‘๊ธฐ ๋•Œ๋ฌธ์— ์„ ์ƒ๋ชจ๋ธ์—์„œ ์Œ“์€ ์ง€์‹์„ ๋” ์ž‘์€ ๋ชจ๋ธ๋กœ ์••์ถ•ํ•ด ์ „๋‹ฌํ•œ๋‹ค๋Š” ์˜๋ฏธ์—์„œ '์ฆ๋ฅ˜'๋ผ๊ณ  ๋ถ€๋ฅธ๋‹ค. 

 โ†ช๏ธŽ  ์ตœ๊ทผ์—๋Š” ์„ ์ƒ๋ชจ๋ธ์„ ํ™œ์šฉํ•ด ๋Œ€๊ทœ๋ชจ ํ•™์Šต ๋ฐ์ดํ„ฐ์…‹์„ ๊ตฌ์ถ•ํ•˜๊ฑฐ๋‚˜ ๋ฐ์ดํ„ฐ์…‹ ๊ตฌ์ถ•์— ์‚ฌ๋žŒ์˜ ํŒ๋‹จ์ด ํ•„์š”ํ•œ ๋ถ€๋ถ„์„ ์„ ์ƒ๋ชจ๋ธ์ด ์ˆ˜ํ–‰ํ•˜๋Š” ๋“ฑ ํญ๋„“๊ฒŒ ํ™œ์šฉ์ค‘ (sLLM ํ•™์Šต ๋ฐ์ดํ„ฐ ๊ตฌ์ถ•์— GPT4๊ฐ™์€ ๋Œ€ํ˜• ๋ชจ๋ธ์„ ํ™œ์šฉ) 

 

 

 

728x90

๋Œ“๊ธ€