๋ณธ๋ฌธ ๋ฐ”๋กœ๊ฐ€๊ธฐ
1๏ธโƒฃ AI•DS/๐ŸŒ LLM

[์ฑ…์Šคํ„ฐ๋””] 5-2. GPU ํšจ์œจ์ ์ธ ํ•™์Šต

by isdawell 2025. 8. 2.
728x90
๐Ÿ“  GPU๋ฅผ ํšจ์œจ์ ์œผ๋กœ ์‚ฌ์šฉํ•ด ๋ชจ๋ธ์„ ํ•™์Šต์‹œํ‚ค๋Š” ๋‹ค์–‘ํ•œ ๊ธฐ์ˆ  

3.  ๋ถ„์‚ฐํ•™์Šต, Deepspeed ZeRO 
4.  LoRA, QLoRA (๋ชจ๋ธ์˜ ์ผ๋ถ€๋งŒ ์—…๋ฐ์ดํŠธ) 

 

 

 

3.  ๋ถ„์‚ฐํ•™์Šต๊ณผ ZeRO


 

3.1  ๋ถ„์‚ฐ ํ•™์Šต

 

โ  ๋ถ„์‚ฐํ•™์Šต

 โ†ช๏ธŽ  GPU ์—ฌ๋Ÿฌ๊ฐœ๋ฅผ ํ™œ์šฉํ•ด ๋”ฅ๋Ÿฌ๋‹ ๋ชจ๋ธ์„ ํ•™์Šต์‹œํ‚ค๋Š” ๊ฒƒ 

 โ†ช๏ธŽ  ๋ชฉ์  : ๋ชจ๋ธ ํ•™์Šต ์†๋„ ํ–ฅ์ƒ, 1๊ฐœ์˜ GPU๋กœ ํ•™์Šต์ด ์–ด๋ ค์šด ๋ชจ๋ธ ๋‹ค๋ฃจ๊ธฐ 

 

 

โ  ๋ฐ์ดํ„ฐ ๋ณ‘๋ ฌํ™”

 

 

 โ†ช๏ธŽ  ๋ชจ๋ธ์ด ์ž‘์•„์„œ ํ•˜๋‚˜์˜ GPU์— ์˜ฌ๋ฆด ์ˆ˜ ์žˆ๋Š” ๊ฒฝ์šฐ, ์—ฌ๋Ÿฌ GPU์— ๊ฐ๊ฐ ๊ฐœ๋ณ„์ ์œผ๋กœ ๋ชจ๋ธ์„ ์˜ฌ๋ฆฌ๊ณ  ํ•™์Šต ๋ฐ์ดํ„ฐ๋ฅผ ๋‚˜๋ˆ ์„œ ๋™์‹œ์— ํ•™์Šต์„ ์ˆ˜ํ–‰ํ•ด ํ•™์Šต ์†๋„๋ฅผ ํ–ฅ์ƒ์‹œํ‚ค๋Š” ๊ฒƒ 

 

 

โ  ๋ชจ๋ธ ๋ณ‘๋ ฌํ™”

 

โ†ช๏ธŽ  ํ•˜๋‚˜์˜ GPU์— ์˜ฌ๋ฆฌ๊ธฐ ์–ด๋ ค์šด ๋งค์šฐ ํฐ ๋ชจ๋ธ์˜ ๊ฒฝ์šฐ, ๋ชจ๋ธ์„ ์—ฌ๋Ÿฌ ๊ฐœ์˜ GPU์— ๋‚˜๋ˆ ์„œ ์˜ฌ๋ฆฌ๋Š” ๋ฐฉ์‹์„ ํ™œ์šฉ

 

 โ†ช๏ธŽ  1) ํŒŒ์ดํ”„๋ผ์ธ ๋ณ‘๋ ฌํ™” : ๋ชจ๋ธ์˜ layer ๋ณ„๋กœ ๋‚˜๋ˆ  ์˜ฌ๋ฆฌ๋Š” ๋ฐฉ์‹ (๊ทธ๋ฆผ์—์„œ ์ƒํ•˜๋กœ ๋‚˜๋ˆ„๋Š” ๋ฐฉ์‹ : ๋จธ์‹ 1&2/3&4)

 โ†ช๏ธŽ  2) ํ…์„œ ๋ณ‘๋ ฌํ™” : ํ•œ ์ธต์˜ ๋ชจ๋ธ๋„ ๋‚˜๋ˆ ์„œ ์˜ฌ๋ฆฌ๋Š” ๋ฐฉ์‹ (๊ทธ๋ฆผ์—์„œ ์ขŒ์šฐ๋กœ ๋‚˜๋ˆ„๋Š” ๋ฐฉ์‹ : ๋จธ์‹ 1&3/2&4)

 

 

โ  ํ…์„œ ๋ณ‘๋ ฌํ™”์—์„œ ๊ธฐ์กด๊ณผ ๋™์ผํ•œ ๊ฒฐ๊ณผ๋ฅผ ์–ป๊ธฐ ์œ„ํ•œ ๋ถ„๋ฆฌ ์—ฐ์‚ฐ ๋ฐฉ๋ฒ•

 

 โ†ช๏ธŽ  ํŒŒ์ดํ”„๋ผ์ธ ๋ณ‘๋ ฌํ™”๋Š” ๋ชจ๋ธ์˜ ์ธต ์ˆœ์„œ์— ๋งž์ถฐ ์ˆœ์ฐจ์ ์œผ๋กœ ์—ฐ์‚ฐํ•˜๋ฉด, ๋ณ‘๋ ฌํ™” ์ „๊ณผ ๋™์ผํ•œ ๊ฒฐ๊ณผ๋ฅผ ์–ป์„ ์ˆ˜ ์žˆ๋Š”๋ฐ, ํ…์„œ๋ณ‘๋ ฌํ™”์˜ ๊ฒฝ์šฐ๋Š” ํ•˜๋‚˜์˜ ์ธต์„ ๋‚˜๋ˆ  ์„œ๋กœ ๋‹ค๋ฅธ GPU์— ์˜ฌ๋ฆฌ๊ธฐ ๋•Œ๋ฌธ์— ํ–‰๋ ฌ ์—ฐ์‚ฐ ์‹œ ๋ถ„๋ฆฌ ๋ฐฉ๋ฒ• (์—ด ๋ณ‘๋ ฌํ™”, ํ–‰ ๋ณ‘๋ ฌํ™”)์„ ํ†ตํ•ด ํ–‰๋ ฌ ๊ณฑ์…ˆ์„ ์ ์šฉํ•œ๋‹ค. 

 

 

 โ†ช๏ธŽ ์—ด ๋ณ‘๋ ฌํ™” : ์ž…๋ ฅ๋ฐ์ดํ„ฐ x๋Š” ์œ ์ง€ํ•˜๋ฉด์„œ ๋ชจ๋ธ ๊ฐ€์ค‘์น˜๋ฅผ ๋ถ„๋ฆฌํ•œ(A1,A2) ๊ณฑ์…ˆํ•˜๊ณ  ๊ฒฐ๊ณผ Y1,Y2๋ฅผ ํ•˜๋‚˜๋กœ ์—ฐ๊ฒฐํ•จ 

 โ†ช๏ธŽ ํ–‰ ๋ณ‘๋ ฌํ™” : ์ž…๋ ฅ๋ฐ์ดํ„ฐ x์™€ ๋ชจ๋ธ ๊ฐ€์ค‘์น˜ A๋ฅผ ๋ชจ๋‘ ๋ถ„๋ฆฌํ•ด ๊ฐ๊ฐ ๊ณฑ์…ˆํ•˜๊ณ  ๊ฒฐ๊ณผ Y1,Y2๋ฅผ ๋”ํ•ด์คŒ 

 

๋”ฅ๋Ÿฌ๋‹ ๋ชจ๋ธ์—์„œ ํ…์„œ ๋ณ‘๋ ฌํ™”๊ฐ€ ์ ์šฉ๋œ ์˜ˆ์‹œ (a,b์˜ˆ์‹œ ๋ชจ๋‘ ์—ด๋ณ‘๋ ฌํ™” ์ง„ํ–‰ ํ›„ ํ–‰๋ณ‘๋ ฌํ™” ์ˆ˜ํ–‰)

 

 

 

 

3.2  ZeRo

 

โ   ๋ฐ์ดํ„ฐ๋ณ‘๋ ฌํ™”์—์„œ ์ค‘๋ณต ์ €์žฅ ์ค„์ด๊ธฐ 

 โ†ช๏ธŽ  ๋ฐ์ดํ„ฐ๋ณ‘๋ ฌํ™”๋Š”, ๋™์ผํ•œ ๋ชจ๋ธ์„ ์—ฌ๋Ÿฌ GPU์— ์˜ฌ๋ฆฌ๊ธฐ ๋•Œ๋ฌธ์— ์ค‘๋ณต์œผ๋กœ ๋ฉ”๋ชจ๋ฆฌ๋ฅผ ์ฐจ์ง€ํ•˜์—ฌ ๋น„ํšจ์œจ์ ์ด๋‹ค. 

 โ†ช๏ธŽ  ์ด๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด ๋งˆ์ดํฌ๋กœ์†Œํ”„ํŠธ์—์„œ ๊ฐœ๋ฐœํ•œ ๊ฒƒ์ด ZeRO ๋ฐฉ์‹!

 

 

 โ†ช๏ธŽ  ํ•˜๋‚˜์˜ ๋ชจ๋ธ์„ ๋ถ€๋ถ„์ ์œผ๋กœ ๋‚˜๋ˆ„์–ด ์—ฌ๋Ÿฌ GPU์— ์˜ฌ๋ฆฌ๊ณ , ๊ฐ GPU์—์„œ๋Š” ์ž์‹ ์˜ ๋ชจ๋ธ ๋ถ€๋ถ„์˜ ์—ฐ์‚ฐ๋งŒ ์ˆ˜ํ–‰ํ•˜๊ณ  ๊ทธ ์ƒํƒœ๋ฅผ ์ €์žฅํ•œ๋‹ค. ํ•„์š”ํ•œ ์ˆœ๊ฐ„์—๋งŒ ๋‹ค๋ฅธ gpu์˜ ๋ชจ๋ธ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ๋ณต์‚ฌํ•ด ์—ฐ์‚ฐ์„ ์ˆ˜ํ–‰ํ•œ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ๋ฉ”๋ชจ๋ฆฌ๋ฅผ ํšจ์œจ์ ์œผ๋กœ ์‚ฌ์šฉํ•˜๋ฉด์„œ๋„ ์†๋„๋„ ๋น ๋ฅด๊ฒŒ ์œ ์ง€ํ•  ์ˆ˜ ์žˆ๋‹ค. 

 

 

 

 

 

4.  ํšจ์œจ์ ์ธ ํ•™์Šต ๋ฐฉ๋ฒ• (PEFT) : LoRA 


 

4.1  LoRA

 

โ  Parameter Efficient Fine-Tuning

 โ†ช๏ธŽ  LLM ๋ชจ๋ธ ํฌ๊ธฐ๊ฐ€ ์ ์ฐจ ์ปค์ง€๋ฉด์„œ, ํ•˜๋‚˜์˜ GPU๋กœ ๋ชจ๋“  ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ํ•™์Šตํ•˜๋Š” ํŒŒ์ธํŠœ๋‹์„ ์ˆ˜ํ–‰ํ•˜๊ธฐ ์–ด๋ ค์›Œ์กŒ๋‹ค. ๋”ฐ๋ผ์„œ, ์ „์ฒด๊ฐ€ ์•„๋‹Œ ์ผ๋ถ€ ํŒŒ๋ผ๋ฏธํ„ฐ๋งŒ ํ•™์Šตํ•˜๋Š” PEFT ๋ฐฉ๋ฒ• ์—ฐ๊ตฌ๊ฐ€ ํ™œ๋ฐœํžˆ ์ด๋ฃจ์–ด์ง€๊ณ  ์žˆ๋‹ค. 

 

โ  LoRA

 โ†ช๏ธŽ  ๋ชจ๋ธ์— ์ผ๋ถ€ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ์ถ”๊ฐ€ํ•˜๊ณ  ๊ทธ ๋ถ€๋ถ„๋งŒ ํ•™์Šตํ•˜๋Š” ๋ฐฉ์‹

 โ†ช๏ธŽ  ๋ชจ๋ธ ํŒŒ๋ผ๋ฏธํ„ฐ ์žฌ๊ตฌ์„ฑํ•˜์—ฌ ๋” ์ ์€ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ํ•™์Šตํ•˜์—ฌ ๋ฉ”๋ชจ๋ฆฌ ์‚ฌ์šฉ๋Ÿ‰์„ ์ค„์ž„ 

 

 

 โ†ช๏ธŽ  ๊ฐ€๋ น, ์ „์ฒด ํŒŒ๋ผ๋ฏธํ„ฐW๊ฐ€ ์žˆ์„ ๋•Œ, ๋” ์ž‘์€ 2๊ฐœ ํ–‰๋ ฌ A,B๋ฅผ ์ถ”๊ฐ€ํ•ด ํ•ด๋‹น ๋ถ€๋ถ„์„ ์ˆ˜์ •ํ•œ๋‹ค. 

 โ†ช๏ธŽ  r=4, d=100์ด๋ผ๋ฉด, A = (100,4), B = (4,100)์œผ๋กœ AB ์—ฐ์‚ฐ ๊ฒฐ๊ณผ์˜ ์ฐจ์›์ด W์™€ ๋™์ผํ•˜๋‚˜, 10,000๊ฐœ์˜ ํŒŒ๋ผ๋ฏธํ„ฐ ํ•™์Šต์ด ์•„๋‹Œ, 800๊ฐœ์˜ ํŒŒ๋ผ๋ฏธํ„ฐ๋งŒ ํ•™์Šตํ•˜๋ฉด๋จ

 โ†ช๏ธŽ ํ–‰๋ ฌ A,B๊ฐ€ ์ถ”๊ฐ€๋˜๋ฏ€๋กœ ๋ชจ๋ธ ํŒŒ๋ผ๋ฏธํ„ฐ ์šฉ๋Ÿ‰ ์ž์ฒด๋Š” ์ฆ๊ฐ€ํ•˜์ง€๋งŒ, GPU๋ฉ”๋ชจ๋ฆฌ ๊ตฌ์„ฑ์š”์†Œ์ธ ๊ทธ๋ ˆ์ด๋””์–ธํŠธ, ์˜ตํ‹ฐ๋งˆ์ด์ € ์ƒํƒœ์˜ ์šฉ๋Ÿ‰์€ ๊ฐ์†Œํ•œ๋‹ค. 

 

๊ธฐ์กด ๊ฐ€์ค‘์น˜ W ๋Š” pre-trained ๊ฐ€์ค‘์น˜๋กœ ํ•™์Šต ์ค‘์— ๋ณ€๊ฒฝํ•˜์ง€ ์•Š๊ณ  ๊ทธ๋Œ€๋กœ ์œ ์ง€ํ•œ๋‹ค. A,B๋งŒ ๋ฏธ์„ธ์กฐ์ •ํ•˜๋Š” ๋ฐฉ์‹!

 

 

 


4.2  LoRA ์„ค์ •๊ฐ’

 

โ  1) ์ฐจ์› r

 โ†ช๏ธŽ  r์„ ์ž‘๊ฒŒํ•˜๋ฉด ํŒŒ๋ผ๋ฏธํ„ฐ ์ˆ˜๊ฐ€ ๊ฐ์†Œํ•˜์—ฌ GPU๋ฉ”๋ชจ๋ฆฌ ์‚ฌ์šฉ๋Ÿ‰์ด ๊ฐ์†Œํ•˜์ง€๋งŒ, ๋ชจ๋ธ์ด ํ•™์Šตํ•  ์ˆ˜ ์žˆ๋Š” ์šฉ๋Ÿ‰์ด ์ž‘์•„์ง€๊ธฐ ๋•Œ๋ฌธ์— ํ•™์Šต ๋ฐ์ดํ„ฐ ํŒจํ„ด์„ ์ถฉ๋ถ„ํžˆ ํ•™์Šตํ•˜์ง€ ๋ชปํ•  ์ˆ˜ ์žˆ๋‹ค. (์ ์ ˆํ•œ r์„ ์„ค์ •ํ•˜๋Š” ๊ฒƒ์ด ์ค‘์š”)

 

 

โ  2) alpha

 โ†ช๏ธŽ  ์ถ”๊ฐ€ํ•œ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ๊ธฐ์กด ํŒŒ๋ผ๋ฏธํ„ฐ์— ์–ผ๋งˆ๋‚˜ ๋งŽ์ด ๋ฐ˜์˜ํ• ์ง€ ๊ฒฐ์ •ํ•˜๋Š” ์ธ์ž 

 โ†ช๏ธŽ  LoRA๋Š” 'alpha/r' ๋งŒํผ์˜ ๋น„์ค‘์œผ๋กœ ํ–‰๋ ฌ A์™€ B์˜ ๊ณฑํ•œ  ๊ฐ’์„ ๊ธฐ์กด ํŒŒ๋ผ๋ฏธํ„ฐ W์— ๋”ํ•ด์ฃผ๋Š” ๋ฐฉ์‹์„ ์‚ฌ์šฉํ•จ (alpha๊ฐ€ ์ปค์ง€๋ฉด, ์ƒˆ๋กญ๊ฒŒ ํ•™์Šตํ•œ ํŒŒ๋ผ๋ฏธํ„ฐ์˜ ์ค‘์š”์„ฑ์„ ํฌ๊ฒŒ ๊ณ ๋ คํ•˜๋Š” ๊ฒƒ) 

 


โ  3) ์–ด๋–ค ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ์žฌ๊ตฌ์„ฑํ• ์ง€ ์„ค์ •

 โ†ช๏ธŽ  ์ผ๋ฐ˜์ ์œผ๋กœ ์„ ํ˜• ์—ฐ์‚ฐ(ex. ์…€ํ”„์–ดํ…์…˜ ์—ฐ์‚ฐ์—์„œ QKV ๊ฐ€์ค‘์น˜, ํ”ผ๋“œํฌ์›Œ๋“œ ์ธต์˜ ๊ฐ€์ค‘์น˜)์˜ ๊ฐ€์ค‘์น˜๋ฅผ ์žฌ๊ตฌ์„ฑํ•˜๋‚˜, ํŠน์ • ๊ฐ€์ค‘์น˜์—๋งŒ ์ ์šฉํ•˜๊ฑฐ๋‚˜ ์ „์ฒด ์„ ํ˜•์ธต์— ์ ์šฉํ•˜๋Š” ๋ฐฉ์‹์„ ์ทจํ•  ์ˆ˜๋„ ์žˆ๋‹ค. ๋ณดํ†ต ์ „์ฒด ์„ ํ˜• ์ธต์— ์ ์šฉํ•œ ๊ฒฝ์šฐ ์„ฑ๋Šฅ์ด ๊ฐ€์žฅ ์ข‹๋‹ค๊ณ ๋Š” ์•Œ๋ ค์ ธ์žˆ์ง€๋งŒ ์‹คํ—˜์„ ํ†ตํ•ด ์ ์ ˆํžˆ ์„ ํƒํ•ด์•ผ ํ•œ๋‹ค. 

 

 

 

 

 

4.3  ์ฝ”๋“œ ์‹ค์Šต

 

โ  ใ…‡

 โ†ช๏ธŽ  ํ—ˆ๊น…ํŽ˜์ด์Šค์˜ peft ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ

 

 

 

 

 

5.  ํšจ์œจ์ ์ธ ํ•™์Šต ๋ฐฉ๋ฒ• (PEFT) : QLoRA 


 


5.1  QLoRA

 

โ  Efficient Finetuning of Quantized LLMs

 โ†ช๏ธŽ  LoRA์— ์–‘์žํ™”๋ฅผ ์ถ”๊ฐ€ํ•ด ๋ฉ”๋ชจ๋ฆฌ ํšจ์œจ์„ฑ์„ ๋†’์ธ ๋ฐฉ์‹ 

 

LoRA๋Š” 16๋น„ํŠธ๋กœ ๋ชจ๋ธ์„ ์ €์žฅํ•œ๋‹ค๋ฉด, QLoRA๋Š” 4๋น„ํŠธ ํ˜•์‹์œผ๋กœ ๋ชจ๋ธ์„ ์ €์žฅ

 

 โ†ช๏ธŽ QLoRA ์—์„œ CPU๋Š” 'ํŽ˜์ด์ง€ ์˜ตํ‹ฐ๋งˆ์ด์ €' ๊ธฐ๋Šฅ์„ ์˜๋ฏธํ•˜๋Š”๋ฐ ์ด ๊ธฐ๋Šฅ์€ ํ•™์Šต๋„์ค‘์—๋„ OOM์—๋Ÿฌ ์—†์ด ์•ˆ์ •์ ์œผ๋กœ ์ง„ํ–‰ํ•  ์ˆ˜ ์žˆ๋„๋ก ํ•ด์ค€๋‹ค. 

 

 


5.2  4๋น„ํŠธ ์–‘์žํ™” & 2์ฐจ ์–‘์žํ™”, ํŽ˜์ด์ง€ ์˜ตํ‹ฐ๋งˆ์ด์ €

 

โ  4๋น„ํŠธ ์–‘์žํ™” (Normal Float 4-bit) & 2์ฐจ ์–‘์žํ™” (double quantization)

 

 

 โ†ช๏ธŽ  ์–‘์žํ™”๋Š” '๊ธฐ์กด ๋ฐ์ดํ„ฐ์˜ ์ •๋ณด๋Š” ์œ ์ง€ํ•˜๋ฉด์„œ, ๋” ์ ์€ ๋น„ํŠธ๋ฅผ ์‚ฌ์šฉํ•˜๋Š” ๋ฐ์ดํ„ฐ ํ˜•์‹์œผ๋กœ ๋ณ€ํ™˜' ํ•˜๋Š” ๊ฒƒ์ด ํ•ต์‹ฌ์ธ๋ฐ, ๊ธฐ์กด ๋ฐ์ดํ„ฐ์˜ ์ˆœ์œ„๋Œ€๋กœ ๋ฐ์ดํ„ฐ ํ˜•์‹์— ๋งตํ•‘ํ•˜๋Š” ๋ฐฉ์‹์„ ์ ์šฉํ•  ๋•Œ ๊ธฐ์กด ๋ฐ์ดํ„ฐ์˜ ๋ถ„ํฌ(ex.์ •๊ทœ๋ถ„ํฌ)๋ฅผ ์•Œ๊ณ ์žˆ๋‹ค๋ฉด ์—ฐ์‚ฐ์ด๋‚˜ ๋ฉ”๋ชจ๋ฆฌ ์‚ฌ์šฉ ์—†์ด ๋น ๋ฅด๊ฒŒ ๋ฐ์ดํ„ฐ ์ˆœ์œ„๋ฅผ ์ •ํ•  ์ˆ˜ ์žˆ๋‹ค. 

 

 โ†ช๏ธŽ  ํ•™์Šต๋œ ๋ชจ๋ธ ํŒŒ๋ผ๋ฏธํ„ฐ๋Š” ๊ฑฐ์˜ ์ •๊ทœ๋ถ„ํฌ์— ๊ฐ€๊นŒ์šด๋ฐ, ๋”ฐ๋ผ์„œ ์ž…๋ ฅ์ด ์ •๊ทœ๋ถ„ํฌ๋ผ๋Š” ๊ฐ€์ •์„ ํ™œ์šฉํ•˜๋ฉด ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์„ ์œ ์ง€ํ•˜๋ฉด์„œ๋„ ๋น ๋ฅธ ์–‘์žํ™”๊ฐ€ ๊ฐ€๋Šฅํ•ด์ง„๋‹ค. QLoRA๋…ผ๋ฌธ์—์„œ๋Š” ์ด ์–‘์žํ™” ๋ฐฉ์‹์„ ์ˆ˜ํ–‰ํ•œ 4๋น„ํŠธ ๋ถ€๋™์†Œ์ˆ˜์  ๋ฐ์ดํ„ฐ ํ˜•์‹์ธ NF4๋ฅผ ์ œ์•ˆํ–ˆ๋‹ค. 

 

 โ†ช๏ธŽ  QLoRA ๋…ผ๋ฌธ์—์„œ๋Š” NF4์–‘์žํ™” ๊ณผ์ •์—์„œ ๋ฐœ์ƒํ•˜๋Š” 32๋น„ํŠธ ์ƒ์ˆ˜๋ฅผ ํšจ์œจ์ ์œผ๋กœ ์ €์žฅํ•˜๋Š” ๋ฐฉ์‹์ธ 2์ฐจ ์–‘์žํ™”๋„ ์†Œ๊ฐœํ•œ๋‹ค. 64๊ฐœ์˜ ๋ชจ๋ธ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ํ•˜๋‚˜์˜ ๋ธ”๋ก์œผ๋กœ ๋ฌถ์–ด ์–‘์žํ™”๋ฅผ ์ˆ˜ํ–‰ํ•  ์‹œ ๊ฐ 1๊ฐœ์˜ ์ƒ์ˆ˜๋ฅผ ์ €์žฅํ•œ๋‹ค. 

 

 

 

 

 

โ  ํŽ˜์ด์ง€ ์˜ตํ‹ฐ๋งˆ์ด์ € 

 โ†ช๏ธŽ  QLoRA ๋…ผ๋ฌธ์—์„œ ๊ทธ๋ ˆ์ด๋””์–ธํŠธ ์ฒดํฌํฌ์ธํŒ… ๊ณผ์ •์—์„œ ๋ฐœ์ƒ๊ฐ€๋Šฅํ•œ OOM์—๋Ÿฌ๋ฅผ ๋ฐฉ์ง€ํ•˜๊ณ ์ž paged optimizer๋ฅผ ์‚ฌ์šฉํ•œ๋‹ค. ๊ทธ๋ ˆ์ด๋””์–ธํŠธ ์ฒดํฌํฌ์ธํŒ…์€ ์ˆœ์ „ํŒŒ ๊ณผ์ •์—์„œ ์ผ๋ถ€ ๋…ธ๋“œ๋งŒ ์ €์žฅํ•ด ๋ฉ”๋ชจ๋ฆฌ๋ฅผ ํšจ์œจ์ ์œผ๋กœ ์‚ฌ์šฉํ•  ์ˆ˜๋Š” ์žˆ์œผ๋‚˜, ์—ญ์ „ํŒŒ ์žฌ๊ณ„์‚ฐ์‹œ ์ˆœ์ „ํŒŒ์˜ ์ค‘๊ฐ„ ๊ฒฐ๊ณผ๋“ค์„ ๊ฐ€์ ธ์˜ฌ ๋•Œ ํ•œ๊บผ๋ฒˆ์— ๋งŽ์€ ๋…ธ๋“œ๋“ค์ด ๋ฉ”๋ชจ๋ฆฌ์— ์˜ฌ๋ผ๊ฐ€๋Š” ๊ฒฝ์šฐ OOM ์—๋Ÿฌ๊ฐ€ ๋ฐœ์ƒํ•œ๋‹ค. 

 

 โ†ช๏ธŽ  ์—”๋น„๋””์•„์˜ ํ†ตํ•ฉ ๋ฉ”๋ชจ๋ฆฌ๋ฅผ ํ†ตํ•ด GPU๊ฐ€ CPU ๋ฉ”๋ชจ๋ฆฌ๋ฅผ ๊ณต์œ ํ•˜๋Š” ๋ฐฉ์‹์ด paged optimizer ์ด๋‹ค. GPU๊ฐ€ ์ฒ˜๋ฆฌํ•  ๋ฐ์ดํ„ฐ๊ฐ€ ๋งŽ์œผ๋ฉด ์ผ๋ถ€ ๋ฐ์ดํ„ฐ๋ฅผ CPU์— ๋ณด๊ด€ํ•ด๋‘๊ณ  ํ•„์š”ํ•  ๋•Œ ๋‹ค์‹œ GPU๋กœ ์˜ฎ๊ฒจ ์ฒ˜๋ฆฌํ•œ๋‹ค. 

 

 

 

5.3  ์ฝ”๋“œ ์‹ค์Šต

 

โ  ใ…‡

 โ†ช๏ธŽ  ใ…‡

 

 

 

 

 

 

 

728x90

๋Œ“๊ธ€