1๏ธโƒฃ AI•DS/๐ŸŒ LLM

[์ฑ…์Šคํ„ฐ๋””] 4. GPT-3๊ฐ€ ์ฑ—GPT๋กœ ๋ฐœ์ „ํ•  ์ˆ˜ ์žˆ์—ˆ๋˜ ๋ฐฉ๋ฒ•

isdawell 2025. 7. 6. 00:09
728x90

 

 

๐Ÿ“ ํ˜„์žฌ์˜ ์ฑ—GPT๊ฐ€ ํƒ„์ƒํ•  ์ˆ˜ ์žˆ์—ˆ๋˜ ๋ฐฐ๊ฒฝ 

1. ์ง€์‹œ ๋ฐ์ดํ„ฐ์…‹์„ ํ™œ์šฉํ•ด Supervised fine tuning ๋ฐฉ๋ฒ•์œผ๋กœ ์‚ฌ์šฉ์ž์˜ ์š”์ฒญ์— ๋งž๋Š” ์‘๋‹ต์„ ํ•  ์ˆ˜ ์žˆ๋„๋ก ํ•™์Šตํ•จ 
2. ์‚ฌ์šฉ์ž์—๊ฒŒ ๋” ๋„์›€์ด๋˜๊ณ  ๋” ์„ ํ˜ธํ•˜๋Š” ์‘๋‹ต์„ ํ•  ์ˆ˜ ์žˆ๋„๋ก, ๊ฐ•ํ™”ํ•™์Šต๋ฐฉ๋ฒ•(RLHF, PPO)์„ ์‚ฌ์šฉํ•˜๊ฑฐ๋‚˜ ๊ฐ•ํ™”ํ•™์Šต์„ ์‚ฌ์šฉํ•˜์ง€ ์•Š๋Š” ๋ฐฉ๋ฒ• (Rejective sampling, DPO) ๋ฐฉ๋ฒ•์„ ์‚ฌ์šฉํ•จ 

 

 

 

 

1.  ์‚ฌ์ „ ํ•™์Šต๊ณผ ์ง€๋„ ๋ฏธ์„ธ ์กฐ์ • 


 

1.1  LLM์˜ ์‚ฌ์ „ํ•™์Šต

 

โ  LLM์€ ๋ธ”๋กœ๊ทธ, ๊ธฐ์‚ฌ, ์ฝ”๋“œ ๋“ฑ ์ธํ„ฐ๋„ท์ƒ์— ์žˆ๋Š” ๋‹ค์–‘ํ•œ ํ…์ŠคํŠธ ๋ฐ์ดํ„ฐ๋ฅผ ์ˆ˜์ง‘ํ•œ ๋Œ€์šฉ๋Ÿ‰์˜ ํ…์ŠคํŠธ๋กœ ์‚ฌ์ „ ํ•™์Šต์„ ํ•œ๋‹ค. 

 โ†ช๏ธŽ  ์šฐ๋ฆฌ๊ฐ€ ์ฑ…, ๊นƒํ—ˆ๋ธŒ์ฝ”๋“œ ๋“ฑ ๋‹ค์–‘ํ•œ ์ž๋ฃŒ๋ฅผ ํ†ตํ•ด ํ”„๋กœ๊ทธ๋ž˜๋ฐ ์–ธ์–ด์˜ ๋ฌธ๋ฒ•์ด๋‚˜ ์ž๋ฃŒ๊ตฌ์กฐ, ์•Œ๊ณ ๋ฆฌ์ฆ˜ ๊ฐ™์€ ๊ธฐ๋ณธ ๊ฐœ๋…์„ ๊ณต๋ถ€ํ•˜๋Š” ๊ณผ์ •๊ณผ ์œ ์‚ฌํ•˜๋‹ค 

 

โ  ์‚ฌ์ „ํ•™์Šต์„ ํ†ตํ•ด LLM์€ ์–ธ์–ด์— ๋Œ€ํ•œ ์ „์ฒด์ ์ธ ์ดํ•ด๋„๊ฐ€ ๋†’์•„์ง€๊ณ , ๋ฐ”๋กœ ๋‹ค์Œ์— ์˜ฌ ๋‹จ์–ด๋ฅผ ์ ์  ๋” ์ž˜ ์˜ˆ์ธกํ•˜๊ฒŒ ๋œ๋‹ค. 

 โ†ช๏ธŽ  ์–ธ์–ด๋ชจ๋ธ์€ "๋‹ค์Œ ๋‹จ์–ด๋กœ ์ •๋‹ต ํ† ํฐ์ด ์˜ฌ ํ™•๋ฅ ์„ ๋†’์ด๋Š” ๋ฐฉ์‹์œผ๋กœ ํ•™์Šตํ•œ๋‹ค" 

 

 

 

 

1.2  ์ง€๋„ ๋ฏธ์„ธ ์กฐ์ •

 

โ  ์‚ฌ์ „ํ•™์Šต ํ›„, LLM์€ ์‚ฌ์šฉ์ž์˜ ์š”์ฒญ์— ์ ์ ˆํžˆ ์‘๋‹ตํ•˜๊ธฐ ์œ„ํ•ด, ์š”์ฒญ์˜ ํ˜•์‹์„ ์ ์ ˆํžˆ ํ•ด์„ํ•˜๊ณ , ์‘๋‹ต์˜ ํ˜•ํƒœ๋ฅผ ์ ์ ˆํžˆ ์ž‘์„ฑํ•˜๋ฉฐ, ์š”์ฒญ๊ณผ ์‘๋‹ต์ด ์ž˜ ์—ฐ๊ฒฐ๋˜๋„๋ก ์ถ”๊ฐ€ ํ•™์Šตํ•˜๋Š” '์ง€๋„ ๋ฏธ์„ธ ์กฐ์ •' ๊ณผ์ •์„ ๊ฑฐ์นœ๋‹ค. 

 โ†ช๏ธŽ  ์šฐ๋ฆฌ๊ฐ€ ์–ด๋А์ •๋„ ๊ธฐ๋ณธ ๊ฐœ๋…์„ ์ตํžŒ ํ›„, ๋ฌธ์ œ์ƒํ™ฉ์— ๋งž๋Š” ์ฝ”๋“œ๋ฅผ ์ž‘์„ฑํ•ด์•ผ ํ•˜๋Š” ์ฝ”๋”ฉํ…Œ์ŠคํŠธ ์—ฐ์Šต ๋ฌธ์ œ๋ฅผ ํ‘ธ๋Š” ๊ณผ์ •๊ณผ ์œ ์‚ฌํ•˜๋‹ค

 

โ  ์ •๋ ฌ (alignment) : ์‚ฌ์šฉ์ž์˜ ์š”์ฒญ์— ๋งž์ถฐ ์‘๋‹ตํ•˜๋„๋ก ํ•™์Šตํ•˜๋Š” ๊ฒƒ 

โ  ์ง€์‹œ ๋ฐ์ดํ„ฐ์…‹ (Instruction dataset) : ์‚ฌ์šฉ์ž์˜ ์š”๊ตฌ์‚ฌํ•ญ๊ณผ ๊ทธ์— ๋Œ€ํ•œ ์‘๋‹ต์„ ๊ตฌ์กฐํ™”ํ•œ ๋ฐ์ดํ„ฐ์…‹ 

 โ†ช๏ธŽ  ex. OpenAI๋Š” ์ฑ—GPT๋ฅผ ๊ฐœ๋ฐœํ•˜๋ฉฐ, ๋ฐ์ดํ„ฐ ๋ ˆ์ด๋ธ”๋Ÿฌ๋ฅผ ๊ณ ์šฉํ•ด 13,000๊ฐœ๊ฐ€ ๋„˜๋Š” ์ง€์‹œ ๋ฐ์ดํ„ฐ์…‹์„ ๊ตฌ์ถ•ํ•ด ๋ชจ๋ธ์„ ํ•™์Šต์‹œ์ผฐ๋‹ค ๐Ÿ‘ท๐Ÿป‍โ™€๏ธ

 

 

 

 

1.3  ์ข‹์€ ์ง€์‹œ ๋ฐ์ดํ„ฐ์…‹

 

โ  ์–ผ๋งŒํผ ํ•„์š”ํ•œ๊ฐ€ : ์ž‘์€ ๊ทœ๋ชจ์˜ ๋ฐ์ดํ„ฐ์…‹์ด๋”๋ผ๋„ ๊ดœ์ฐฎ๋‹ค (ex. ๋ฉ”ํƒ€์˜ LIMA๋ชจ๋ธ์€ 1000๊ฐœ ์ •๋„์˜ ๋ฐ์ดํ„ฐ๋กœ๋„ ์‚ฌ์šฉ์ž ์š”์ฒญ์— ์‘๋‹ต์ด ๊ฐ€๋Šฅํ•œ ๋ชจ๋ธ์„ ๋งŒ๋“ค์—ˆ๋‹ค) 

 

โ  ์–ด๋А์ •๋„์˜ ํ’ˆ์งˆ์ธ๊ฐ€ : ์ง€์‹œ์‚ฌํ•ญ์ด ๋‹ค์–‘ํ•œ ํ˜•ํƒœ์ด๊ณ  ๋‹ต๋ณ€์˜ ํ’ˆ์งˆ์ด ๋†’์„์ˆ˜๋ก ๋ชจ๋ธ ํ’ˆ์งˆ๋„ ๋†’์•„์ง€๋ฉฐ, ํ’ˆ์งˆ์„ ๋†’์ผ ์ˆ˜ ์žˆ๋Š” ๋ฐฉ๋ฒ•์€ ๊ต์žฌ์˜ ์˜ˆ์ œ ๋ฐ์ดํ„ฐ์ฒ˜๋Ÿผ ๊ต์œก์  ๊ฐ€์น˜๊ฐ€ ๋†’์€ ๋ฐ์ดํ„ฐ์ด๋ฉด ๋œ๋‹ค. (ex. ์ฝ”๋“œ ์˜ˆ์ œ) 

 

 

 

 

 

 

2.  ๋” ์„ ํ˜ธํ•˜๋Š” ์‘๋‹ต ๋งŒ๋“ค๊ธฐ 


 

โ—ฏ  2.1 ์„ ํ˜ธ ๋ฐ์ดํ„ฐ์…‹์„ ์‚ฌ์šฉํ•œ ์ฑ„์  ๋ชจ๋ธ ๋งŒ๋“ค๊ธฐ

 

โ  ์„ ํ˜ธ ๋ฐ์ดํ„ฐ์…‹ (preference dataset) : ๋‘ ๋ฐ์ดํ„ฐ ์ค‘ ์‚ฌ๋žŒ์ด ๋” ์„ ํ˜ธํ•˜๋Š” ๋ฐ์ดํ„ฐ๋ฅผ ์„ ํƒํ•œ ๋ฐ์ดํ„ฐ์…‹ 

 โ†ช๏ธŽ  ์ฑ„์ ๋ชจ๋ธ์ด ์„ ํ˜ธ ๋ฐ์ดํ„ฐ์— ๋น„์„ ํ˜ธ ๋ฐ์ดํ„ฐ๋ณด๋‹ค ๋†’์€ ์ ์ˆ˜๋ฅผ ์ฃผ๋„๋ก ์ฑ„์  ๋ชจ๋ธ์„ ํ•™์Šต์‹œํ‚จ๋‹ค (๊ต์žฌ ์ฝ”๋“œ ๊ฐ€๋…์„ฑ ์˜ˆ์‹œ)

 โ†ช๏ธŽ  OpenAI๋„ ์ฑ—GPT๋ฅผ ๊ฐœ๋ฐœํ•˜๋Š” ๊ณผ์ •์—์„œ, ์ง€๋„๋ฏธ์„ธ์กฐ์ • ์ดํ›„ ์ƒ์„ฑํ•ด๋‚ด๋Š” ๋‹ต๋ณ€์—์„œ ์‚ฌ์šฉ์ž์—๊ฒŒ ํ•ด๊ฐ€๋˜๊ฑฐ๋‚˜ ์ฐจ๋ณ„์ ์ธ ๋‹ต๋ณ€์„ ์ƒ์„ฑํ•˜๋Š” ๊ฒƒ์„ ๋ง‰๊ธฐ ์œ„ํ•ด ์ƒ์„ฑ๋œ ๋‹ต๋ณ€์˜ ์ ์ˆ˜๋ฅผ ํ‰๊ฐ€ํ•˜๋Š” Reward model์„ ๋งŒ๋“ค์—ˆ๋‹ค. 

 

“์–ด๋–ค ๋‹ต๋ณ€์ด ์‚ฌ๋žŒ์—๊ฒŒ ๋” ์œ ์šฉํ•˜๊ณ , ์นœ์ ˆํ•˜๊ณ , ์ •ํ™•ํ•œ์ง€”

 

 

๐Ÿ’ก ์„ ํ˜ธ ๋ฐ์ดํ„ฐ์…‹์€ ๋ณดํ†ต ์ง์ ‘ ๊ตฌ์ถ•ํ•œ๋‹ค! ์„ ํ˜ธ ๋ ˆ์ด๋ธ”๋ง ์ž‘์—…์„ ์ˆ˜ํ–‰ํ•ด ๋ฐ์ดํ„ฐ์…‹์„ ๋งŒ๋“ ๋‹ค. ํ—ˆ๊น…ํŽ˜์ด์Šค ๋“ฑ์— ๊ณต๊ฐœ๋œ ์ผ๋ถ€ ๋ฐ์ดํ„ฐ์…‹๋“ค์„ ์ฐธ๊ณ ํ•  ์ˆ˜ ์žˆ์ง€๋งŒ, ๋Œ€๋ถ€๋ถ„ ๊ณ ํ’ˆ์งˆ ํŠœ๋‹์€ ๋„๋ฉ”์ธ ํŠนํ™” ์ง์ ‘ ๊ตฌ์ถ•์ด ํ•„์š”ํ•˜๋‹ค. 

 

 

 

 

โ—ฏ  2.2 ๊ฐ•ํ™”ํ•™์Šต์„ ์ ‘๋ชฉ์‹œํ‚ค์ž

 

โ  OpenAI๋Š” ๊ฐ•ํ™”ํ•™์Šต์„ ์‚ฌ์šฉํ•ด LLM์ด ๋ฆฌ์›Œ๋“œ ๋ชจ๋ธ๋กœ๋ถ€ํ„ฐ ๋” ๋†’์€ ์ ์ˆ˜๋ฅผ ๋ฐ›๋„๋ก ํ•™์Šต์‹œํ‚จ ๊ณผ์ •์„ ๊ณต๊ฐœํ–ˆ๋‹ค ๐Ÿ‘‰ RLHF (์‚ฌ๋žŒ์˜ ํ”ผ๋“œ๋ฐฑ์„ ํ™œ์šฉํ•œ ๊ฐ•ํ™”ํ•™์Šต) 

 

โ  ์–ธ์–ด๋ชจ๋ธ์ด RLHF๋ฅผ ํ†ตํ•ด ํ•™์Šตํ•˜๋Š” ๊ณผ์ • 

 โ†ช๏ธŽ  Action : ๋‹ค์Œ๋‹จ์–ด ์˜ˆ์ธก ํ† ํฐ ์ƒ์„ฑ

 โ†ช๏ธŽ  Reward model : ์–ด๋–ค ๋‹ต๋ณ€์ด ๋” ์ข‹์€์ง€ ์ ์ˆ˜๋ฅผ ๋งค๊ธฐ๋„๋ก ํ•™์Šตํ•œ ๋ชจ๋ธ 

 โ†ช๏ธŽ  ์–ธ์–ด๋ชจ๋ธ์€ ํ–‰๋™์„ ์ทจํ•  ๋•Œ๋งˆ๋‹ค ๋ณด์ƒ๋ฐ›๋Š” ํ˜•์‹์ด ์•„๋‹ˆ๋ผ, ์ „์ฒด ์ƒ์„ฑ ๊ฒฐ๊ณผ์— ๋Œ€ํ•ด ๋ฆฌ์›Œ๋“œ ๋ชจ๋ธ์˜ ์ ์ˆ˜๋ฅผ ๋ฐ›๋Š”๋‹ค 

 

โ  Reward Hacking : ๋ณด์ƒ์„ ๋†’๊ฒŒ ๋ฐ›๋Š”๋ฐ์—๋งŒ ์ง‘์ค‘ํ•˜์—ฌ ๋ฐœ์ƒํ•˜๋Š” ๋ฌธ์ œ๋กœ, ๊ฐ€๋ น ์ฝ”๋“œ ๊ฐ€๋…์„ฑ ์ ์ˆ˜๋ฅผ ๋†’๊ฒŒ ๋ฐ›๊ธฐ ์œ„ํ•ด ๊น”๋”ํ•œ ์ฝ”๋“œ๋ฅผ ์ž‘์„ฑํ•˜๋Š”๊ฒŒ ์•„๋‹ˆ๋ผ ์•„์˜ˆ ์ฝ”๋“œ๋ฅผ ์ž‘์„ฑํ•˜์ง€ ์•Š๊ฑฐ๋‚˜ print๋ฌธ ๊ฐ™์€ ๊ฐ„๋‹จํ•œ ์ฝ”๋“œ๋งŒ ์ž‘์„ฑํ•˜๋ ค๋Š” ํ˜•ํƒœ 

 โ†ช๏ธŽ  OpenAI๋Š” ๋ณด์ƒํ•ดํ‚น์„ ํ”ผํ•˜๊ธฐ ์œ„ํ•ด PPO๋ผ๋Š” ๊ฐ•ํ™”ํ•™์Šต ๋ฐฉ๋ฒ•์„ ์‚ฌ์šฉ 

 

 

 

โ—ฏ  2.3  PPO : ๋ณด์ƒํ•ดํ‚น ํ”ผํ•˜๊ธฐ

 

โ  Proximal Preference Optimization (๊ทผ์ ‘ ์ •์ฑ… ์ตœ์ ํ™”) : ์ง€๋„๋ฏธ์„ธ์กฐ์ •๋ชจ๋ธ(=Reference Model)์„ ๊ธฐ์ค€์œผ๋กœ, ํ•™์Šตํ•˜๋Š” ๋ชจ๋ธ์ด ๋„ˆ๋ฌด ๋ฉ€์ง€ ์•Š๊ฒŒ ๊ฐ€๊นŒ์šด ๋ฒ”์œ„์—์„œ ๋ฆฌ์›Œ๋“œ ๋ชจ๋ธ์˜ ๋†’์€ ์ ์ˆ˜๋ฅผ ์ฐพ๋„๋ก ํ•œ๋‹ค๋Š” ์˜๋ฏธ 

 

โ  RLHF๋ฅผ ์ฑ—GPT ๊ฐœ๋ฐœ์— ๋„์ž…ํ•˜๋ฉด์„œ ํŽธํ–ฅ์„ฑ, ๊ณต๊ฒฉ์„ฑ ๋“ฑ ์—ฌ๋Ÿฌ ๋ฌธ์ œ๋ฅผ ํšจ๊ณผ์ ์œผ๋กœ ์ œ์–ดํ•  ์ˆ˜ ์žˆ์—ˆ์œผ๋‚˜, RLHF๋Š” ๋ฆฌ์›Œ๋“œ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ ๋˜ํ•œ ์ค‘์š”ํ•˜๊ธฐ ๋•Œ๋ฌธ์— ๊ฐœ๋ฐœ์ด ์–ด๋ ต๋‹ค. ๋˜ํ•œ ์ฐธ๊ณ ๋ชจ๋ธ/ํ•™์Šต๋ชจ๋ธ/๋ฆฌ์›Œ๋“œ๋ชจ๋ธ ์ด 3๊ฐœ์˜ ๋ชจ๋ธ์ด ํ•„์š”ํ•˜๊ธฐ ๋•Œ๋ฌธ์— ๋ฆฌ์†Œ์Šค๊ฐ€ ๋งŽ์ด ํ•„์š”ํ•˜๊ณ , ๊ฐ•ํ™”ํ•™์Šต ์ž์ฒด๊ฐ€ ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ์— ๋ฏผ๊ฐํ•˜๊ณ  ํ•™์Šต์ด ๋ถˆ์•ˆ์ •ํ•ด ๋งŽ์€ ๊ฐœ๋ฐœ์ž๋“ค์ด RLHF๋ฅผ ํ™œ์šฉํ•ด LLM์„ ํ•™์Šตํ•˜๋Š”๋ฐ ์–ด๋ ค์›€์„ ๊ฒช์—ˆ๋‹ค.  

 

 

 

 

 

 

3.  ๊ฐ•ํ™”ํ•™์Šต ์—†์ด ์„ ํ˜ธํ•˜๋Š” ๋‹ต๋ณ€์„ ์ƒ์„ฑํ•˜๋„๋ก ํ•˜๋Š” ๋ฐฉ๋ฒ•


 

โ—ฏ  3.1 ๊ธฐ๊ฐ ์ƒ˜ํ”Œ๋ง

 

โ  Rejection Sampling : ์ง€๋„๋ฏธ์„ธ์กฐ์ •๋œ LLM์„ ํ†ตํ•ด ์—ฌ๋Ÿฌ ์‘๋‹ต์„ ์ƒ์„ฑํ•˜๊ณ , ๊ทธ์ค‘์—์„œ ๋ฆฌ์›Œ๋“œ ๋ชจ๋ธ์ด ๊ฐ€์žฅ ๋†’์€ ์ ์ˆ˜๋ฅผ ์ค€ ์‘๋‹ต์„ ๋ชจ์•„ ๋‹ค์‹œ ์ง€๋„ ๋ฏธ์„ธ์กฐ์ •์„ ์ˆ˜ํ–‰ํ•˜๋Š” ๋ฐฉ๋ฒ•์ด๋‹ค. 

 

โ  ๊ธฐ๊ฐ ์ƒ˜ํ”Œ๋ง ์ž์ฒด๋กœ ์‚ฌ๋žŒ์˜ ์„ ํ˜ธ๋ฅผ ํ•™์Šตํ•  ์ˆ˜ ์žˆ์œผ๋‚˜, ๋ฉ”ํƒ€์˜ ๋ผ๋งˆ-2์˜ ํ•™์Šต๊ณผ ๊ฐ™์ด ๊ฐ•ํ™”ํ•™์Šต ์ „์— ํ™œ์šฉํ•˜์—ฌ ํ•™์Šต์„ ๋” ์•ˆ์ •์ ์œผ๋กœ ๋งŒ๋“œ๋Š” ๋ฐฉ์‹์œผ๋กœ๋„ ํ™œ์šฉํ•  ์ˆ˜ ์žˆ๋‹ค. 

 

๐Ÿฆ™ ๋ผ๋งˆ-2 ํ•™์Šต๊ณผ์ •
[1] ์‚ฌ์ „ํ•™์Šต 

- ์ž๊ธฐ์ง€๋„ํ•™์Šต (๋น„์ง€๋„ํ•™์Šต) : ๋‹ค์Œ ๋‹จ์–ด๋ฅผ ์˜ˆ์ธกํ•˜๋Š” ์–ธ์–ด ๋ชจ๋ธ๋ง 
[2] ์ง€๋„๋ฏธ์„ธ์กฐ์ •
[3] ์‚ฌ๋žŒ ํ”ผ๋“œ๋ฐฑ (์‚ฌ๋žŒ ์„ ํ˜ธ ๋ฐ์ดํ„ฐ์…‹ ๊ตฌ์ถ•) 
[4] RLHF : ๊ธฐ๊ฐ์ƒ˜ํ”Œ๋ง ํ›„ PPO

 

 

๐Ÿ’ก  RLHF๋Š” ๋ชจ๋ธ์ด ์Šค์Šค๋กœ ๋ฆฌ์›Œ๋“œ๋ฅผ ์ตœ๋Œ€ํ™” ํ•˜๋„๋ก ๊ณ„์† ํƒํ—˜ํ•˜๊ณ  ๊ฐœ์„ ํ•˜๋Š” ๊ณผ์ •์„ ๋ฐ˜๋ณตํ•˜๋Š” '์ข‹์€ ๋‹ต๋ณ€์„ ์Šค์Šค๋กœ ์ฐพ๋Š”' ๋ฐฉ์‹์ด๋ผ ํ•œ๋‹ค๋ฉด, ๊ธฐ๊ฐ์ƒ˜ํ”Œ๋ง์€ ๋™์ผํ•œ ์งˆ๋ฌธ์— ์—ฌ๋Ÿฌ ๋‹ต๋ณ€ ํ›„๋ณด๋“ค์„ ๋ฝ‘์€ ๋’ค์— ๋ฆฌ์›Œ๋“œ๋ชจ๋ธ์ด ๋‚ฎ์€ ์ ์ˆ˜๋Š” ๊ธฐ๊ฐํ•˜๊ณ  ์ข‹์€๊ฒƒ๋งŒ ์ฑ„ํƒํ•ด์„œ ๊ณ ๋ฅด๋Š” ๋ฐฉ์‹ (์—ฌ๋Ÿฌ ๋‹ต๋ณ€ ์ค‘ ์ข‹์€ ๊ฒƒ๋งŒ ๊ณ ๋ฅด๋Š” ๋ฐฉ์‹)

 

 

 

 

โ—ฏ  3.2  DPO

 

โ  Directed Preference Optimization : ๊ฐ•ํ™”ํ•™์Šต์„ ์‚ฌ์šฉํ•˜์ง€ ์•Š๊ณ  ์„ ํ˜ธ ๋ฐ์ดํ„ฐ์…‹์„ ์ง์ ‘ ํ•™์Šตํ•˜๋Š” ๋ฐฉ๋ฒ• 

 โ†ช๏ธŽ  ์„ ํ˜ธ ๋ฐ์ดํ„ฐ์…‹์„ ์ง์ ‘ ์–ธ์–ด๋ชจ๋ธ์— ํ•™์Šต์‹œํ‚จ๋‹ค (์ด๋•Œ์˜ ๋ชจ๋ธ์€ ์ง€๋„๋ฏธ์„ธ์กฐ์ •์„ ๊ฑฐ์นœ ๋ชจ๋ธ์ด์–ด์•ผ ํ•œ๋‹ค). ์–ธ์–ด๋ชจ๋ธ์€ ํ•ด๋‹น ๊ณผ์ •์„ ํ†ตํ•ด ์ ์ฐจ ์„ ํ˜ธ ๋ฐ์ดํ„ฐ๋ฅผ ์ž์ฃผ ์ƒ์„ฑํ•˜๋Š” ๋ชจ๋ธ์ด ๋œ๋‹ค. RLHF๋Š” ์„ ํ˜ธ๋ฐ์ดํ„ฐ๋ฅผ ๋ฆฌ์›Œ๋“œ ๋ชจ๋ธ์ด ํ•™์Šตํ•˜๊ณ  ๊ฐ•ํ™”ํ•™์Šต ๋ฐฉ์‹์œผ๋กœ ์–ธ์–ด๋ชจ๋ธ์˜ ์ถœ๋ ฅ์„ ํ‰๊ฐ€ํ–ˆ๋‹ค๋ฉด, DPO๋Š” ํ›จ์”ฌ ๋” ์‰ฝ๊ณ  ๋น ๋ฅด๊ฒŒ ๋ชจ๋ธ์— ์‚ฌ๋žŒ์˜ ์„ ํ˜ธ๋ฅผ ๋ฐ˜์˜ํ•  ์ˆ˜ ์žˆ๋‹ค. (ํ˜„์žฌ ๊ฐ€์žฅ ์„ ํ˜ธ๋˜๋Š” ๋ฐฉ์‹) 

 

 

 

 

728x90