1. ๋ฉํฐ๋ชจ๋ฌ LLM์ด๋
1.1 ๋ฉํฐ๋ชจ๋ฌ LLM์ ๊ตฌ์ฑ์์
โ ๋ฉํฐ๋ชจ๋ฌLLM
โช๏ธ ํ ์คํธ๋ฟ๋ง ์๋๋ผ ์ด๋ฏธ์ง, ๋น๋์ค, ์ค๋์ค, 3D๋ฑ ๋ค์ํ ํ์์ ๋ฐ์ดํฐ๋ฅผ ์ดํดํ๊ณ ์์ฑํ ์ ์๋ LLM์ ๋งํ๋ค.
โช๏ธ LLM์ ๋ฐ์ด๋ ์ธ์ด์ดํด ๋ฅ๋ ฅ๊ณผ ์ถ๋ก ๋ฅ๋ ฅ์ ์ค์ฌ์ผ๋ก ๋ค์ํ ํ์์ ๋ฐ์ดํฐ๋ฅผ ์ดํดํ๊ณ ์์ฑํ๋ ๋ฅ๋ ฅ์ ์ถ๊ฐํ๋ ๋ฐฉ์์ผ๋ก ๊ตฌํ๋๋ค.
โ ๊ตฌ์ฑ์์

โช๏ธ ์ด๋ฏธ์งํ์์ ๋ฐ์ดํฐ๋ฅผ Modality Encoder ์ Input Projector ๋ฅผ ํตํด ํ ์คํธ๋ก ๋ณํํ์ฌ LLM์ ์ ๋ ฅํ๋ค.
โช๏ธ Output Projector๋ฅผ ํตํด ์ด๋ฏธ์ง ํํ์ ๋ฐ์ดํฐ ์ถ๋ ฅ์ด ํ์ํ์ง ํ๋จํ๊ณ Modality Generator๋ฅผ ํตํด ํน์ ๋ฐ์ดํฐ ํ์์ ์ถ๋ ฅ์ ์์ฑํ๋ค.
โช๏ธ โ๏ธ : ์ผ์์์ด์ฝ์ด ์๋ 3๊ฐ ๊ตฌ์ฑ์์๋ ํ์ต์ ๋ง์ ๋ฐ์ดํฐ์ ์ฐ์ฐ๋์ด ํ์ํ๋ฏ๋ก ๋ฉํฐ๋ชจ๋ฌ LLM ํ์ต ๊ณผ์ ์์ ํ๋ผ๋ฏธํฐ๋ฅผ ์ ๋ฐ์ดํธ ํ์ง ์๊ณ ์ฌ์ ํ์ต๋ ๋ชจ๋ธ์ ์ฌ์ฉํ๋ค.
โช๏ธ ๐ฅ : Input & Output Projector๋ Modality Encoder, LLM Backbone, Modality Generator ๋ฅผ ์ฐ๊ฒฐํ๋ ๊ตฌ์ฑ์์๋ก, ๋ฉํฐ๋ชจ๋ฌ LLM ํ์ต ๊ณผ์ ์์ ํ๋ผ๋ฏธํฐ๋ฅผ ์ ๋ฐ์ดํธํ์ฌ ๋ฉํฐ๋ชจ๋ฌ ์ดํด์ ์์ฑ ์ฑ๋ฅ์ ๋์ธ๋ค.
โ Modality Encoder
โช๏ธ ์ด๋ฏธ์ง, ๋น๋์ค, ์ค๋์ค์ ๊ฐ์ด ํ ์คํธ ์ด์ธ์ ๋ฐ์ดํฐ ํ์์ ์ฒ๋ฆฌํ๊ธฐ ์ํด ํ์ต๋ ์ฌ์ ํ์ต๋ ๋ชจ๋ธ์ ๋งํ๋ค.
โช๏ธ ์ธ์ฝ๋๋ฅผ ํต๊ณผํ ์ ๋ ฅ๋ฐ์ดํฐ๋ ํน์ง๋ฒกํฐ๋ก ๋ณํ๋๊ณ ํน์ง๋ฒกํฐ ์ดํ์ ๋ค๋ฃฐ Input Projector๋ฅผ ํตํด ํ ์คํธ๋ก ๋ณํํ๋ค.
โช๏ธ ๋ค์ํ ํ์์ ์ ๋ ฅ ๋ฐ์ดํฐ๋ฅผ ํ ์คํธ๋ก ๋ณํํ๊ธฐ ์ํ ์ค๋น๋จ๊ณ

โช๏ธ ์ด๋ฏธ์ง ๋ฐ์ดํฐ๋ฅผ ์ฒ๋ฆฌํ๋ ๋ชจ๋ฌ๋ฆฌํฐ ์ธ์ฝ๋๋ก๋ Vision Transformer๊ฐ ๊ฐ์ฅ ๋ง์ด ํ์ฉ๋๋ค. ํธ๋์คํฌ๋จธ ์ํคํ ์ฒ๋ฅผ ์ด๋ฏธ์ง์ ์ ์ฉํ ๋ชจ๋ธ๋ก, ์ด๋ฏธ์ง๋ฅผ patch๋จ์๋ก ์๋ฅธ ํ ํ ์คํธ์์ ๋จ์ด๋ฅผ ์ฒ๋ฆฌํ๋ ๊ฒ๊ณผ ๊ฐ์ด ์ผ๋ ฌ๋ก ๋์ดํด ์ ๋ ฅํด ์ฒ๋ฆฌํ๋ค. ์ด๋ฏธ์ง patch๋ vocabulary(ํ ์คํธ๋ฅผ ์ซ์์์ด๋์ ํ ํฐ์๋ฒ ๋ฉ์ผ๋ก ๋ณํํ์ฌ ์ ์ฅํ๊ฒ) ๋ฅผ ๊ตฌ์ถํ๊ธฐ ์ด๋ ต๊ธฐ ๋๋ฌธ์ ์ ํ๋ณํ์ ํตํด ์ด๋ฏธ์ง ์๋ฒ ๋ฉ ๋ฒกํฐ๋ก ๋ณํํ์ฌ ํ ํฐ ์๋ฒ ๋ฉ๊ณผ ์ ์ฌํ๊ฒ ๋ง๋ ๋ค.

โช๏ธ ๋ค์์ผ๋ก OpenAI๊ฐ ๊ฐ๋ฐํ CLIP (Constrative Language-Image Pre-training) ๋ชจ๋ธ์ด ๋ง์ด ์ฌ์ฉ๋๋ค. ์ธํฐ๋ท์์์ ์์งํ ์ด๋ฏธ์ง์ ์บก์ ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํด, ์ด๋ฏธ์ง์ ํ ์คํธ๋ฅผ ๊ฐ์ ๋ฒกํฐ ๊ณต๊ฐ์ ์๋ฒ ๋ฉํ๋๋ก ๋ง๋ค์ด์ง ๋ชจ๋ธ๋ก, ๋ด๋ถ์ ์ผ๋ก ์ด๋ฏธ์ง์ฒ๋ฆฌ ๋ชจ๋ธ๊ณผ ํ ์คํธ ์ฒ๋ฆฌ ๋ชจ๋ธ์ด ํจ๊ป ์ฌ์ฉ๋๋ค.
โ Input Projector
โช๏ธ ์ ๋ ฅํ๋ก์ ํฐ๋ ์ด๋ฏธ์ง ์๋ฒ ๋ฉ์ LLM Backbone์ด ์ดํดํ ์ ์๋ ํ ์คํธ๋ก ๋ณํํ๋ค.
โช๏ธ ์ด๋ ๊ฒ ๋ณํ๋ ํ ์คํธ๋ฅผ ๋ฐํ์ผ๋ก, LLM์ด ์ ์ฒด๋ฅผ ์ ๋ ฅ๋ฐ์ ์ถ๋ก ๋ฅ๋ ฅ๊ณผ ์ปจํ ์คํธ ํ์ต ๋ฅ๋ ฅ๋ฑ LLM์ ์ฒ๋ฆฌ๋ฅ๋ ฅ์ ํ์ฉํด ํ ์คํธ๋ฅผ ์์ฑํ๊ณ ๋ฐํํ๋ค.
โ Output Projector
โช๏ธ ๊ตฌ๊ธ์ ์ ๋ฏธ๋์ด๊ฐ์ ๋ฉํฐ๋ชจ๋ฌLLM์ ํ ์คํธ๋ ๋ฌผ๋ก ์ด๋ฏธ์ง๋ ์์ฑํ ์ ์๋ค. 1) ์ด๋ฏธ์ง ์์ฑ์ด ํ์ํ์ง ํ๋จํ๋ ๋จ๊ณ์, 2) ์ด๋ค ์ด๋ฏธ์ง๋ฅผ ์์ฑํ ์ง ์ ํ๋ ๋จ๊ณ๊ฐ ํ์ํ๋ค. ์ด ๋ ๋จ๊ณ๋ ์ถ๋ ฅ ํ๋ก์ ํฐ์์ ์ด๋ฃจ์ด์ง๋ค.
โช๏ธ ์ด๋ฏธ์ง ์์ฑ์ด ํ์ํ ๊ฒฝ์ฐ, ์ด๋ฏธ์ง ์์ฑ ๋ชจ๋ธ์ ์ ์ ํ ํ๋กฌํํธ๋ฅผ ์์ฑํ๋ ๊ฒ์ด ์ถ๋ ฅํ๋ก์ ํฐ์ ์ญํ ์ด๋ค.
โ Modality Generator
โช๏ธ ์ถ๋ ฅ ํ๋ก์ ํฐ๋ฅผ ํตํด ์์ฑ๋ ์ด๋ฏธ์ง ์์ฑ ํ๋กฌํํธ๋ ๋ชจ๋ฌ๋ฆฌํฐ ์์ฑ๊ธฐ์ ์ ๋ฌ๋๊ณ ์ต์ข ์ ์ผ๋ก ์ด๋ฏธ์ง๋ฅผ ์์ฑํ๋ค.
โช๏ธ ๋ํ์ ์ธ ์ด๋ฏธ์ง ์์ฑ๋ชจ๋ธ๋ก๋ DALL-E๊ฐ ์๋ค
1.2 ๋ฉํฐ๋ชจ๋ฌ LLM ํ์ต๊ณผ์
โ ๋ฉํฐ๋ชจ๋ฌ LLM์ ํ์ต
โช๏ธ 1) ์ฌ์ ํ์ต, 2) ์ง์ ๋ฐ์ดํฐ์ (์ฌ์ฉ์์ ์๊ตฌ์ฌํญ๊ณผ ๊ทธ์ ๋ํ ์๋ต์ ๊ตฌ์กฐํํ ๋ฐ์ดํฐ์ ) ์ ํ์ฉํ ์ง์ํ์ต(instruction tuning)์ผ๋ก ์ด๋ฃจ์ด์ง๋ค.
โ ์ฌ์ ํ์ต
โช๏ธ LLM์ ์ด๋ฏธ์ง-ํ ์คํธ ์๊ณผ ๊ฐ์ ๋๊ท๋ชจ ๋ฉํฐ๋ชจ๋ธ ๋ฐ์ดํฐ์ธํธ๋ก ํ์ต๋๋ค.
โช๏ธ ์๋ก ๋ค๋ฅธ ๋ชจ๋ฌ๋ฆฌํฐ์ ํํ์ ์ดํดํ๊ณ , ๊ทธ ๊ด๊ณ๋ฅผ ์ฐ๊ฒฐํ๋ ๋ฐฉ๋ฒ์ ํ์ตํ๋ค. LLM์ด ๋ฉํฐ๋ชจ๋ฌ ๋ฐ์ดํฐ์ ๋ํ ์ ์ฒด์ ์ธ ์ดํด๋ ฅ์ ์ต๋ํ๊ณ ๋์ด๋๋ฐ ์ง์คํ๋ค.
โช๏ธ ์ ์ฒด์ ์ธ ๋ฉํฐ๋ชจ๋ฌ ์ดํด๋ ํฅ์์ ์ํ ๋จ๊ณ
โ ์ง์ํ๋
โช๏ธ ์๊ท๋ชจ ๋ฉํฐ๋ชจ๋ฌ ์ง์๋ฐ์ดํฐ์ ์ผ๋ก ๋ฏธ์ธ์กฐ์ ์ ์งํํ๋ค. ๋ชจ๋ธ์ด ์ด๋ฏธ์ง ์บก์ ์ ์์ฑํ๊ฑฐ๋, ์ ๋ ฅ ์ด๋ฏธ์ง์ ๋ํ ์ง๋ฌธ์๋ต๊ฐ์ ํน์ ๋ฉํฐ๋ชจ๋ฌ ์์ ์ ์ํํ๋๋ก ํ์ต์ํค๋ ๊ฒ์ ๋งํ๋ค.
โช๏ธ ๋ชจ๋ธ์ด ํน์ ํ ๋ฉํฐ๋ชจ๋ฌ ์ฌ์ฉ ์ฌ๋ก์ ๋ง์ถ์ด ํ์ํ ์ฑ๋ฅ์ ๋ฐํํ๋๋ก ํ์ต๋๋ค.
2. ์ด๋ฏธ์ง์ ํ ์คํธ๋ฅผ ์ฐ๊ฒฐํ๋ ๋ชจ๋ธ : CLIP
2.1 CLIP๋ชจ๋ธ์ด๋
โ CLIP
โช๏ธ ํ ์คํธ ๋ฐ์ดํฐ์ ์ด๋ฏธ์ง ๋ฐ์ดํฐ์ ๊ด๊ณ๋ฅผ ๊ณ์ฐํ ์ ์๋๋ก, ํ ์คํธ ๋ชจ๋ธ๊ณผ ์ด๋ฏธ์ง ๋ชจ๋ธ์ ํจ๊ป ํ์ต์ํจ ๋ชจ๋ธ
โช๏ธ ์ด๋ค ์ด๋ฏธ์ง์ ์ด๋ค ํ ์คํธ๊ฐ ์ ์ฌํ์ง ๊ณ์ฐํ ์ ์๊ณ ๊ทธ ์ ๋ณด๋ฅผ ๊ฒ์์ด๋ ๋ถ๋ฅ์ ํ์ฉํ ์ ์๋ค.
2.2 CLIP ๋ชจ๋ธ์ ํ์ต๋ฐฉ๋ฒ
โ ์ด๋ฏธ์ง-ํ ์คํธ ์์ ๋ฐ์ดํฐ

โช๏ธ MS-COCO๋ฐ์ดํฐ์ ์ ์์ : ๋ฐ์ดํฐ๋ก ์ฝ๋ผ๋ฆฌ์ ์ฌ๋์ด ์ด๋ฏธ์ง์ ์๊ณ ๋๋ฌผ์์์ ์ฌ๋๋ค์ด ์ฝ๋ผ๋ฆฌ๋ฅผ ๊ตฌ๊ฒฝํ๊ณ ์๋ค๋ ์ค๋ช ์ด ๋ถ์ด์๋ค. ํด๋น ๋ฐ์ดํฐ์ ์๋ ๊ฐ ๋ฌผ์ฒด๊ฐ ์ด๋ ์์ญ์ ์๋์ง ๊ธฐ๋กํ ๊ฒฝ๊ณ์ ์ ๋ณด๋ ํจ๊ป ํฌํจ๋์ด ์๋ค. ๋ค๋ง, MS-COCO ๋ฐ์ดํฐ์ ์ ํ๋ฆฌํฐ๊ฐ ๋์ง๋ง ์๊ฐ ์ ์ ๋ฌธ์ ๊ฐ ์์๋ค.
โช๏ธ CLIP ๋ชจ๋ธ ์ฐ๊ตฌํ์ ์ง์ ์ธํฐ๋ท์์์ 50๋ง๊ฐ์ ๊ฒ์์ด๋ก 4์ต๊ฐ์ (์ด๋ฏธ์ง, ์บก์ ) ์ ๋ฐ์ดํฐ๋ฅผ ๊ตฌ์ถํ๋ค.
โ ๋์กฐํ์ต

โช๏ธ CLIP์ ๋์กฐํ์ต์ ํตํด ๋ชจ๋ธ์ ํ์ต์ํจ๋ค. ์ ์ฌํ ๋ฐ์ดํฐ์์ ๋ ๊ฐ๊น์์ง๋๋ก ํ๊ณ , ์ ์ฌํ์ง ์์ ๋ฐ์ดํฐ ์์ ๋ ๋ฉ์ด์ง๋๋ก ํ์ต์ํค๋ ๋ฐฉ๋ฒ์ ๋งํ๋ค.
โช๏ธ ์ด๋ฏธ์ง์ ํ ์คํธ๋ฅผ ๊ฐ๊ฐ ์ธ์ฝ๋ฉ ๋ชจ๋ธ์ ๋ฃ์ด ์๋ฒ ๋ฉ์ผ๋ก ๋ง๋ ๋ค. ๋ค์์ผ๋ก ํ๋์์ผ๋ก ์์น ๋ ์๋ก ๋งค์นญ๋๋ ์์ ์ ์ฌ๋๋ ์ปค์ง๊ณ ์๋ก ๋งค์นญ๋์ง ์๋ ์์ ์ ์ฌ๋๋ ์์์ง๋๋ก ํ์ต์ํจ๋ค.
โช๏ธ ์ด๋ฏธ์ง ์ธ์ฝ๋๋ก๋ Visual Transformer๋ ResNet์ ์ฃผ๋ก ์ฌ์ฉํ๊ณ , ํ ์คํธ ์ธ์ฝ๋๋ก๋ ํธ๋ก ์คํฌ๋จธ ๋ชจ๋ธ์ ์ฌ์ฉํ๋ค.
2.3 CLIP ๋ชจ๋ธ์ ํ์ฉ๊ณผ ๋ฐ์ด๋ ์ฑ๋ฅ
โ zero-shot prediction

โช๏ธ ํ์ต์ด ๋๋ CLIP๋ชจ๋ธ์ ์ ๋ก์ท ์ถ๋ก ์ ์ํํ๋ค.
โช๏ธ ์ ๋ก์ท ์ถ๋ก ์ด๋, ์ฌ์ ํ์ต ๋ฐ์ดํฐ ์ธ ํน์ ์์ ์ ์ํ ๋ฐ์ดํฐ๋ก ๋ฏธ์ธ์กฐ์ ํ์ง ์์ ์ํ์์ ์ถ๋ก ์ ์ํํ๋ ๊ฒ์ด๋ค.
โช๏ธ ๋ ์ด๋ธ์ด ์๋ ๋ฐ์ดํฐ์ ์ ๋ํด, 'a photo of {object}' ๋ก ๋ณ๊ฒฝํ๋ ํ๋กฌํํธ ์์ง๋์ด๋ง์ ์ํํ๋ค. ๋จ์ด ๋ ์ด๋ธ์ ๊ทธ๋๋ก ์ฌ์ฉํ๋ฉด ๋์์ด์์ด ๋ฑ์ ๋ฌธ์ ๋ก ์๋ฏธ๋ฅผ ์จ์ ํ ๋ด์ ์ ์๋ ๊ฒฝ์ฐ๊ฐ ๋ฐ์ํ๊ธฐ ๋๋ฌธ์ด๋ค. ์ ๋ ฅํ ์คํธ๋ ํ ์คํธ ์ธ์ฝ๋๋ฅผ ์ฌ์ฉํด ํ ์คํธ ์๋ฒ ๋ฉ์ผ๋ก ๋ง๋ค๊ณ , ์ด๋ฏธ์ง๋ ํ์ต๋ ์ด๋ฏธ์ง ์ธ์ฝ๋๋ฅผ ์ฌ์ฉํด ์ด๋ฏธ์ง ์๋ฒ ๋ฉ์ผ๋ก ๋ง๋ ๋ค. ์๋ฒ ๋ฉ ์ฌ์ด์ ์ ์ฌ๋๊ฐ ๊ฐ์ฅ ํฐ ์ธ๋ฑ์ค๊ฐ ์ถ๋ก ๊ฒฐ๊ณผ๊ฐ ๋๋ค.
โช๏ธ CLIP๋ชจ๋ธ์ ์ด๋ฏธ์ง์ ํ ์คํธ ๊ฐ์ ์ ์ฌ๋ ๊ณ์ฐ์ผ๋ก ์ด๋ฏธ์ง ๊ฒ์์ ์ฐ์ผ ์ ์๋ค.
[๋ณด์ถฉ์ค๋ช ]
* "A photo of..." ๋ผ๋ ๋ฌธ์ฅ์ ์ฌ์ฉํ๋ฉด, ๋ชจ๋ธ์ ์ด ํ ์คํธ๊ฐ ๋ฐ๋์ ๋์์ ์ด๋ฏธ์ง์ ๊ด๋ จ๋ ์ค๋ช ์ด๋ผ๋ ๊ฒ์ ๋ช ํํ ์ธ์ง
* ๋ชจํธ์ฑ ์ ๊ฑฐ: "A photo of a Bass (๋ฒ ์ด์ค=๋์ด ๋ฌผ๊ณ ๊ธฐ ์ฌ์ง)" ๋ "A photo of a Bass guitar (๋ฒ ์ด์ค ๊ธฐํ ์ฌ์ง)" ์ฒ๋ผ, ์์ ํ ๋ฌธ์ฅ์ ๋จ์ด ํ๋๋ง ์์ ๋ ๋ฐ์ํ ์ ์๋ ๋์์ด์์ด(Homonym) ๋ฑ์ ์๋ฏธ์ ๋ชจํธ์ฑ์ ํฌ๊ฒ ์ค์ฌ์ค

โ CLIP ์ ๋ก์ท์ถ๋ก ์ฑ๋ฅ

โช๏ธ 27๊ฐ์ ๋ฐ์ดํฐ์ ์ ๋ํด ์ง๋ํ์ตํ ResNet50๋ชจ๋ธ๊ณผ ์ฑ๋ฅ์ ๋น๊ตํ์ ๋, 16๊ฐ ๋ฐ์ดํฐ์ ์์ ํด๋น ๋ฐ์ดํฐ์ ์ ์ ํ ํ์ตํ์ง ์์ CLIP ๋ชจ๋ธ์ ์ฑ๋ฅ์ด ๋ ๋์๋ค. ์์ฑ์ฌ์ง, ๋ฆผํ์ ์ข ์์ด๋ฏธ์ง, ์์จ์ฃผํ ๊ด๋ จ ๋ฐ์ดํฐ์ฒ๋ผ ์ ๋ฌธํ๋๊ณ ๋ณต์กํ ๋ฐ์ดํฐ์์๋ ์ ์๋ํ์ง ์์๋ค. ๊ทธ๋ฌ๋ ์ง๋ํ์ตํ ResNet50๊ณผ ๋น๊ต๋ฅผ ๊ฐ์ํ๋ฉด CLIP ๋ชจ๋ธ์ด ์๋นํ ์ผ๋ฐํ ๋ฅ๋ ฅ์ ๊ฐ์ง๊ณ ์์์ ์ ์ ์๋ค.
โช๏ธ ์ต๊ทผ๊น์ง๋ CLIP ๋ชจ๋ธ์ ์ด๋ฏธ์ง-ํ ์คํธ ๋ฉํฐ๋ชจ๋ฌ ๊ธฐ๋ฅ์ ๋ง๋ค ๋ ๊ธฐ๋ณธ ๋ชจ๋ธ๋ก ์ฌ์ฉ๋ ์ ๋๋ก ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ณด์ธ๋ค.
2.4 CLIP ๋ชจ๋ธ ์ง์ ํ์ฉํ๊ธฐ
โ ํ๊น ํ์ด์ค ํธ๋์คํฌ๋จธ ๋ผ์ด๋ธ๋ฌ๋ฆฌ
from transformers import CLIPProcessor, CLIPModel
# openai ์ ์ฅ์ ๋ชจ๋ธ์ ์ฌ์ฉํ๋ค.
model = CLIPModel.from_pretrained("openai/clip-vit-large-patch14")
processor = CLIPProcessor.from_pretrained("openai/clip-vit-large-patch14")
โช๏ธ ๋ชจ๋ธ(CLIPModel)๊ณผ ๋ฐ์ดํฐ์ฒ๋ฆฌ ํ๋ก์ธ์(CLIPProcessor)๋ฅผ ๋ถ๋ฌ์จ๋ค. ํ๋ก์ธ์๋ ์ ๋ ฅ ๋ฐ์ดํฐ์ ์ ์ฒ๋ฆฌ ๋ด๋น, ๋ชจ๋ธ์ ์๋ฒ ๋ฉ ๋ชจ๋ธ์ ์๋ฏธํ๋ค.
โ CLIP๋ชจ๋ธ ์ถ๋ก
import requests
from PIL import Image
url = "http://images.cocodataset.org/val2017/000000039769.jpg" # ๊ณ ์์ด ์ด๋ฏธ์ง ์ฝ์ด์ค๊ธฐ
image = Image.open(requests.get(url, stream=True).raw)
# ์
๋ ฅ ํ
์คํธ๋ a photo of {๋ ์ด๋ธ} ํํ๋ก ๋ฃ์ด์ค๋ค.
inputs = processor(text=["a photo of a cat", "a photo of a dog"], images=image, return_tensors="pt", padding=True)
outputs = model(**inputs) # ๋ชจ๋ธ์ ๋ฃ์ด์ค๋ค.
logits_per_image = outputs.logits_per_image
probs = logits_per_image.softmax(dim=1)
probs
## ๊ณ ์์ด์ฌ์ง์ด๋ผ๊ณ ์
๋ ฅํ ๊ฐ์ด ๊ฐ์์ง์ฌ์ง์ด๋ผ๊ณ ์
๋ ฅํ ๊ฐ๋ณด๋ค ํจ์ฌ ํผ
โช๏ธ ์์์ด๋ฏธ์ง๊ฐ ๊ณ ์์ด์ธ๋ฐ, ์ ์ฝ์ด์ค๋ ๊ฒ์ ํ์ธํ ์ ์๋ค.
3. ํ ์คํธ๋ก ์ด๋ฏธ์ง๋ฅผ ์์ฑํ๋ ๋ชจ๋ธ : DALL-E
3.1 ๋ํจ์ ๋ชจ๋ธ ์๋ฆฌ
โ DALL-E
โช๏ธ LLM ๋ฐฑ๋ณธ์ ํ ์คํธ ์ถ๋ ฅ์ ๊ธฐ๋ฐ์ผ๋ก ์ด๋ฏธ์ง๋ฅผ ์์ฑํ๋๋ฐ ์ฌ์ฉํ ์ ์๋ ๋ํ์ ์ธ ์ด๋ฏธ์ง ์์ฑ ๋ชจ๋ธ
โ ๋ํจ์ ๋ชจ๋ธ
โช๏ธ ๋ฌผ๊ฐ์ด ๋ฌผ ์ ์ฒด์ ๊ท ์ผํ๊ฒ ํผ์ ธ๋๊ฐ๋ ํ์ฐํ์์ ๋ฐ์ดํฐ ๊ด์ ์์ ๋ณด๋ฉด ๋ฐ์ดํฐ ๋ถํฌ๊ฐ ๋๋คํ๊ฒ ๋ณํ๋ ๊ฒ์ ๋์

โช๏ธ ๋ฌผ๊ฐ์ด ํผ์ ธ๋๊ฐ๋ ํ์์ ์ด๋ฏธ์ง๊ฐ ์์ ํ ๋๋คํ ๋ ธ์ด์ฆ๋ก ๋ณํ๋ ๊ณผ์ ๊ณผ ์ ์ฌํ๋ค. ๋ํจ์ ๋ชจ๋ธ์ ์ด๋ฏธ์ง์์ ์ด๋ค ๋ถ๋ถ์ด ๋ ธ์ด์ฆ์ธ์ง ์์ธกํ๋ ๋ฐฉ์์ผ๋ก ํ์ตํ๋๋ฐ, ๊ทธ ๋ฅ๋ ฅ์ ์ฌ์ฉํด ์์ ํ ๋ ธ์ด์ฆ ์ํ์ ์ด๋ฏธ์ง์์ ๋ ธ์ด์ฆ๋ฅผ ์์ธกํ๊ณ , ์์ธก๋ ๋ ธ์ด์ฆ๋ฅผ ์ ๊ฑฐํ๋ฉด์ ์ ์ฐจ ์์ ํ ๋ ธ์ด์ฆ์์ ์๋ฏธ๊ฐ ์๋ ์ด๋ฏธ์ง๋ฅผ ์์ฑํ๋ค.
โ U-Net
โช๏ธ ์ด๋ฏธ์ง์์ ๋ ธ์ด์ฆ๋ฅผ ์์ธกํ๋ ๋ํจ์ ๋ชจ๋ธ๋ก๋ U-Net์ด๋ผ๋ ์ธ์ฝ๋ ๋์ฝ๋ ๋ชจ๋ธ์ ๋ง์ด ์ฌ์ฉํ๋ค.
โช๏ธ ์ธ์ฝ๋ ๋์ฝ๋ : ์ ๋ ฅ ๋ฐ์ดํฐ์ ์ฐจ์์ ๋ฎ์ถ๋ ์ธ์ฝ๋ ๋จ๊ณ์, ์ฐจ์์ ๋์ด๋ ๋์ฝ๋ฉ ๋จ๊ณ๋ฅผ ํตํด ๋ฐ์ดํฐ์ ์๋ฏธ๋ฅผ ์์ถํ๊ธฐ ์ํด ์ฌ์ฉ๋๋ ๋ชจ๋ธ ๊ตฌ์กฐ

โช๏ธ U-Net์ ์ธ์ฝ๋ฉ ๋จ๊ณ์ ๊ณ ์ฐจ์ ์ ๋ณด๋ฅผ ๋์ฝ๋ฉ ๋จ๊ณ์๋ ํ์ฉํ์ฌ, ์ด๋ฏธ์ง์ ์์น์ ๋ณด๊ฐ ์์ค๋๋ ๊ฒ์ ๋ง๋๋ค. ์ด๋ฌํ ์ด์ ๋๋ฌธ์, ์ฒ์์๋ ์์น ์ ๋ณด๊ฐ ๋งค์ฐ ์ค์ํ ์ด๋ฏธ์ง Segmentation ์์ ์ ์ฌ์ฉํ๊ธฐ ์ํด ๊ฐ๋ฐ๋์์ง๋ง, ์ง๊ธ์ ์ด๋ฏธ์ง ์์ฑ์ ์ํ ๋ํจ์ ๋ชจ๋ธ๋ก๋ ๋ง์ด ํ์ฉ๋๋ค.

โช๏ธ ์ฐจ์์ด ์์์ง๋ ์ธ์ฝ๋ฉ ๋จ๊ณ์ ์ฐจ์์ด ๋ณต์๋๋ ๋์ฝ๋ฉ ๋จ๊ณ๋ฅผ ์ํ๋ฒณ U์ํ์ผ๋ก ํ๊ธฐํด ๋ถ์ฌ์ง ์ด๋ฆ์ด๋ค.
โ ํ ์คํธ ์๋ฒ ๋ฉ์ ์ถ๊ฐํด ์ํ๋ ์ด๋ฏธ์ง ์์ฑ
โช๏ธ ๋ํจ์ ๋ชจ๋ธ์ ๋ ธ์ด์ฆ๋ฅผ ๋ฃ์ด์ฃผ๋ฉด์, ์ํ๋ ๊ฒฐ๊ณผ๋ฌผ์ ํํ (ex. ์์์๋ ๊ณ ์์ด)๋ฅผ ํ ์คํธ ์๋ฒ ๋ฉ์ผ๋ก ๋ณํํด ๋ํจ์ ๋ชจ๋ธ์ ํจ๊ป ์ ๋ ฅ์ผ๋ก ๋ฃ์ด์ค๋ค. ๊ทธ๋ฌ๋ฉด ํ ์คํธ ์๋ฒ ๋ฉ์ ์ฐธ๊ณ ํด ์ํ๋ ์ด๋ฏธ์ง๋ฅผ ๋ํจ์ ๋ชจ๋ธ์ด ์์ฑํ๊ฒ ๋๋ค. ์ถ๊ฐ์ ๋ณด๋ ํ ์คํธ ์๋ฒ ๋ฉ์ด ๋ ์๋ ์๊ณ ์ด๋ฏธ์ง ์๋ฒ ๋ฉ์ด ๋ ์ ์๋ค.
3.2 DALL-E ๋ชจ๋ธ
โ DALL-E ๋ชจ๋ธ

โช๏ธ CLIP ๋ชจ๋ธ์ ํ์ฉํด ํ ์คํธ ์๋ฒ ๋ฉ์ ๋ง๋ค๊ณ , ํ ์คํธ ์๋ฒ ๋ฉ์ ํ์ฉํด ๋ ๋จ๊ณ๋ฅผ ๊ฑฐ์ณ ์ด๋ฏธ์ง๋ฅผ ์์ฑํ๋ค.
โช๏ธ CLIP : ๋งค์นญ๋๋ ํ ์คํธ ์๋ฒ ๋ฉ๊ณผ ์ด๋ฏธ์ง ์๋ฒ ๋ฉ ๊ฑฐ๋ฆฌ๋ฅผ ๊ฐ๊น๊ฒ ๋ง๋ค๋ฉฐ ํ์ต
โช๏ธ CLIP์ text encoder๋ฅผ ์ฌ์ฉํด ์ ๋ ฅํ ํ ์คํธ๋ฅผ ์๋ฒ ๋ฉ์ผ๋ก ๋ง๋ค๊ณ , Prior ๋ชจ๋ธ์ ํตํด CLIP ์ด๋ฏธ์ง ์๋ฒ ๋ฉ์ ๋ง๋ค๊ณ , Decoder๋ฅผ ์ฌ์ฉํด ์ด๋ฏธ์ง๋ฅผ ์์ฑํ๋ค.

โช๏ธ Prior๋ ํ ์คํธ ์๋ฒ ๋ฉ์ ์ ๋ ฅ์ผ๋ก ๋ฐ์ ์ด๋ฏธ์ง ์๋ฒ ๋ฉ์ ์์ธกํ๋ ๋ํจ์ ๋ชจ๋ธ์ด๋ค. ๋ ธ์ด์ฆ ์ ๋ ฅ์ ์ด๋ฏธ์ง ์๋ฒ ๋ฉ์ผ๋ก ๋ณํํ๋ค.
โช๏ธ decoder๋ ์ด๋ฏธ์ง ์๋ฒ ๋ฉ์ ์ฐธ์กฐํด ์ด๋ฏธ์ง๋ฅผ ์์ฑํ๋ ๋ํจ์ ๋ชจ๋ธ์ด๋ค. prior, decoder ๋ชจ๋ ๋ํจ์ ๋ชจ๋ธ ๊ตฌ์กฐ์ด์ง๋ง, ํ์ต๋๋ ๋ฐ์ดํฐ์ ์ ์ถ๋ ฅ ์ฐจ์์ด ๋ค๋ฅธ ๋ชจ๋ธ์ด๋ผ ์ดํดํ๋ฉด ๋๋ค. ๋์ฝ๋๋ฅผ ํตํด ์์ฑ๋ ์ถ๋ ฅ ์ด๋ฏธ์ง๋ ์ ํด์๋์ธ๋ฐ, DALL-E2์์๋ ์ถ๊ฐ๋ก 2๊ฐ ๋ํจ์ ๋ชจ๋ธ์ ์ฌ์ฉํด 2๋จ๊ณ๋ฅผ ๊ฑฐ์ฒ ๊ณ ํด์๋ ์ด๋ฏธ์ง๋ก ๋ง๋ ๋ค.

โช๏ธ ๊ณ ์ด๋์น๊ทธ๋ฆผ์์ ์ฒซ๋ฒ์งธ ๊ทธ๋ฆผ์ ํ ์คํธ๋ฅผ ๊ทธ๋๋ก ์ด๋ฏธ์ง ๋์ฝ๋์ ์ ๋ ฅํ ๊ฒฝ์ฐ, ๋๋ฒ์งธ ๊ทธ๋ฆผ์ ํ ์คํธ ์๋ฒ ๋ฉ์ ๋์ฝ๋์ ์ ๋ฌํ ๊ฒฝ์ฐ, ๋ง์ง๋ง์ prior์ ๋์ฝ๋๋ฅผ ๋ชจ๋ ์ฌ์ฉํ ๊ฒฝ์ฐ๋ก '๊ณ์ฐ๊ธฐ๋ฅผ ์ฌ์ฉํ๋ ๊ณ ์ด๋์น' ๋ ๋ง์ง๋ง ๊ทธ๋ฆผ์์ ์ ์ผ ์ ํํํ๋ค.
4. LLaVA
4.1 LLaVA์ ํ์ต ๋ฐ์ดํฐ
โ LLaVA

โช๏ธ CLIP : ์ด๋ฏธ์ง์ ํ ์คํธ๋ฅผ ํ๋์ ๋ฒกํฐ๊ณต๊ฐ์ ๋ฐฐ์น, DALL-E : ํ ์คํธ๋ฅผ ์ ๋ ฅ์ผ๋ก ์ด๋ฏธ์ง๋ฅผ ์์ฑํ๋ ๋ชจ๋ธ โฑ ๋ ๋ชจ๋ธ ๋ชจ๋ ๋ฉํฐ๋ชจ๋ฌ๋ชจ๋ธ์ด์ง๋ง, ์ด๋ฏธ์ง์ ๋ํด ๊ธ์ ์์ฑํ๊ฑฐ๋ ๋ํ๋ฅผ ๋๋ ์ ์๋ค. LLAVA ๋ชจ๋ธ์ CLIP๊ณผ LLM์ ๊ฒฐํฉํด ๋ชจ๋ธ์ด ์ด๋ฏธ์ง๋ฅผ ์ธ์ํ๊ณ ๊ทธ ์ด๋ฏธ์ง์ ๋ํ ํ ์คํธ๋ฅผ ์์ฑํ ์ ์๋ค.
โ ๋ฉํฐ๋ชจ๋ฌ ๋ํ๋ชจ๋ธ์ ์ํ ํ์ต ๋ฐ์ดํฐ

โช๏ธ LLM์ด ์ฌ์ฉ์์ ์์ฒญ์ ๋ฐ๋ผ ์๋ตํ๋๋ก ์ง๋๋ฏธ์ธ์กฐ์ ์ ์ํ ์์ฒญ ๋ฐ์ดํฐ์ ์ด ํ์ํ๋ ๊ฒ ์ฒ๋ผ, ๋ฉํฐ๋ชจ๋ฌ๋ํ๋ชจ๋ธ์ ๊ฐ๋ฐํ๊ธฐ ์ํด์ ๋ฐ์ดํฐ์ ์ ๊ตฌ์ถํด์ผ ํ๋ค.
โช๏ธ ChatGPT์ GPT-4๋ฅผ ์ฌ์ฉํด ๋ฐ์ดํฐ์ ์ ์์ฑํ๋ค. ์ด๋ฏธ์ง๋ฅผ ์ค๋ช ํ๋ Caption๊ณผ ์ด๋ฏธ์ง์ ์ด๋ค ๋ฌผ์ฒด๊ฐ ์๋์ง ๋ฌผ์ฒด์ ์์น์ ๋ณด๋ฅผ ๋ฃ์ด์ค Boxes ๋ฐ์ดํฐ๋ฅผ ๊ตฌ์ถํ๋ค. ์ด๋ฏธ์ง๋ฅผ ๊ธ๋ก ํ์ด ๋ง์น ์ด๋ฏธ์ง๋ฅผ ๋ณธ ๊ฒ์ฒ๋ผ ๋ฐ์ดํฐ์ ์ ๊ตฌ์ถํ ๊ฒ์ด๋ค.
โช๏ธ ๋ํ (์ด์์คํดํธ๊ฐ ์ด๋ฏธ์ง๋ฅผ ๋ณด๊ณ ์ฌ๋์ ์ง๋ฌธ์ ๋๋ตํ๋ ํ์์ ๋ฐ์ดํฐ. ์ง๋ฌธ ์ ํ์ ๋ฌผ์ฒด์ ์, ์์น, ํ๋ ๋ฑ ๋ค์ํ๋ค), ์์ธํ ์ค๋ช (์ด๋ฏธ์ง ์ค๋ช ์ ์ฝ๊ณ ์ด๋ฏธ์ง์ ๋ํ ์์ธํ ์ค๋ช ์๊ตฌ), ๋ณต์กํ ์ถ๋ก (์ด๋ ค์ด ์ง๋ฌธ์ ์์ฑํ๊ณ ๋ต๋ณํ๋๋ก ํจ)์ 3๊ฐ์ง ์ ํ์ ํ ์คํธ๋ฅผ ์์ฑํ๋ค.
4.2 LLaVA์ ๋ชจ๋ธ๊ตฌ์กฐ
โ ๋ชจ๋ธ๊ตฌ์กฐ

โช๏ธ ์ ๋ ฅ ์ด๋ฏธ์ง Xv๋ฅผ CLIP์ ์ด๋ฏธ์ง ์ธ์ฝ๋๋ฅผ ํตํด ์ด๋ฏธ์ง ์๋ฒ ๋ฉ(Zv)๋ก ๋ง๋ค๊ณ , ๊ฐ๋จํ ์ ํ์ธต์ ํต๊ณผํด LLM์ ์ ๋ ฅํ ์๋ฒ ๋ฉ ํ ํฐ(Hv)์ผ๋ก ๋ง๋ ๋ค.
โช๏ธ ํ ์คํธ ์ง์์ฌํญ์ ํ ํฐ ์๋ฒ ๋ฉ (Hq)๋ก ๋ณํํด ํจ๊ป ์ ๋ ฅ์ผ๋ก ๋ฃ๊ณ ๊ฒฐ๊ณผ Xa๋ฅผ ์์ฑํ๋ค.
4.3 LLaVA 1.5
โ LLaVA1.5

โช๏ธ ์ด๋ฏธ์ง ์ธ์ฝ๋๋ฅผ CLIP์ ViT-L/14์์ ViT-L/336px๋ก ๋ฐ๊พธ๊ณ , ์ ํ ์ธต์ผ๋ก ์ด๋ฏธ์ง ์๋ฒ ๋ฉ์ ํ ํฐ ์๋ฒ ๋ฉ์ผ๋ก ๋ณํํ๋ ๊ตฌ์กฐ๋ฅผ 2์ธต์ MLP๋ก ๋ณ๊ฒฝํ๋ ์์ ์ผ๋ก ์ฑ๋ฅ์ ๋ํญ ์ฌ๋ ค SOTA ๋ฌ์ฑ
โช๏ธ11๊ฐ ๋ฐ์ดํฐ์ ์์ ๊ฐ์ฅ ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ณด์, ์ฌ์ ํ์ต๊ณผ ์ง๋ ๋ฏธ์ธ์กฐ์ ๋ฐ์ดํฐ์ ๋ชจ๋ ๋ค๋ฅธ ๋ชจ๋ธ๊ณผ ๋น๊ตํ์ ๋ ์ํ ์๊ฐ ํ์ ํ ์ ์
4.4 LLaVA NeXT
โ LLaVA NeXT
โช๏ธ ์คํ์์ค ๋ชจ๋ธ ์ค ์ต๊ณ ์ฑ๋ฅ์ ๋ฌ์ฑํ ๋ฒ์ ์ ๋ชจ๋ธ : ์ด๋ฏธ์ง ํด์๋๊ฐ 4๋ฐฐ ๋์์ง๊ณ , ๊ณ ํ์ง์ ์ง์ ๋ฐ์ดํฐ์ ๊ตฌ์ถ์ผ๋ก ์๊ฐ์ถ๋ก ๋ฅ๋ ฅ๊ณผ OCR์ฑ๋ฅ ๊ฐ์ , ๋ ๋ง์ ์๋๋ฆฌ์ค์ ์๋ต ๊ฐ๋ฅ, SGLang ํ๋ ์์ํฌ๋ฅผ ์ฌ์ฉํด ์ถ๋ก ์ฑ๋ฅ ํฅ์๋จ
'1๏ธโฃ AIโขDS > ๐ LLM' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
| 15. LLM ์์ด์ ํธ (0) | 2025.11.21 |
|---|---|
| 13. LLM ์ด์ํ๊ธฐ (0) | 2025.10.27 |
| 12. ๋ฒกํฐ๋ฐ์ดํฐ๋ฒ ์ด์ค๋ก ํ์ฅํ๊ธฐ : RAG ๊ตฌํํ๊ธฐ (0) | 2025.10.22 |
| 11. ์์ ์ ๋ฐ์ดํฐ์ ๋ง์ถ ์๋ฒ ๋ฉ ๋ชจ๋ธ ๋ง๋ค๊ธฐ : RAG ๊ฐ์ ํ๊ธฐ (0) | 2025.10.19 |
| [์ฑ ์คํฐ๋] 10-(2). ์ค์ต : ์๋ฏธ๊ฒ์ ๊ตฌํํ๊ธฐ (0) | 2025.09.19 |
๋๊ธ