๐ ์ธ๊ณผ์ถ๋ก ๊ฐ์ธ ๊ณต๋ถ์ฉ ํฌ์คํธ ๊ธ์ ๋๋ค. ์ถ์ฒ๋ ์ฒจ๋ถํ ๋งํฌ๋ฅผ ์ฐธ๊ณ ํด์ฃผ์ธ์!
โ ๊ธ1 : ์ธ๊ณผ์ฑ, ์ธ๊ณต์ง๋ฅ, ๊ธฐ๊ณํ์ต, ๋ฐ์ดํฐ ์ฌ์ด์ธ์ค
• ์ธ๊ณต์ง๋ฅ์ ์ด๋ค ์์ด์ ํธ๊ฐ ๋ชฉํ๋ฅผ ์ฑ์ทจํ๊ธฐ ์ํด ์ฃผ์ด์ง ํ๊ฒฝ์์ ํฉ๋ฆฌ์ ์ธ ์ก์ ์ ์ทจํ๋ ๊ฒ์ด๋ค. ์ด๋ ํ๊ฒฝ์ ๋ณํ๋ฅผ ์ฃผ์ด, ์ํ๋ ์ํ๋ก ๋ณํ์ํค๋ ์ธ๊ณผ๊ด๊ณ๋ก ํด์์ด ๊ฐ๋ฅํ๋ค. ๊ธฐ๊ณํ์ต์ ๋ฐ์ดํฐ์ ์๊ด์ฑ์ ํ์ตํ๋ ๊ฒ์ธ๋ฐ, ์ด๋ ์ธ๊ณผ๊ด๊ณ๋ฅผ ํตํด ํด์ํ๋ ๊ฒ๋ ๊ฐ๋ฅํ๋ค. ๋ฐ์ดํฐ๋ฅผ ํตํด ํ๊ณ ์ ํ๋ ์ง๋ฌธ์ ๋ฐ๋ผ ๋ค๋ฅด๊ฒ ์ง๋ง, ์ด๋ค ๋ฐ์ดํฐ๋ฅผ ์์งํ๊ณ ์ฒ๋ฆฌ, ๋ถ์ํ๊ณ ํด๋น ๊ฒฐ๊ณผ๋ฅผ ์ธ๊ฐ๊ณผ ์ด๋ป๊ฒ ์ํธ์์ฉํ ๊ฒ์ธ๊ฐ ํ๋ ๋ง์ ๋ถ๋ถ์์ ์๊ด์ฑ๊ณผ ์ธ๊ณผ์ฑ ๋ชจ๋ ๋ณตํฉ์ ์ผ๋ก ๊ณ ๋ คํ๋ค.
โฏ Pearl's Causal Hierarchy
(1) Associational or Observational ๊ด์ธก๊ณ์ธต : ๊ด์ธก์ ํตํด ์์คํ ์ ๊ตฌ์ฑํ๊ณ ์๋ ๋ณ์๋ค์ ์๊ด์ฑ์ ์ ์ ์๋ค. ๊ฐ๋ น ์์คํผ๋ฆฐ์ ๋จน์ ์ฌ๋๊ณผ ๊ทธ๋ ์ง ์์ ์ฌ๋๋ค์ ๋ํต์ ์ฌํ ์ ๋๋ฅผ ๋์ผ๋ก ๊ด์ฐฐ ๊ฐ๋ฅํ๋ค. ํ์๋ค ๊ฐ์ ์ฐ๊ด์ฑ๊ณผ ์ถ์ธ๋ฅผ ๋ฐํ์ผ๋ก ์์ธกํ๋ค.
→ Current Machine learning
(2) Interventional or Experimental ์คํ๊ณ์ธต : ์ฃผ์ด์ ธ ์๋ ์ฐ๊ตฌ๋ฅผ ํ๊ณ ์ ํ๋ ์์คํ ์ intervention (์ค์ฌ) ๋ผ๊ณ ํ๋๋ฐ, ์ค์ฌ (or ์คํ) ์ ํตํด ๋์ค๋ ๊ฒฐ๊ณผ์ ๊ด์ฌ์ด ์๋ค. ๊ฐ๋ น ์์คํผ๋ฆฐ์ ๋ ๊ทธ๋ฃน์ ๋ฌด์์ํ๊ฒ ๋จน๊ฒ ํ์ฌ ๋ํต์ด ์ด๋ค์์ผ๋ก ๋ฐ๋์๋์ง๋ฅผ ์คํํ ์ ์๋ค.
→ Randomized controlled trials, a/b test
→ Current Reinforcement Learning
(3) Counterfactual ๋ฐ์ฌ์ค์ ๊ณ์ธต : ๊ด์ธก ๊ฐ๊ณผ ์คํ์ ์ํ ๊ฐ์ ๋์์ ๊ณ ๋ คํ๋ ๊ณ์ธต์ผ๋ก, ๊ฐ๋ น ์์คํผ๋ฆฐ์ ๋จน๊ณ ๋ํต์ด ์ฌ๋ผ์ก์ ๋, ๋ง์ฝ ์์คํผ๋ฆฐ์ ๋จน์ง ์์๋ค๋ฉด ๋ํต์ด ์ด๋ป๊ฒ ๋ณํ์์ง์ ๋ํ ์ง๋ฌธ์ ๋ต์ ํ๋ค.
โฏ ์ฌ์จ์ ์ญ์ค
• ๊ฐ๊ฐ์ ๋ณ์์ ์ ๊ฒฝ์ฐ์ง ์๊ณ ์ ์ฒด ํต๊ณ ๊ฒฐ๊ณผ๋ฅผ ์ ์ถํ๋ค ์ผ์ด๋๋ ์ค๋ฅ์ด๋ค.
• ์ธ๊ณผ์ ์ธ ๋ถ์์ ํ๊ธฐ ์ํด์ , ์ฃผ์ด์ง ๋ฐ์ดํฐ ๋ฟ ์๋๋ผ ๊ฐ ๋ณ์๋ค์ด ๊ฐ์ง๋ ์ธ๊ณผ์ ๊ด๊ณ์ ๋ํ ์์ธํ ์ดํด๊ฐ ํ์ํ๋ค.
โก ๊ธ2 : ๋ฐ์ดํฐ ๊ณผํ๊ณผ ์ฐ๋ฆฌ๋๋ผ ๋ฐ์ดํฐ ๊ณผํ ์ ๊ณ์ ๊ดํ ์๊ฐ
• ๋ฐ์ดํฐ ๊ณผํ์ ํ๋ฌธ์ด๋ผ ํํํ๋ ๊ฒ๋ณด๋จ, "๋๊ตฌ" ๋ผ๋ ๋จ์ด๊ฐ ๋์ฑ ์ ์ ํ๋ค.
• ์ถ๋ก (inference) ๊ณผ ์์ธก (prediction)
• ์ธ๊ณผ์ถ๋ก ์ด ๊ฐ์ง๋ ๊ฐ์น๋ ์ถ๋ก ๋ชจ๋ธ๋ง์์๋ง ๋ฐํ๋์ง ์๋๋ค. ์์ธก ๋ชจ๋ธ๋ง์์๋ ์ธ๊ณผ์ถ๋ก ์ด ๊ฐ๋ ๊ฐ์น๋ ์ถฉ๋ถํ ์กด์ฌํ๋ค. ๋จธ์ ๋ฌ๋ ๋ถ์ผ์ ์ต๋ ํํ ์ค ํ๋์ธ NeurIPS์์๋ Causal Inference Workshop์ด ์ด๋ฆฌ๊ณ ์๋ค.
โช ์ํฌ์ตํํ์ด์ง1 , ์ํฌ์ต ํํ์ด์ง2
• ์ฐ๋ฆฌ๋๋ผ ๋ฐ์ดํฐ ๊ณผํ ์ ๊ณ๋ ์ฌ์ ํ ์์ธก ๋ฐฉ๋ฒ๋ก ์ ์ง๋์น๊ฒ ์น์ค๋์ด ์๋ค. ์ถ๋ก ๋ฐฉ๋ฒ๋ก ๊ณผ ์์ธก ๋ฐฉ๋ฒ๋ก ์ ๊ท ํ๋ง์ถ์ด ์๋ฆฝํด ๊ฐ์ผ ํ๋ค.
โข ์์ : ๋ค์ง๊ณ ์ง ๋ฐฐ์๋ณด๋ ์ธ๊ณผ์ถ๋ก _ PAP
• ์ธ๊ณผ๊ด๊ณ๋ ๋ฐ์ดํฐ ๋ถ์์ ํต์ฌ์ด์, ๋น์ฆ๋์ค์์ ๋์์์ด ๋ฌผ์ด๋ณด๋ ๋ฌธ์ ์ด๋ค. ์๊ด๊ด๊ณ๋ ๋ฐ์ดํฐ๋ฅผ ํตํด์ ๊ฐ์ ธ์ฌ ์ ์๋ ๊ฐ์ฅ ๋ฒ ์ด์งํ ์ธ์ฌ์ดํธ์ด๋ค.
โฏ ์์ธก vs ์ถ๋ก : ์ธ๊ณผ๊ด๊ณ๋ฅผ ์๋ ๊ฒ์ ์ฌ์ ์ action ๊ณผ ์ง์ ์ ์ผ๋ก ์ฐ๊ฒฐ๋์ด ์๋ค.
โฏ ์ธ๊ณผ๊ด๊ณ๋ฅผ ์ ์ฆํ๋๋ฐ ์์ด ์ค์ํ ๊ด์ : treatment group ๊ณผ control group ์ ๊ตฌ๋ถํ๋ ๊ฒ
โฏ ํ์ค์์ ์ธ๊ณผ๊ด๊ณ๋ฅผ ์ ์ฆํ๊ธฐ ์ด๋ ค์ด ์ด์ โจ ์ด๋ฅผ ๊ทน๋ณตํ๊ธฐ ์ํ ๋ค์ํ ๋ฐฉ๋ฒ๋ก ๋ค์ด ๋ฑ์ฅ
โฏ ํ ๋์ ๋ณด๋ ์ธ๊ณผ์ถ๋ก ๋ฐฉ๋ฒ๋ก : ์๋ก ๊ฐ์๋ก ์ธ๊ณผ๊ด๊ณ ์์ค์ด ๋์ ์ฆ๋ช ์ด ๋น๊ต์ ์ฌ์ด ๋ฐฉ๋ฒ๋ก ์ด๊ณ ์๋๋ก ๊ฐ์๋ก ์ธ๊ณผ๊ด๊ณ ์์ค์ด ๋ฎ์, ์ธ๊ณผ์ฑ ์ฆ๋ช ์ด ๋น๊ต์ ์ด๋ ค์ด ๋ฐฉ๋ฒ๋ก ์ด๋ค.
• Meta-analysis : ํน์ ํ ๋ถ์ ๋ฐฉ๋ฒ๋ก ์ ์ง์นญํ๋ ๊ฒ์ ์๋๊ณ , ์ฌ๋ฌ ๋ฐฉ๋ฒ๋ก ๋ค์ ๊ฒฐํฉํด ์ฌ์ฉํ๋ ๊ฒ์ ์๋ฏธํ๋ค.
• ๋ฌด์์ ๋น๊ต ์คํ (A/B test) : group ํ ๋น์ randomness ๋ฅผ ๋ถ์ฌํ์ฌ ์ธ๊ณผ์ถ๋ก ์ ๊ฐ๋ฅํ๊ฒ ํ๋ ๋ฐฉ๋ฒ
โช ํฐ์์ ๋ฒ์น์ด๋ ์ค์ฌ๊ทนํ ์ ๋ฆฌ, ๋ฒ ์ด์ง์ ์ถ๋ก ๋ฑ ํต๊ณํ์ ๊ทผ๋ณธ ์ ๋ฆฌ๋ค์ด ์ด ๋ฐฉ์์ ์ ํจ์ฑ๊ณผ ์ ํ์ฑ์ ๋ณด์ฆํ๋ค.
• ์ค์คํ : treatment ์ ์ฉ๊ณผ group ๊ตฌ๋ถ์ ๋ด๊ฐ ์๋ํ๋๋ก ํต์ ํ ์ ์์ ๋ ์ฌ์ฉํ๋ ๋ฐฉ๋ฒ. AB test ๊ฐ ์ ์ฉ๋๊ธฐ ์ด๋ ค์ด ์ํฉ์ผ ๋ ์ฌ์ฉํ๋ ๋ฐฉ๋ฒ๋ก ์ผ๋ก, ์ฌ๋ฌ ํต๊ณ์ ๊ฐ์ค์ ์ ์ฉํด ์คํ์ ์ค๊ณํ๊ณ ์งํํ์ง ๋ชปํ์ง๋ง, ์คํ๊ณผ ์ ์ฌํ ์ํฉ์ ์ญ์ผ๋ก ์ฐพ์ ๋ถ์ํ๋ ๋ฐฉ๋ฒ์ด๋ค. ์ค์คํ ์์์๋ ๋ค์ํ ๋ฐฉ๋ฒ๋ก ๋ค์ด ์กด์ฌํ๋ค.
โช โด DiD ์ด์ค์ฐจ๋ถ๋ฒ
โช โต Synthetic Control Method (SCM)
โช โถ Causal Impact
โช โท Interrupted time series
โช โธ Regression discontinuity design
โช โน IV
• ๋๊ตฌ๋ณ์ : ์ค์คํ์ด ์ด๋ ค์ด ํ๊ฒฝ์์ ํ์ฉํ๋ ๋ฐฉ๋ฒ์ผ๋ก, ์ธ๊ณผ๊ด๊ณ ์ถ์ ์ ๋ฐฉํด๊ฐ ๋๋ ์์ธ์ ๋์ด๋ด๊ธฐ ์ํด ์ฌ์ฉํ๋ ๋ฐฉ๋ฒ์ด๋ค.
• ํ๊ท๋ถ์ : ๋ณ์๋ค๊ฐ์ ๊ด๊ณ๋ฅผ ํ๋ฅ ์ ์ธ ์์์ผ๋ก ํํํ๋ ๋ฐฉ๋ฒ์ผ๋ก, ์ฌ๋ฌ๊ฐ์ง ๋ฐ์ดํฐ๋ฅผ ๋ถ์ํด์ ์ถ์ ํ๊ณ ์ ํ๋ ๊ฒฐ๊ณผ๊ฐ์ ์ค๋ช ํ๋ ์ผ์ข ์ ๊ณต์์ ๋ง๋ค์ด๋ด๋ ๋ฐฉ๋ฒ์ด๋ค.
โป ์ข์ ์ค๋ช ๊ธ
โฏ ์ค์คํ ๋ฐฉ๋ฒ๋ก ๋ค ์์ : ๋ฌธ์ ์ ์์ ๋ฐ๋ผ ๋ค์ํ ๋ฐฉ๋ฒ๋ค์ ์ ์ฉํด๋ณผ ์ ์๋ค.
• RD ๋์์ธ (ํ๊ท ๋ถ์ฐ์, Regression Discontinuity) : ์ ์ฑ ์ด๋ ์์ฌ๊ฒฐ์ ์ ์ํด ๋ฐ์ดํฐ์ ๊ฒฝ๊ณ์ ์ด ์๊ธฐ๋ ๊ฒฝ์ฐ ๋ฐ์ดํฐ์ ๋ถ์ฐ์์ ํ์ฉํ์ฌ ์ธ๊ณผ๊ด๊ณ๋ฅผ ์ธก์ ํ๋ ๋ฐฉ๋ฒ๋ก
โฏ ๋ทํ๋ฆญ์ค์ ์ธ๊ณผ์ถ๋ก ์ฌ์ฉ ์์
• ๋ทํ๋ฆญ์ค์์๋ ์ค์คํ์ ๋ง์ด ์ฌ์ฉํ๋ค๊ณ ํ๋ค.
๋์ค๋งค์ฒด๋ฅผ ํตํด ์ ์ ์๋ ๋ฒ์์ ์ฌ๋์ผ๋ก๋ถํฐ ์ ๋ณด๊ฐ ์ ๋ฌ๋๋ ๊ฒฝ์ฐ, ํน์ ๊ฐ์ธ์๊ฒ๋ง ์ ์ฉ๋๋ ์ถ์ฒ์์คํ ์ด ๊ฐ์ ๋๋ ๊ฒฝ์ฐ, ํต์ ํ ์ ์๋ ์ฌ์ฉ์ ์ฌ์ด์ ์๋ฌธ ๋ฑ โจ ์ด๋ฐ ๋ถ๋ถ๋ค์ด ์๋ฒฝํ๊ฒ ํต์ ๋์ง ์์
์ฅ์ธ๊ด๊ณ ์ ๊ฒฝ์ฐ์๋ ๊ด๊ณ ๋ฅผ ๋ดค๋์ง, ๋ณด์ง ์์๋์ง, ๋ณธ ์ฌ๋์ด ํ์๊ฐ์ ์ ํ๋์ง์ ๋ํ ์ ๋ณด๋ฅผ ์ ์ ์๋ค. ์ฆ, treatment group ๊ณผ control group ์ individual ๋ก ๋ณด์ง ์๊ณ , ์ง์ญ์ผ๋ก ๋๋์๋ค.
โป ๋ทํ๋ฆญ์ค ๋ฆฌ์์น : ์ ์ด๋ A/B ์คํ์ ์ฌ์ฉํ์ฌ ์๋ก์ด ์ถ์ฒ ์๊ณ ๋ฆฌ์ฆ, ์ฌ์ฉ์ ์ธํฐํ์ด์ค(UI) ๊ธฐ๋ฅ, ์ฝํ ์ธ ํ๋ณด ์ ์ , ์๋ณธ ์ถ์ ์ ๋ต, ์คํธ๋ฆฌ๋ฐ ์๊ณ ๋ฆฌ์ฆ, ์ ํ์ ๊ฐ์ ํ๋ก์ธ์ค ๋ฐ ์ง๋ถ ๋ฐฉ๋ฒ์ ํฌํจํ์ฌ ์ ํ์ ๋ํด ์ ์๋ ๊ฑฐ์ ๋ชจ๋ ๋ณ๊ฒฝ ์ฌํญ์ ํ ์คํธํฉ๋๋ค. A/B ์คํ์ด ๋ถ๊ฐ๋ฅํ ๋ ์ฐ๋ฆฌ๋ ํนํ ์๋ก์ด ๋ง์ผํ ๋ฐ ๊ด๊ณ ์์ด๋์ด๋ฅผ ์ธก์ ํ๊ธฐ ์ํด ์ ์ฌ ์คํ ๋ฐ ์ธ๊ณผ ๊ด๊ณ ์ถ๋ก ๋ฐฉ๋ฒ์ ์์กดํฉ๋๋ค. ๋ํ ์ฐ๋ฆฌ๋ ์คํ ์ค๊ณ, ๊ฒ์ ๋ ฅ์ ๋์ด๋ ๊ธฐ์ , ์ธ๊ณผ ์ถ๋ก ์ ๋ํ ๋ฒ ์ด์ง์ ์ ๊ทผ๋ฒ, ๋๊ท๋ชจ ๋ฐ์ดํฐ ์ธํธ๋ฅผ ์ํ ๋น ๋ฅธ ๋ถํธ์คํธ๋ํ์ ํฌํจํ์ฌ Netflix์์ ์คํ ๋ฐ ์ถ๋ก ์ ๋ชจ๋ ์ธก๋ฉด์ ๊ฐ์ ํ๊ธฐ ์ํ ์ ๊ทน์ ์ธ ์์ฉ ์ฐ๊ตฌ ์์ ๋ฅผ ์ ์งํฉ๋๋ค.
โป ๋น์ฆ๋์ค ์ ์ฉ ์์
• ์ค์ํ ๋น์ฆ๋์ค ๋ฌธ์ ๋ ์ธ๊ณผ๊ด๊ณ ์ถ๋ก ์ ํ์๋ก ํ๋ค. ์ข์ ๋ฐ์ดํฐ ๋ถ์์ ์ธ๊ณผ๊ด๊ณ๋ฅผ ๋ฐํ์ผ๋ก ์คํ ๋ฆฌํ ๋งํ๋ ๊ฒ์ด๊ธฐ ๋๋ฌธ์ด๋ค. ์ฐ๋ฆฌ๋ฅผ ์ธ๊ฐ์ผ๋ก ๋ง๋ ํต์ฌ์ ์ธ ์ธ์ง๋ฐ๋ฌ ๊ณผ์ ์ ๊ฒฝํ์ ์์ธ๊ณผ ๊ฒฐ๊ณผ๋ก ๊ตฌ๋ถํด์จ ๊ฒ์ ๊ธฐ๋ฐํ์ง๋ง, ML ์ ์ด๊ฒ์ ๋์น๊ณ ์๋ค. ML ์ ๋ค์ํ ํผ์ณ๋ค์ ๊ธฐ๋ฐ์ผ๋ก ๋ชฉํ ๊ฐ์ ์์ธกํ๋ ๊ฒ์ด ๊ทผ๋ณธ ๊ตฌ์กฐ์ด๋ค.
• ๊ฒ์ ๋๋ฉ์ธ ์์ : ์ค์ ์ดํ ์์ธก ๋ชจ๋ธ๋ง์ ์ํ ๊ณ ๋ ค์ฌํญ : ์์ธก๋ชจ๋ธ๊ณผ ์ธ๊ณผ์ถ๋ก ๋ชจ๋ธ์ ์ฐจ์ด
• NCSOFT_์ธ๊ณผ๊ด๊ณ ๋ธ๋ก๊ทธ
๋๊ธ