1๏ธโฃ AI•DS/๐ฅ Casual inference47 ์ธ๊ณผ์ถ๋ก ์ ๋ฐ์ดํฐ ๊ณผํ - ๋จธ์ ๋ฌ๋์ ํด์ ๊ฐ๋ฅ์ฑ๊ณผ ์ธ๊ณผ์ถ๋ก ๐ ์ธ๊ณผ์ถ๋ก ๊ฐ์ธ ๊ณต๋ถ์ฉ ํฌ์คํธ ๊ธ์ ๋๋ค. ์ถ์ฒ๋ ์ฒจ๋ถํ ๋งํฌ๋ฅผ ์ฐธ๊ณ ํด์ฃผ์ธ์! โ Value of Causality • ์ธ๊ณผ์ฑ์ actionable ํ ์ ๋ต์ ์ ๊ณตํ๋ค. ์๊ด์ฑ์ action ์ผ๋ก ์ด์ด์ง๊ธฐ๊ฐ ์ด๋ ต๋ค (e.g. ์ด์ฝ๋ฆฟ ์๋น๊ฐ ๋ง์์๋ก ๋ ธ๋ฒจ์ ์์์๊ฐ ๋ง๋ค๋ ์๊ด๊ด๊ณ) • ๊ทธ๋ฌ๋ ์ค์ ๋ก ์ธ๊ณผ์ฑ์ ๋์ถํด๋ด๋ ๊ฒ์ ๋งค์ฐ ์ด๋ ค์ (Prediction ๋ ๋ง์ฐฌ๊ฐ์ง) โช ์ค์ ์ธ์์ ๋งค์ฐ ๋ณต์กํ๋ฉฐ dynamic ํ system ์ผ๋ก ๋์ํ๋ค. ํ์ง๋ง ๋ถ์์ ํ ๋๋ ์ด๋ฐ dynamic ํ ํน์ฑ์ ์์ ๊ณ static ํ ๊ฐ์ ์์ ์งํํ๊ธฐ ๋๋ฌธ์ ๊ด์ ์ด ์ ํ์ ์ผ ์ ์๋ค. • ๋ํ ๋ฐ์ดํฐ๊ฐ ์์ ํ์ง ์๋ค. (imperfect and proxy - e.g. ํ๋ณต์ง์) • ๋น์ฆ๋์ค๋ Causal law ๋ฅผ .. 2023. 6. 29. [The Brave and True] 7. Beyond Confounders ๐ ์ธ๊ณผ์ถ๋ก ๊ฐ์ธ ๊ณต๋ถ์ฉ ํฌ์คํธ ๊ธ์ ๋๋ค. ์ถ์ฒ๋ ์ฒจ๋ถํ ๋งํฌ๋ฅผ ์ฐธ๊ณ ํด์ฃผ์ธ์! ๐ ์ ๋ฆฌ โ ํฌํจํด์ผ ๋๋ ๋ณ์ • Treatment ๋ฅผ ์์ธกํ์ง ์๋๋ผ๋ Outcome ์ ๋ํด ์ข์ ์์ธก์ ํ๋ ๋ณ์ (โ Y๋ฅผ ์์ธกํ๋ฉด ๋ถ์ฐ์ด ๋ฎ์์ง๊ณ ์ธ๊ณผ๊ด๊ณ๋ฅผ ์ถ์ ํ ๋ ํต๊ณ์ ์ผ๋ก ์ ์ํ ๊ฒฐ๊ณผ๊ฐ ๋ํ๋ ๊ฐ๋ฅ์ฑ์ด ๋์์ง๊ธฐ ๋๋ฌธ) • ๊ต๋ ์์ธ โก ํฌํจ์ํค๋ฉด ์๋๋ ๋ณ์ • Treatment ๋ฅผ ์์ธกํ์ง๋ง Outcome ์ ์์ธกํ์ง ์๋ ๋ณ์ (โ treatment์ ๋ณ๋์ฑ์ ์ค์ฌ ์ธ๊ณผํจ๊ณผ๋ฅผ ์ฐพ๊ธฐ ์ด๋ ต๊ฒ ๋ง๋ค๊ธฐ ๋๋ฌธ) • Treatment ์ outcome ์ฌ์ด์ ๋งค๊ฐ๋ณ์ • Treatment ์ outcome ์ ๊ณตํตํจ๊ณผ์ธ ๋ณ์ โ Good controls โฏ ํต์ ๋ณ์ • ํต์ ๋ณ์๊ฐ Confounder ์ธ ๊ฒฝ์ฐ ๋ชจํ์ .. 2023. 6. 29. [The Brave and True] 6. Grouped and Dummy Regression ๐ ์ธ๊ณผ์ถ๋ก ๊ฐ์ธ ๊ณต๋ถ์ฉ ํฌ์คํธ ๊ธ์ ๋๋ค. ์ถ์ฒ๋ ์ฒจ๋ถํ ๋งํฌ๋ฅผ ์ฐธ๊ณ ํด์ฃผ์ธ์! โ ๊ทธ๋ฃนํ๋ ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํ ํ๊ท โฏ ์ด๋ถ์ฐ์ฑ • ๋ถ์ฐ์ด ๋ฎ์ ์์ญ๊ณผ ๋์ ์์ญ์ ๋์์ ๊ฐ๋ ํ์, ์ฆ ๋ณ์์ ๋ชจ๋ ๊ฐ์์ ๋ถ์ฐ์ด ์ผ์ ํ์ง ์์ ๊ฒฝ์ฐ๋ค. • ๋ถ์ฐ์ด ๋ฌ๋ผ์ง๋ ๊ฐ์ฅ ์ผ๋ฐ์ ์ธ ์ด์ ๋ ๊ทธ๋ฃนํ๋ ๋ฐ์ดํฐ ๋๋ฌธ์ด๋ค. โฏ smf.ols ์ smf.wls ์ฐจ์ด • smf.ols : OLS ํ๊ท๋ชจ๋ธ์ ๊ตฌ์ถํ๋๋ฐ ์ฌ์ฉ๋๋ค. • smf.wls : ์ต์์์น๋ฒ์ ๋ณํ์ผ๋ก ์์ฐจ์ ๊ฐ์ค์น๋ฅผ ๊ณ ๋ คํด ๋ชจ๋ธ์ ์ ํฉ์ํจ๋ค. ๊ฐ์ค์น๋ ๊ฐ ๋ฐ์ดํฐ ํฌ์ธํธ์ ์ค์๋๋ฅผ ๋ํ๋ด๋ฉฐ, ํน์ ๋ฐ์ดํฐ ํฌ์ธํธ์ ๋ ํฐ ๊ฐ์ค์น๋ฅผ ๋ถ์ฌํด ๋ชจ๋ธ์ด ํด๋น ํฌ์ธํธ์ ๋ ์ ํฉํ๊ฒ ๋ง๋ ๋ค. ์ค์ฐจ์ ๋ถ์ฐ์ด ๋ค๋ฅธ ๊ฒฝ์ฐ๋ ์ด์์น์ ๋ ๋ฏผ๊ฐํ ๋ชจ๋ธ์ ๊ตฌ์ถํ๊ณ ์ ํ ๋ ์ ์ฉํ๋ค. โฏ .. 2023. 6. 28. [The Brave and True] 5. The Unreasonable Effectiveness of Linear Regression ๐ ์ธ๊ณผ์ถ๋ก ๊ฐ์ธ ๊ณต๋ถ์ฉ ํฌ์คํธ ๊ธ์ ๋๋ค. ์ถ์ฒ๋ ์ฒจ๋ถํ ๋งํฌ๋ฅผ ์ฐธ๊ณ ํด์ฃผ์ธ์! โ All you need is regression โฏ Review • ์ธ๊ณผ์ถ๋ก ์์ ๊ฐ ๊ฐ์ธ์๊ฒ์ ์ป์ ์ ์๋ ๊ฒฐ๊ณผ ๊ฐ์ Y0 (์ฒ์น๋ฅผ ๋ฐ์ง ์์์ ๋ ์ป๋ ๊ฒฐ๊ณผ), Y1 (์ฒ์น๋ฅผ ๋ฐ์์ ๋ ๊ฒฐ๊ณผ) ์ด ์๋ค. ๊ทธ๋ฌ๋ T๊ฐ 0์ด๋ 1๋ก ์ ํด์ง๋ฉด ๋ค๋ฅธ ํ๋์ ๊ฒฐ๊ณผ๋ ์์ ์ ์ ์๊ฒ ๋๋ค. ๋๋ฌธ์ ๊ฐ์ธ์ ๋ํ ์ฒ์นํจ๊ณผ δi = Y1i - Y0i ๋ ์ ์ ์๋ค. • ๊ทธ๋ฌ๋ ํ๊ท ์ ์ธ ์ธ๊ณผ ํจ๊ณผ ATE ๋ ์ถ์ ํ ์ ์๋ค : ATE = E[Y1 - Y0] • ์ฌ๊ธฐ์ ์ผ์ ํ ์ฒ์นํจ๊ณผ k ๋ Y1i = Y0i + k ๋ฅผ ๋ง์กฑํ๋ค. k ๊ฐ ์์๋ผ๋ฉด ํ๊ท ์ ์ผ๋ก ์ฒ์น๊ฐ ์์ ํจ๊ณผ๋ฅผ ๊ฐ์ง๊ณ ์๋ค๊ณ ๋งํ๋ค. • ํธํฅ bias ๋๋ฌธ์ ํ๊ท ์ ์ฐจ์ด.. 2023. 6. 27. ์ธ๊ณผ์ถ๋ก ์ ๋ฐ์ดํฐ ๊ณผํ - ์ธ๊ณผ์ถ๋ก ์ ์ํ ๋จธ์ ๋ฌ๋ ๋ชจ๋ธ ๐ ์ธ๊ณผ์ถ๋ก ๊ฐ์ธ ๊ณต๋ถ์ฉ ํฌ์คํธ ๊ธ์ ๋๋ค. ์ถ์ฒ๋ ์ฒจ๋ถํ ๋งํฌ๋ฅผ ์ฐธ๊ณ ํด์ฃผ์ธ์! • Econ ML : Microsoft EconML • Causal Graph : Microsoft DoWhy → ๋ฉ๋ด์ผ์ ์ฝ๊ณ ๋ ผ๋ฌธ์ ์ฝ์ด๋ณด๋ ๊ฒ์ ์ถ์ฒ • Multi-armed Bandits : ์จ๋ผ์ธ ํ์ดํ๋ผ์ธ ๊ตฌ์ถ์ด ๊น๋ค๋กญ๊ณ ์ด๋ฅผ ํ ์ ์๋ ์ฝ๋ฉ ๋ฅ๋ ฅ์ด๋ฉด ํ๋ ์์ ๋ณ ์๋ฏธ ์์ โ ECON ML models (Potential outcomes) • ์ธ๊ณผ ๊ด๊ณ/๊ตฌ์กฐ๋ฅผ ์ด๋ฏธ ์๊ณ ์๋ค๊ณ ๊ฐ์ ํ๋ค. • ์ ๊ทผ ๋ฐฉ์์ ๊ฐ๊ธฐ ๋ค๋ฅด์ง๋ง, ๋น์ทํ ๋ชฉ์ ์ ๋ฌ์ฑํ๊ธฐ ์ํด ์กด์ฌํ๋ ๋ชจ๋ธ๋ค์ด๋ค. A/B testing ์ด ๋๋ ํ๊ฒฝ์์ EconML ์ ์ ์ฉํด๋ณด๋ฉด ์ข๋ค. (Same Goal, Different approach) โฏ ML ๋ชจ๋ธ ๊ธฐ.. 2023. 6. 26. [The Brave and True] 4. Graphical causal model ๐ ์ธ๊ณผ์ถ๋ก ๊ฐ์ธ ๊ณต๋ถ์ฉ ํฌ์คํธ ๊ธ์ ๋๋ค. ์ถ์ฒ๋ ์ฒจ๋ถํ ๋งํฌ๋ฅผ ์ฐธ๊ณ ํด์ฃผ์ธ์! โ ์ธ๊ณผ์ ๋ํด ์๊ฐํด๋ณด๊ธฐ โฏ Potential outcome ์ ๋ํ ์กฐ๊ฑด๋ถ ๋ ๋ฆฝ ๊ฐ์ • ์กฐ๊ฑด๋ถ ๋ ๋ฆฝ ๊ฐ์ ์ ์ค์ง ์ฒ์น์ ์ํ ํจ๊ณผ๋ฅผ ์ธก์ ํ ์ ์๊ฒ ํ๋ค • X์ ๋ํ conditioning : ๊ฐ๋ น ์ฝ์ ์ฒ๋ฐฉํ ๋, ์ฌ๊ฐํ ์ผ์ด์ค์ ํ์์ ๋ ์ฌ๊ฐํ ์ผ์ด์ค์ ํ์๋ก ํ์ ๊ทธ๋ฃน์ ๋๋๊ณ ์ฝ์ ํจ๊ณผ๋ฅผ ๋ถ์ํ๋ค๋ฉด ๋ ๋ช ํํ ๊ทธ๋ฆผ์ ์ป์ ์ ์๋ค. โฏ ์ธ๊ณผ ๊ทธ๋ํ ๋ชจํ โก ๊ทธ๋ํ ๋ชจ๋ธ • [์ฐธ๊ณ ] Coursera Stanford ๊ฐ์ : Probabilistic Graphical models • ๊ทธ๋ํ ๋ชจํ์ด ์๋ฐํ๋ ๋ ๋ฆฝ์ฑ๊ณผ ์กฐ๊ฑด๋ถ ๋ ๋ฆฝ์ฑ ๊ฐ์ ์ด ๋ฌด์์ธ์ง์ ๋ํด ์ดํดํ๋ ๊ฒ์ด ๋งค์ฐ ์ค์ํ๋ค. โฏ Blocked • Y๊ฐ ์กฐ๊ฑดํ.. 2023. 6. 26. [The Brave and True] 3. The-Most-Dangerous-Equation ๐ ์ธ๊ณผ์ถ๋ก ๊ฐ์ธ ๊ณต๋ถ์ฉ ํฌ์คํธ ๊ธ์ ๋๋ค. ์ถ์ฒ๋ ์ฒจ๋ถํ ๋งํฌ๋ฅผ ์ฐธ๊ณ ํด์ฃผ์ธ์! โ Intro • ์์ . ๊ต์ก ๋ฐ์ดํฐ : ENEM ์ ์(SAT์ ์ ์ฌํ ๋ธ๋ผ์ง ํ์ค ๊ณ ๋ฑํ๊ต ์ ์)๋ฅผ 3๋ ๋์ ๋ค๋ฅธ ํ๊ต๋ค์์ ์์ง โจ ํ์ ๊ท๋ชจ๊ฐ ์์ ๋ ์์ 1%์ ํด๋นํ๋ ํ๊ต๊ฐ ๋ง์๋ค. ๊ทธ๋ฌ๋ ํ์ 1% ํ๊ต๋ฅผ ์ดํด๋ณด์์ ๋๋ ํ์์๊ฐ ๋งค์ฐ ์ ์๋ค. ์ด๋ ํ์ ์๊ฐ ์ ์ ํ๊ต๋ค์ ๊ฒฝ์ฐ, ๋ถ์ฐ์ด ํฌ๊ธฐ ๋๋ฌธ์ ์์ธก์ด ๋ถํ์คํด์ ์ด์ ์ํด ๋งค์ฐ ๋๊ฑฐ๋ ๋ฎ์ ๋ถํฌ๋ฅผ ๋ณด์ธ ๊ฒ์ด๋ค. • ๋ถํ์ค์ฑ์ ๊ณ์ฐํ๋ ๋ฐฉ๋ฒ ์ค ํ๋๋ ๋ถ์ฐ์ ์ถ์ ๋์ ๊ตฌํ๋ ๊ฒ์ด๋ค. ๋ถํ์ค์ฑ์ ๊ด์ธก๋ ๋ฐ์ดํฐ๊ฐ ํด ์๋ก ์ค์ด๋ ๋ค. ATE ๋ฅผ ํฌํจํ ์ด๋ ํ ์์ฝ ํต๊ณ์ ๋ํด์๋ ์ด๋ ๋ง์ฐฌ๊ฐ์ง๋ค. ํ๋ณธ์ด ์ปค์ง์๋ก ๋ถ์ฐ์ ์ค์ด๋ ๋ค. โก Standard error .. 2023. 6. 22. ์ธ๊ณผ์ถ๋ก ์ ๋ฐ์ดํฐ ๊ณผํ - ML for Causal inference : ์ธ๊ณผ์ถ๋ก ๊ธฐ๋ฐ์ ์์ธก ๋ชจ๋ธ๋ง ํ๊ฐ ๐ ์ธ๊ณผ์ถ๋ก ๊ฐ์ธ ๊ณต๋ถ์ฉ ํฌ์คํธ ๊ธ์ ๋๋ค. ์ถ์ฒ๋ ์ฒจ๋ถํ ๋งํฌ๋ฅผ ์ฐธ๊ณ ํด์ฃผ์ธ์! โ Evaluating Recommendation algorithms in Netflix • ์ค์ ๋ก ์ฐ์ ํ์ฅ์์ ์๊ณ ๋ฆฌ์ฆ์ ๋ํ Evaluation ์ด A/B test ๋ก ์ด๋ฃจ์ด์ง๊ณ ์๋ค. • Test set ์์์ ํจ๊ณผ๊ฐ ์ค์ ๋น์ฆ๋์ค ํ์ฅ์ ์ ์ฉํ์ ๋๊น์ง ๊ทธ๋๋ก ๋ํ๋๋ ค๋ฉด, ์ฌ๋๋ค์ด ์๋ก์ด ์๊ณ ๋ฆฌ์ฆ์ ๋ํด ์ด์ ๊ณผ ๋์ผํ ํ๋์์์ผ๋ก ๋์ํ ๊ฒ์ด๋ผ๋ ๊ฐ์ ์ด ๋ง์กฑ๋์ด์ผ ํ๋๋ฐ, ์ค์ ๋ก๋ ๊ทธ๋ ์ง ์๋ค. ๋ฐ๋ผ์ Test set ์์ ์ข์ ์ฑ๋ฅ์ ๋ณด์๋ค ํ๋๋ผ๋, ์ค์ ๋ก๋ performance ๊ฐ ๋์ค์ง ์์ ์ ์๋ค. ๋ฐ๋ผ์ ๊ณผ๊ฑฐ ๋ฐ์ดํฐ์์ ofline experiment ๋ฅผ ํ ํ์, ๊ณผ๊ฑฐ์ ์๊ณ ๋ฆฌ์ฆ๊ณผ ์๋ก์ด ์๊ณ ๋ฆฌ์ฆ ์ฌ์ด์.. 2023. 6. 21. [The Brave and True] 2. Randomized Experiments ๐ ์ธ๊ณผ์ถ๋ก ๊ฐ์ธ ๊ณต๋ถ์ฉ ํฌ์คํธ ๊ธ์ ๋๋ค. ์ถ์ฒ๋ ์ฒจ๋ถํ ๋งํฌ๋ฅผ ์ฐธ๊ณ ํด์ฃผ์ธ์! โ The golden standard • E(Y0 | T=0) = E(Y0 | T=1) ๋ฅผ ๋ง์กฑํ ๋ Bias ๊ฐ ์๋ค. ์ฆ, ํ๊ฒ๊ตฐ๊ณผ ๋์กฐ๊ตฐ์ด ์ฒ์น๋ฅผ ๋ฐ์ ๊ฒ์ ์ ์ธํ๊ณ ๋๋ฑํ๊ฑฐ๋ ์ ์ฌํ๋ฉด ์ธ๊ณผ๊ด๊ณ๊ฐ ์ฑ๋ฆฝํ๋ค. • ์์ ๊ฐ์ ์ด๋ก ์ ๋ง์กฑ์ํฌ ์ฒซ๋ฒ ์งธ ๋๊ตฌ๋ก๋ Randomized experiments ๊ฐ ์๋ค. ๋ฌด์์ ์คํ์ Treatment Group๊ณผ Control group์ ๊ฐ๊ฐ์ธ์ ๋๋คํ๊ฒ ๋ถ๋ฐฐํ๋ ๋ฐฉ์์ด๋ค. ์ด๋ ์ฒ์น๋ฅผ ๋ฐ๋ ํ๊ฒ๊ตฐ์ ๋น์จ์ด ๊ผญ 50%์ผ ํ์๋ ์๋ค. ๋๋คํ๊ฒ ๋ถ๋ฐฐํจ์ผ๋ก์จ potential outcome ์ treatment ๋ก๋ถํฐ ๋ ๋ฆฝ์ ์ผ๋ก ๋ง๋ค์ด bias ๋ฅผ ์ ๊ฑฐํ๋ค. • ๋ฌด์์ ์คํ์์๋ tr.. 2023. 6. 21. [The Brave and True] 1. Introduction to causality ๐ ์ธ๊ณผ์ถ๋ก ๊ฐ์ธ ๊ณต๋ถ์ฉ ํฌ์คํธ ๊ธ์ ๋๋ค. ์ถ์ฒ๋ ์ฒจ๋ถํ ๋งํฌ๋ฅผ ์ฐธ๊ณ ํด์ฃผ์ธ์! โ ์ธ๊ณผ์ถ๋ก ์ ๊ด์ฌ์ ๊ฐ์ ธ์ผ ํ๋ ์ด์ • ๋จธ์ ๋ฌ๋์ ์ธ๊ณผ๊ด๊ณ ์ ํ์ ๋ฌธ์ ๋ฅผ ์ ๋ค๋ฃจ์ง ๋ชปํ๋ค. ๊ฐ๋ น ํธํ ์ฐ์ ์์ , ๊ฐ๊ฒฉ์ด ๋น์๊ธฐ์ผ๋ ์ ๋ ดํ๊ณ ์ฑ์๊ธฐ์ผ๋ ๋๋ค. ๋จธ์ ๋ฌ๋์ด Naive ํ prediction ์ ํ๊ฒ ๋๋ฉด ๊ฐ๊ฒฉ์ ์ธ์ํ์ ๋ ๋ ๋ง์ ๊ฐ์ค์ด ํ๋ฆด ๊ฒ์ด๋ผ ์ ์ํ ์ ์๋ค. • ์ธ๊ณผ์ถ๋ก ์ Counterfactual ์ด๋ผ ๋ถ๋ฅด๋ "๋ง์ฝ์" ๋ผ๋ ์ง๋ฌธ์ ๋ตํ ๊ฒ์ ์๊ตฌํ๋ค. • ๋จธ์ ๋ฌ๋์ ์๊ด๊ด๊ณ ์ ํ ์์ธก์ ์์กดํ์ฌ ์ธ๊ณผ์ถ๋ก ์ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ ์ ์๋ค. ์๊ด๊ด๊ณ์ ์ธ๊ณผ๊ด๊ณ๋ ๋ค๋ฅด๋ค. โก Notation โฏ ์์ • ํ์๋ค์๊ฒ ํ๋ธ๋ฆฟ์ ์ ๊ณตํ์ ๋ ์ฑ๊ณผ์ ๋ฏธ์น๋ ์ธ๊ณผํจ๊ณผ ๋ฐํ๋ด๊ธฐ โฏ Ti • unit i ์ ๋ํ Tre.. 2023. 6. 20. ์ด์ 1 2 3 4 5 ๋ค์ 728x90