์ฐธ๊ณ ์์ : Bootcamp 2-1. ์ ์ฌ์ ๊ฒฐ๊ณผ ํ๋ ์์ํฌ
1. Potential outcome framework
โฏ Potential outcome framework
• ํน์ ์์ธ (treatment) ์ ์ธ๊ณผ์ ํจ๊ณผ๋ฅผ ์ ์ฌ์ ๊ฒฐ๊ณผ์ ์ฐจ์ด๋ก์ ์ ์ํ๊ณ ๋ถ์ํ๋ ๊ฒ
• ๊ทธ๋์ ๊ฒฐ์ ์ด ์์ธ์ด ๋์ด ์ง๊ธ์ ๊ฒฐ๊ณผ๊ฐ ๋์ด. ๊ทธ๋์ ๊ฒฐ์ ์ด ๋ฌ๋๋ค๋ผ๋ฉด ์ ์ฌ์ ์ธ ๊ฒฐ๊ณผ๋ ์ด๋ป๊ฒ ๋์์๊น โจ ์ฐ๋ฆฌ๊ฐ ์ผ์์์์ ์ฌ๊ณ ํ๋ ๋ฐฉ์์ด Potential outcome ์ด ์ธ๊ณผ๊ด๊ณ๋ฅผ ์ ์ํ๋ ๋ฐฉ์์ด๋ผ ๋ณผ ์ ์์
• Causal effect = (treatment ๋ฅผ ๋ฐ์ ์ค์ ๊ฒฐ๊ณผ) - (treatment ๋ฅผ ๋ฐ์ง ์์๋๋ผ๋ฉด ์์์ ์ ์ฌ์ ๊ฒฐ๊ณผ)
โฏ Counterfactual
• treatment ๋ฅผ ๋ฐ์ง ์์๋๋ผ๋ฉด ์์์ ์ ์ฌ์ ๊ฒฐ๊ณผ๋ฅผ Counterfactual ์ด๋ผ ๋ถ๋ฅธ๋ค.
โฏ Average Treatment Effect
• 1๋ฒ๊ณผ 2๋ฒ์ด treatment ๋ฅผ ๋ฐ์ ์ฌ๋๋ค์ด๊ณ , 3๋ฒ๊ณผ 4๋ฒ์ด treatment ๋ฅผ ๋ฐ์ง ์์ ์ฌ๋๋ค์ด๋ผ ํ๋ฉด, 1๋ฒ๊ณผ 2๋ฒ์์๋ ์ด๋ฏธ ์ฒ์น๋ฅผ ๋ฐ์๊ธฐ ๋๋ฌธ์ potential outcome ๋ ํ์ค์์ ๊ด์ฐฐ ๋ถ๊ฐ๋ฅ ํ๋ค. 3๋ฒ๊ณผ 4๋ฒ์ ๋ํด์๋ treatment ๋ฅผ ๋ฐ์๋ค๋ฉด ์์์ ๊ฒฐ๊ณผ๋ฅผ ๊ด์ฐฐํ ์๋ ์๋ค.
• ๋ฐ๋ผ์ ํน์ ๊ฐ์ธ์ ๋ํ individual treatment ๋ ๊ตฌํ ์ ์๋ค. ํ์ง๋ง ์ ์ด๋, treatment ๋ฅผ ๋ฐ์ ๊ทธ๋ฃน์์์ ํ๊ท ๊ณผ, ๋ฐ์ง ์์ ๊ทธ๋ฃน์์์ ํ๊ท ์ ๊ตฌํด ํ๊ท ์ ์ธ ์ธ๊ณผํจ๊ณผ๋ ์ถฉ๋ถํ ์ถ์ ํด ๋ณผ ์ ์๋ค โจ Average treatment effect ATE
2. Fundamental problem of causal inference
• Potential outcome framework ์์ ์ธ๊ณผ์ถ๋ก ์ ์ํด ์ฐ๋ฆฌ๊ฐ ๊ตฌํด์ผ ํ๋ ๊ฒ์ counterfactual ๋ถ๋ถ์ธ๋ฐ, ํ์ค์์ ์ฐ๋ฆฌ๊ฐ ์ง์ ๋ฐ์ดํฐ๋ก ๊ด์ฐฐ ๊ฐ๋ฅํ ๊ฒ์ treatment ๋ฅผ ๋ฐ์ง ์์ control group ์ด๋ค.
• ์ธ๊ณผ์ถ๋ก ์ด ์ด๋ ค์ด ์ด์ ๋, ์ด์์ ์ธ counterfactual ๊ณผ ํ์ค์์์ control group ๊ฐ์ ์ฐจ์ด์ ๊ธฐ์ธํ๋ค. ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํ, ์ฆ counterfactual ์ ๊ฐ๊น๋๋ก control ์ ์ค์ ํ๋ ์ธ๊ณผ์ถ๋ก ๋ฐฉ๋ฒ๋ค์ด ๋ฑ์ฅํ๊ฒ ๋๋ ๊ฒ์ด๋ค.
• Potential outcome framework ๋ ์ธ๊ณผ์ถ๋ก ์ missing value ๊ด์ ์ผ๋ก ๋ณด๊ธฐ๋ ํ๋ค. treament group ๊ณผ control group ์์์ ๊ด์ธก ๋ถ๊ฐ๋ฅํ cell ์ ๊ฐ์ ๋ฌด์ํด๋ ๋๋ค๋ผ๋ ์ธก๋ฉด์์ ์ด๋ฌํ ์กฐ๊ฑด์ Ignorability ๋ผ๊ณ ๋ถ๋ฅธ๋ค. ํน์ ๋ ๊ทธ๋ฃน ๊ฐ์ ๊ฐ์ ๊ตํ ๊ฐ๋ฅํ๋ค๋ ์๋ฏธ์์ exchangability ๋ผ๊ณ ๋ ๋ถ๋ฅธ๋ค.
• ๋ฐ๋ฉด, selection bias ๋ causal graph ๊ด์ ์์์ ์ฉ์ด๋ก ๋ณด๋ฉด, treatment ์ result ์ ์ํฅ์ ๋ฏธ์น๋ ์ธ๋ถ ์์ธ(๊ต๋ ์์ธ, confounder) ์ด ์์ด์ผ ์ธ๊ณผ์ถ๋ก ์ ์กฐ๊ฑด์ด ์ฑ๋ฆฝํ๋ค๋ ์๋ฏธ์์ Unconfoundess ๋ผ๊ณ ๋ ๋ถ๋ฅธ๋ค. ํต๊ณ์ ์ธ ๊ด์ ์์๋ Exogeneity (๋ด์์ฑ์ด ์๋ ์กฐ๊ฑด, ์ธ์์ฑ) ๋ผ๊ณ ๋ถ๋ฅธ๋ค.
โจ ๊ฒฐ๊ตญ ๋ชจ๋ ๊ทผ๋ณธ์ ์ผ๋ก๋ counterfactual ์ ๊ฐ์ฅ ๊ฐ๊น์ด control group ์ ์ฐพ์์ผ๋ก์จ counterfactual ์ ๋์ ํ๋ ์ ๋ต์ด๋ผ ๋ณผ ์ ์๋ค.
• ๋ฐ๋ ค๋๋ฌผ์ ํค์ฐ๋ ์ฌ๋๊ณผ ํค์ฐ์ง ์๋ ์ฌ๋์ ๋จ์ ๋น๊ตํ๋ ๊ฒ์ด ์ ์ธ๊ณผ์ถ๋ก ์ ์ํด ์ ์ ํ์ง ์์์ง ์ด์ ์ด๋์ ๋ ์ดํดํ ์ ์๋ค.
3. Selection bias
โฏ Selection bias
• ๋ฐ๋ ค๋๋ฌผ์ ํค์ฐ๋ ๊ฒ๋ ์ฌ๋๋ค์ ์๋ฐ์ ์ธ ์ ํ์ด๋ค. ๋ง์ฝ ๊ทธ๋ฌํ ์ฌ๋๋ค์ ์๋ฐ์ ์ธ ์ ํ์ด, ์ฐ๋ฆฌ๊ฐ ๊ด์ฌ์๋ ๊ฒฐ๊ณผ์ธ '์ฐ์ธ์ฆ' ๊ณผ ๊ด๋ จ์ด ์์ ์ ์๋ค. ๊ฐ๋ น, ์ฐ์ธ์ฆ์ด ๋์ ์ฌ๋๋ค์ด ๋ฐ๋ ค๋๋ฌผ์ ํค์ฐ๊ณ ์ ํ๋ ์ฑํฅ์ด ๋์ ์ ์๋ค.
• ์ธ๊ณผ์ ์ธ ํจ๊ณผ๋ฅผ ์ถ์ ํ๊ธฐ ์ํด์๋ ์๋ฒฝํ counterfactual ์ ํ์ค์์ ๊ด์ฐฐํ ์๋ ์๊ฒ ์ง๋ง, ๋ฐ๋ ค๋๋ฌผ์ ํค์ฐ๋ ์ฌ์ค์ ์ ์ธํ๊ณ ๋ ๋๋จธ์ง ์์ธ๋ค์ด ๊ทธ๋๋ง ์ต๋ํ ๋น์ทํ ์ฌ๋๋ค๋ผ๋ฆฌ ๋ฌถ์ด์ ๊ทธ๋ค์ ๋น๊ตํ๋ฉด ์ต๋ํ ๋ฐ๋ ค๋๋ฌผ์ ํค์ฐ๋ ๊ฒ์ ์ธ๊ณผํจ๊ณผ๋ฅผ ์ดํด๋ณผ ์ ์์ ๊ฒ์ด๋ค.
• ๊ทธ๋ฌ๋ ์ ๋ง๋ก ๋น์ทํ์ง์ ์ฌ๋ถ๋ ๋ ๋ค์ ํ๋ฒ ๋ ์ดํด๋ด์ผ ํ๋ค.
• Counterfactual ๊ณผ Control group ๊ฐ์ ์ฐจ์ด๋ฅผ selection bias ๋ผ๊ณ ๋ถ๋ฅธ๋ค. treatment ๋ฅผ ๋ฐ์์ง ๋ง์ง๋ฅผ ์ฌ๋๋ค์ด ์ ํํ๊ธฐ ๋๋ฌธ์ ๊ทธ๊ณณ์์ ๋ถํฐ ํธํฅ์ด ๋ฐ์ํ ์ ์๋ค. selection bias ๋ฅผ ์ผ๊ธฐํ๋ ๊ต๋ ์์ธ์ confounding factor ๋ผ ๋ถ๋ฅธ๋ค. ์ค๋ฅธ์ชฝ ๊ทธ๋ฆผ์ X ๋ผ๋ ๋ณ์๊ฐ ๋ ๊ทธ๋ฃน ๊ฐ์ ์ฐจ์ด selection bias ๋ฅผ ์ค๋ช ํ ์ ์๋ค. ๋ฐ๋ผ์ X ๋ฅผ confounding factor ๋ผ๊ณ ๋ถ๋ฅธ๋ค.
• ํ์ค์์ ๋ฐ์ดํฐ๋ฅผ ํตํด ๋ถ์ํ ์ ์๋ ๊ฒ์, treatment ๋ฅผ ๋ฐ์ ์ฌ๋๋ค์ outcome ๊ณผ control group ์ outcome ์ ์ฐจ์ด๋ค. ์ฌ๊ธฐ์ ๊ฐ์ ๊ฐ์ธ counterfactual ์ ๋ํ๊ณ ๋นผ๋ฉด ์์ ๊ฐ์ด ์ธ ์ ์๋ค. ์ด ์์ ๋ค์ ์ฌ์ ๋ฆฝํ๋ฉด, Causal effect ๋ถ๋ถ๊ณผ selection bias (causual effect ๋ฅผ ์ถ์ ํ๋ ๊ฒ์ ๋ฐฉํดํ๋ ์์ธ, treatment ๊ทธ๋ฃน์์ treat ๋ฅผ ๋ฐ์ง ์์์ ๋ ์๊ธฐ๋ ๊ฒฐ๊ณผ : counterfactual ์ ์ค์ treat ๋ฅผ ๋ฐ์ง ์์ ์ง๋จ : control ๊ฐ์ ์ฐจ์ด) ๋ถ๋ถ์ผ๋ก ๋๋์ด ๋ณผ ์ ์๋ค.
• Observed effect of the treatment = Causal effect + selection bias
โฏ Ceteris Paribus โ Comparable control group
• selection bias ๋ฅผ ์์ ๊ธฐ ์ํ ์กฐ๊ฑด : Ceteris Paribus โจ treatment ๋ฅผ ๋ฐ์๋ค๋ ์ฌ์ค๋ง ์ ์ธํ๊ณ ๋๋จธ์ง ๋ชจ๋ ์์ธ๋ค์ด ๋์ผํด์ ๋น๊ต ๊ฐ๋ฅํ๋ค๋ ์กฐ๊ฑด
• Selection bias ๋ฅผ ์ ๊ฑฐํ๊ธฐ ์ํ ๋ฐฉ๋ฒ์ ๊ด๋ จํ ์ฐ๊ตฌ ์ฌ๋ก : ์ฌํ๊ทผ๋ฌด์ ์ธ๊ณผ์ ์ธ ํจ๊ณผ๋ฅผ ์ถ์
• ์ฝ์ผํฐ ์ง์๋ค์๊ฒ ์ฌํ๊ทผ๋ฌด ํฌ๋ง์๋ฅผ ์ง์ ๋ฐ์ → ์ฌํ ๊ทผ๋ฌด๋ฅผ ์ ํํ ์ฌ๋์ด treatment group ์ด ๋๊ณ , ์ฌํ๊ทผ๋ฌด๋ฅผ ํ์ง ์๊ฒ ๋ค๊ณ ์ ํํ ์ฌ๋์ด control group ์ด ๋จ
• ์ฌํ๊ทผ๋ฌด๋ฅผ ์ง์ํ ์ฌ๋๊ณผ ๊ทธ๋ ์ง ์์ ์ฌ๋ ๊ฐ์ ์ฌ๋ฌ ํน์ฑ๋ค์ด ๋ค๋ฅผ ์ ์์ (ex. ์์ด๋ฅผ ๊ฐ์ง ์ฌ๋)
• ๊ฐ์ฅ ์ด์์ ์ธ ์ํฉ : ์ฌํ๊ทผ๋ฌด์ ์ธ๊ณผ์ ์ธ ํจ๊ณผ๋ฅผ ์ถ์ ํ๊ธฐ ์ํด์ treament group ๊ณผ, ์ฌํ๊ทผ๋ฌด๋ฅผ ํ์ง ์์์ผ๋ฉด ์์์ counterfactual ๋ฅผ ๋น๊ต
• ๊ทธ๋ฌ๋ ํ์ค์์๋ selection bias ๊ฐ ๋ฐ์ํ ์ ๋ฐ์ ์์ โจ ํ์ค์์ ๋น๊ต ๊ฐ๋ฅํ control group ์ ๋ง๋ค์ด์ผ ํจ
• ์ฌํ๊ทผ๋ฌด์ ์๋ฐ์ ์ผ๋ก ์ง์ํ ์ฌ๋๋ค ์ค์์, ๋๋คํ๊ฒ treatment group ๊ณผ control group ์ผ๋ก ๋๋๋ฉด, randomized control group ์ ์ด์์ ์ธ counterfactual ์ด ๋๋ค.
• ์์ ๊ฐ์ด ์คํ์ ์ค๊ณํ๋ฉด, Randomized control group ๊ณผ self-selected control group ๊ฐ์ ์ฐจ์ด์ธ selection bias ๋ฅผ ๊ตฌํด๋ผ ์ ์๋ค.
๋๊ธ