์ฐธ๊ณ ์์ : Bootcamp 2-1. ์ ์ฌ์ ๊ฒฐ๊ณผ ํ๋ ์์ํฌ
1. Potential outcome framework
โฏ Potential outcome framework

โข ํน์ ์์ธ (treatment) ์ ์ธ๊ณผ์ ํจ๊ณผ๋ฅผ ์ ์ฌ์ ๊ฒฐ๊ณผ์ ์ฐจ์ด๋ก์ ์ ์ํ๊ณ ๋ถ์ํ๋ ๊ฒ
โข ๊ทธ๋์ ๊ฒฐ์ ์ด ์์ธ์ด ๋์ด ์ง๊ธ์ ๊ฒฐ๊ณผ๊ฐ ๋์ด. ๊ทธ๋์ ๊ฒฐ์ ์ด ๋ฌ๋๋ค๋ผ๋ฉด ์ ์ฌ์ ์ธ ๊ฒฐ๊ณผ๋ ์ด๋ป๊ฒ ๋์์๊น โจ ์ฐ๋ฆฌ๊ฐ ์ผ์์์์ ์ฌ๊ณ ํ๋ ๋ฐฉ์์ด Potential outcome ์ด ์ธ๊ณผ๊ด๊ณ๋ฅผ ์ ์ํ๋ ๋ฐฉ์์ด๋ผ ๋ณผ ์ ์์
โข Causal effect = (treatment ๋ฅผ ๋ฐ์ ์ค์ ๊ฒฐ๊ณผ) - (treatment ๋ฅผ ๋ฐ์ง ์์๋๋ผ๋ฉด ์์์ ์ ์ฌ์ ๊ฒฐ๊ณผ)
โฏ Counterfactual

โข treatment ๋ฅผ ๋ฐ์ง ์์๋๋ผ๋ฉด ์์์ ์ ์ฌ์ ๊ฒฐ๊ณผ๋ฅผ Counterfactual ์ด๋ผ ๋ถ๋ฅธ๋ค.
โฏ Average Treatment Effect

โข 1๋ฒ๊ณผ 2๋ฒ์ด treatment ๋ฅผ ๋ฐ์ ์ฌ๋๋ค์ด๊ณ , 3๋ฒ๊ณผ 4๋ฒ์ด treatment ๋ฅผ ๋ฐ์ง ์์ ์ฌ๋๋ค์ด๋ผ ํ๋ฉด, 1๋ฒ๊ณผ 2๋ฒ์์๋ ์ด๋ฏธ ์ฒ์น๋ฅผ ๋ฐ์๊ธฐ ๋๋ฌธ์ potential outcome ๋ ํ์ค์์ ๊ด์ฐฐ ๋ถ๊ฐ๋ฅ ํ๋ค. 3๋ฒ๊ณผ 4๋ฒ์ ๋ํด์๋ treatment ๋ฅผ ๋ฐ์๋ค๋ฉด ์์์ ๊ฒฐ๊ณผ๋ฅผ ๊ด์ฐฐํ ์๋ ์๋ค.
โข ๋ฐ๋ผ์ ํน์ ๊ฐ์ธ์ ๋ํ individual treatment ๋ ๊ตฌํ ์ ์๋ค. ํ์ง๋ง ์ ์ด๋, treatment ๋ฅผ ๋ฐ์ ๊ทธ๋ฃน์์์ ํ๊ท ๊ณผ, ๋ฐ์ง ์์ ๊ทธ๋ฃน์์์ ํ๊ท ์ ๊ตฌํด ํ๊ท ์ ์ธ ์ธ๊ณผํจ๊ณผ๋ ์ถฉ๋ถํ ์ถ์ ํด ๋ณผ ์ ์๋ค โจ Average treatment effect ATE
2. Fundamental problem of causal inference

โข Potential outcome framework ์์ ์ธ๊ณผ์ถ๋ก ์ ์ํด ์ฐ๋ฆฌ๊ฐ ๊ตฌํด์ผ ํ๋ ๊ฒ์ counterfactual ๋ถ๋ถ์ธ๋ฐ, ํ์ค์์ ์ฐ๋ฆฌ๊ฐ ์ง์ ๋ฐ์ดํฐ๋ก ๊ด์ฐฐ ๊ฐ๋ฅํ ๊ฒ์ treatment ๋ฅผ ๋ฐ์ง ์์ control group ์ด๋ค.

โข ์ธ๊ณผ์ถ๋ก ์ด ์ด๋ ค์ด ์ด์ ๋, ์ด์์ ์ธ counterfactual ๊ณผ ํ์ค์์์ control group ๊ฐ์ ์ฐจ์ด์ ๊ธฐ์ธํ๋ค. ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํ, ์ฆ counterfactual ์ ๊ฐ๊น๋๋ก control ์ ์ค์ ํ๋ ์ธ๊ณผ์ถ๋ก ๋ฐฉ๋ฒ๋ค์ด ๋ฑ์ฅํ๊ฒ ๋๋ ๊ฒ์ด๋ค.
โข Potential outcome framework ๋ ์ธ๊ณผ์ถ๋ก ์ missing value ๊ด์ ์ผ๋ก ๋ณด๊ธฐ๋ ํ๋ค. treament group ๊ณผ control group ์์์ ๊ด์ธก ๋ถ๊ฐ๋ฅํ cell ์ ๊ฐ์ ๋ฌด์ํด๋ ๋๋ค๋ผ๋ ์ธก๋ฉด์์ ์ด๋ฌํ ์กฐ๊ฑด์ Ignorability ๋ผ๊ณ ๋ถ๋ฅธ๋ค. ํน์ ๋ ๊ทธ๋ฃน ๊ฐ์ ๊ฐ์ ๊ตํ ๊ฐ๋ฅํ๋ค๋ ์๋ฏธ์์ exchangability ๋ผ๊ณ ๋ ๋ถ๋ฅธ๋ค.
โข ๋ฐ๋ฉด, selection bias ๋ causal graph ๊ด์ ์์์ ์ฉ์ด๋ก ๋ณด๋ฉด, treatment ์ result ์ ์ํฅ์ ๋ฏธ์น๋ ์ธ๋ถ ์์ธ(๊ต๋ ์์ธ, confounder) ์ด ์์ด์ผ ์ธ๊ณผ์ถ๋ก ์ ์กฐ๊ฑด์ด ์ฑ๋ฆฝํ๋ค๋ ์๋ฏธ์์ Unconfoundess ๋ผ๊ณ ๋ ๋ถ๋ฅธ๋ค. ํต๊ณ์ ์ธ ๊ด์ ์์๋ Exogeneity (๋ด์์ฑ์ด ์๋ ์กฐ๊ฑด, ์ธ์์ฑ) ๋ผ๊ณ ๋ถ๋ฅธ๋ค.
โจ ๊ฒฐ๊ตญ ๋ชจ๋ ๊ทผ๋ณธ์ ์ผ๋ก๋ counterfactual ์ ๊ฐ์ฅ ๊ฐ๊น์ด control group ์ ์ฐพ์์ผ๋ก์จ counterfactual ์ ๋์ ํ๋ ์ ๋ต์ด๋ผ ๋ณผ ์ ์๋ค.

โข ๋ฐ๋ ค๋๋ฌผ์ ํค์ฐ๋ ์ฌ๋๊ณผ ํค์ฐ์ง ์๋ ์ฌ๋์ ๋จ์ ๋น๊ตํ๋ ๊ฒ์ด ์ ์ธ๊ณผ์ถ๋ก ์ ์ํด ์ ์ ํ์ง ์์์ง ์ด์ ์ด๋์ ๋ ์ดํดํ ์ ์๋ค.
3. Selection bias
โฏ Selection bias

โข ๋ฐ๋ ค๋๋ฌผ์ ํค์ฐ๋ ๊ฒ๋ ์ฌ๋๋ค์ ์๋ฐ์ ์ธ ์ ํ์ด๋ค. ๋ง์ฝ ๊ทธ๋ฌํ ์ฌ๋๋ค์ ์๋ฐ์ ์ธ ์ ํ์ด, ์ฐ๋ฆฌ๊ฐ ๊ด์ฌ์๋ ๊ฒฐ๊ณผ์ธ '์ฐ์ธ์ฆ' ๊ณผ ๊ด๋ จ์ด ์์ ์ ์๋ค. ๊ฐ๋ น, ์ฐ์ธ์ฆ์ด ๋์ ์ฌ๋๋ค์ด ๋ฐ๋ ค๋๋ฌผ์ ํค์ฐ๊ณ ์ ํ๋ ์ฑํฅ์ด ๋์ ์ ์๋ค.
โข ์ธ๊ณผ์ ์ธ ํจ๊ณผ๋ฅผ ์ถ์ ํ๊ธฐ ์ํด์๋ ์๋ฒฝํ counterfactual ์ ํ์ค์์ ๊ด์ฐฐํ ์๋ ์๊ฒ ์ง๋ง, ๋ฐ๋ ค๋๋ฌผ์ ํค์ฐ๋ ์ฌ์ค์ ์ ์ธํ๊ณ ๋ ๋๋จธ์ง ์์ธ๋ค์ด ๊ทธ๋๋ง ์ต๋ํ ๋น์ทํ ์ฌ๋๋ค๋ผ๋ฆฌ ๋ฌถ์ด์ ๊ทธ๋ค์ ๋น๊ตํ๋ฉด ์ต๋ํ ๋ฐ๋ ค๋๋ฌผ์ ํค์ฐ๋ ๊ฒ์ ์ธ๊ณผํจ๊ณผ๋ฅผ ์ดํด๋ณผ ์ ์์ ๊ฒ์ด๋ค.
โข ๊ทธ๋ฌ๋ ์ ๋ง๋ก ๋น์ทํ์ง์ ์ฌ๋ถ๋ ๋ ๋ค์ ํ๋ฒ ๋ ์ดํด๋ด์ผ ํ๋ค.
โข Counterfactual ๊ณผ Control group ๊ฐ์ ์ฐจ์ด๋ฅผ selection bias ๋ผ๊ณ ๋ถ๋ฅธ๋ค. treatment ๋ฅผ ๋ฐ์์ง ๋ง์ง๋ฅผ ์ฌ๋๋ค์ด ์ ํํ๊ธฐ ๋๋ฌธ์ ๊ทธ๊ณณ์์ ๋ถํฐ ํธํฅ์ด ๋ฐ์ํ ์ ์๋ค. selection bias ๋ฅผ ์ผ๊ธฐํ๋ ๊ต๋ ์์ธ์ confounding factor ๋ผ ๋ถ๋ฅธ๋ค. ์ค๋ฅธ์ชฝ ๊ทธ๋ฆผ์ X ๋ผ๋ ๋ณ์๊ฐ ๋ ๊ทธ๋ฃน ๊ฐ์ ์ฐจ์ด selection bias ๋ฅผ ์ค๋ช ํ ์ ์๋ค. ๋ฐ๋ผ์ X ๋ฅผ confounding factor ๋ผ๊ณ ๋ถ๋ฅธ๋ค.

โข ํ์ค์์ ๋ฐ์ดํฐ๋ฅผ ํตํด ๋ถ์ํ ์ ์๋ ๊ฒ์, treatment ๋ฅผ ๋ฐ์ ์ฌ๋๋ค์ outcome ๊ณผ control group ์ outcome ์ ์ฐจ์ด๋ค. ์ฌ๊ธฐ์ ๊ฐ์ ๊ฐ์ธ counterfactual ์ ๋ํ๊ณ ๋นผ๋ฉด ์์ ๊ฐ์ด ์ธ ์ ์๋ค. ์ด ์์ ๋ค์ ์ฌ์ ๋ฆฝํ๋ฉด, Causal effect ๋ถ๋ถ๊ณผ selection bias (causual effect ๋ฅผ ์ถ์ ํ๋ ๊ฒ์ ๋ฐฉํดํ๋ ์์ธ, treatment ๊ทธ๋ฃน์์ treat ๋ฅผ ๋ฐ์ง ์์์ ๋ ์๊ธฐ๋ ๊ฒฐ๊ณผ : counterfactual ์ ์ค์ treat ๋ฅผ ๋ฐ์ง ์์ ์ง๋จ : control ๊ฐ์ ์ฐจ์ด) ๋ถ๋ถ์ผ๋ก ๋๋์ด ๋ณผ ์ ์๋ค.
โข Observed effect of the treatment = Causal effect + selection bias
โฏ Ceteris Paribus โ Comparable control group

โข selection bias ๋ฅผ ์์ ๊ธฐ ์ํ ์กฐ๊ฑด : Ceteris Paribus โจ treatment ๋ฅผ ๋ฐ์๋ค๋ ์ฌ์ค๋ง ์ ์ธํ๊ณ ๋๋จธ์ง ๋ชจ๋ ์์ธ๋ค์ด ๋์ผํด์ ๋น๊ต ๊ฐ๋ฅํ๋ค๋ ์กฐ๊ฑด

โข Selection bias ๋ฅผ ์ ๊ฑฐํ๊ธฐ ์ํ ๋ฐฉ๋ฒ์ ๊ด๋ จํ ์ฐ๊ตฌ ์ฌ๋ก : ์ฌํ๊ทผ๋ฌด์ ์ธ๊ณผ์ ์ธ ํจ๊ณผ๋ฅผ ์ถ์
โข ์ฝ์ผํฐ ์ง์๋ค์๊ฒ ์ฌํ๊ทผ๋ฌด ํฌ๋ง์๋ฅผ ์ง์ ๋ฐ์ โ ์ฌํ ๊ทผ๋ฌด๋ฅผ ์ ํํ ์ฌ๋์ด treatment group ์ด ๋๊ณ , ์ฌํ๊ทผ๋ฌด๋ฅผ ํ์ง ์๊ฒ ๋ค๊ณ ์ ํํ ์ฌ๋์ด control group ์ด ๋จ
โข ์ฌํ๊ทผ๋ฌด๋ฅผ ์ง์ํ ์ฌ๋๊ณผ ๊ทธ๋ ์ง ์์ ์ฌ๋ ๊ฐ์ ์ฌ๋ฌ ํน์ฑ๋ค์ด ๋ค๋ฅผ ์ ์์ (ex. ์์ด๋ฅผ ๊ฐ์ง ์ฌ๋)
โข ๊ฐ์ฅ ์ด์์ ์ธ ์ํฉ : ์ฌํ๊ทผ๋ฌด์ ์ธ๊ณผ์ ์ธ ํจ๊ณผ๋ฅผ ์ถ์ ํ๊ธฐ ์ํด์ treament group ๊ณผ, ์ฌํ๊ทผ๋ฌด๋ฅผ ํ์ง ์์์ผ๋ฉด ์์์ counterfactual ๋ฅผ ๋น๊ต
โข ๊ทธ๋ฌ๋ ํ์ค์์๋ selection bias ๊ฐ ๋ฐ์ํ ์ ๋ฐ์ ์์ โจ ํ์ค์์ ๋น๊ต ๊ฐ๋ฅํ control group ์ ๋ง๋ค์ด์ผ ํจ

โข ์ฌํ๊ทผ๋ฌด์ ์๋ฐ์ ์ผ๋ก ์ง์ํ ์ฌ๋๋ค ์ค์์, ๋๋คํ๊ฒ treatment group ๊ณผ control group ์ผ๋ก ๋๋๋ฉด, randomized control group ์ ์ด์์ ์ธ counterfactual ์ด ๋๋ค.
โข ์์ ๊ฐ์ด ์คํ์ ์ค๊ณํ๋ฉด, Randomized control group ๊ณผ self-selected control group ๊ฐ์ ์ฐจ์ด์ธ selection bias ๋ฅผ ๊ตฌํด๋ผ ์ ์๋ค.
๋๊ธ