๐ ์ธ๊ณผ์ถ๋ก ๊ฐ์ธ ๊ณต๋ถ์ฉ ํฌ์คํธ ๊ธ์ ๋๋ค. ์ถ์ฒ๋ ์ฒจ๋ถํ ๋งํฌ๋ฅผ ์ฐธ๊ณ ํด์ฃผ์ธ์!
โ ์ธ๊ณผ์ถ๋ก ์ ๊ด์ฌ์ ๊ฐ์ ธ์ผ ํ๋ ์ด์
• ๋จธ์ ๋ฌ๋์ ์ธ๊ณผ๊ด๊ณ ์ ํ์ ๋ฌธ์ ๋ฅผ ์ ๋ค๋ฃจ์ง ๋ชปํ๋ค. ๊ฐ๋ น ํธํ ์ฐ์ ์์ , ๊ฐ๊ฒฉ์ด ๋น์๊ธฐ์ผ๋ ์ ๋ ดํ๊ณ ์ฑ์๊ธฐ์ผ๋ ๋๋ค. ๋จธ์ ๋ฌ๋์ด Naive ํ prediction ์ ํ๊ฒ ๋๋ฉด ๊ฐ๊ฒฉ์ ์ธ์ํ์ ๋ ๋ ๋ง์ ๊ฐ์ค์ด ํ๋ฆด ๊ฒ์ด๋ผ ์ ์ํ ์ ์๋ค.
• ์ธ๊ณผ์ถ๋ก ์ Counterfactual ์ด๋ผ ๋ถ๋ฅด๋ "๋ง์ฝ์" ๋ผ๋ ์ง๋ฌธ์ ๋ตํ ๊ฒ์ ์๊ตฌํ๋ค.
• ๋จธ์ ๋ฌ๋์ ์๊ด๊ด๊ณ ์ ํ ์์ธก์ ์์กดํ์ฌ ์ธ๊ณผ์ถ๋ก ์ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ ์ ์๋ค. ์๊ด๊ด๊ณ์ ์ธ๊ณผ๊ด๊ณ๋ ๋ค๋ฅด๋ค.
โก Notation
โฏ ์์
• ํ์๋ค์๊ฒ ํ๋ธ๋ฆฟ์ ์ ๊ณตํ์ ๋ ์ฑ๊ณผ์ ๋ฏธ์น๋ ์ธ๊ณผํจ๊ณผ ๋ฐํ๋ด๊ธฐ
โฏ Ti
• unit i ์ ๋ํ Treatment ์ฌ๋ถ๋ฅผ ๋ํ๋ธ๋ค.
• effect ๋ฅผ ์๊ณ ์ ํ๋ ์ผ๋ถ intervention ์ ๋ํ๋ด๋๋ฐ ์ฌ์ฉํ๋ ์ฉ์ด
• T ๋์ D๋ก ํ์๋๋ ๊ฒฝ์ฐ๋ ์ข ์ข ์๋ค.
• ์์ ์์์ฌ๋ก์์ ํ๋ธ๋ฆฟ ์ ๊ณต์ด Treatment ์ ํด๋น
โฏ Yi
• unit i ์ ๋ํ ๊ด์ฐฐ๋ ๊ฒฐ๊ณผ๋ณ์ (Outcome variable)
• ๊ด์ฌ์๋ ๋ณ์๋ก, Treatment ๊ฐ Outcome ์ ์ํฅ์ ๋ฏธ์น๋์ง์ ๋ํด ์๊ณ ์ ํ๋ค.
• ์์ ์์ ์ฌ๋ก์์ ํ์ ์ฑ์ทจ๊ฐ ๊ฒฐ๊ณผ๋ณ์๊ฐ ๋๋ค.
โฏ ์ธ๊ณผ์ถ๋ก ์ ๊ทผ๋ณธ์ ์ธ ๋ฌธ์
• Treatment ๊ฐ ์๋ ์๋ ๊ฐ์ ์คํ ๋์์ ๋ํด ๋์์ ๊ด์ฐฐํ ์ ์๋ค๋ ๊ฒ
• Potential outcome : ์ค์ ๋ก ์ผ์ด๋์ง ์์์ผ๋ ๋ฐ์ํ ์ ์๋ ๊ฒฐ๊ณผ
• ๋ฐ์ํ ์ ์ฌ์ ๊ฒฐ๊ณผ๋ฅผ factual ์ด๋ผ๊ณ ๋ถ๋ฅด๊ณ ์ผ์ด๋์ง ์์ ๊ฒฐ๊ณผ๋ฅผ counterfactual ์ด๋ผ๊ณ ๋ถ๋ฅด๊ธฐ๋ ํ๋ค.
• Y0i : ์คํ๋์ i๊ฐ Treatment ๋ฅผ ๋ฐ์ง ์์ ์ ์ฌ์ ๊ฒฐ๊ณผ
• Y1i : ๊ฐ์ ์คํ๋์ i๊ฐ Treatment ๋ฅผ ๋ฐ์ ์ ์ฌ์ ๊ฒฐ๊ณผ
• ์์ ์์ Y1i ๋ ํ๋ธ๋ฆฟ์ด ์๋ ๊ต์ค์ ์๋ ๊ฒฝ์ฐ ํ์ i์ ๋ํ ํ์ ์ฑ์ทจ๋๋ฅผ ๋ํ๋ธ๋ค. ํ๋ธ๋ฆฟ์ ๋ฐ์ง ๋ชปํ ๊ฒฝ์ฐ๋ผ๋ฉด Y0i๊ฐ ๊ด์ธก๋๋ค. ๊ทธ๋ฌ๋ ํ๋ธ๋ฆฟ์ ๋ฐ์ง ๋ชปํ ๊ฒฝ์ฐ์ Y1i ๋ ๊ด์ธก ๋ถ๊ฐ๋ฅํ๋ค. ์ด๋ฌํ ๊ฒฝ์ฐ๋ฅผ counterfactual potential outcome ์ด๋ผ ๋ถ๋ฅธ๋ค.
โฏ ITE
• potential outcomes ๋ฅผ ํตํด ๊ฐ๋ณ ์ฒ์นํจ๊ณผ ITE ๋ฅผ ์ ์ํ ์ ์๋ค : Y1i - Y0i
• ๊ทธ๋ฌ๋ ์ธ๊ณผ์ถ๋ก ์ ๊ทผ๋ณธ์ ์ธ ๋ฌธ์ ๋ก ๊ฐ์ i ์ ๋ํด ์ ์ฌ์ ๊ฒฐ๊ณผ ์ค ํ๋๋ง ๊ด์ธก ๊ฐ๋ฅํ๊ธฐ ๋๋ฌธ์ ITE ๋ฅผ ์ ์ ์๋ค โจ ๋์ ATE ๋ฅผ ์ถ์
โฏ ATE
• Average treatment effect
• ATE = E[Y1-Y0]
โฏ ATET (ATT)
• average treatment effect on the treated
• ์ฒ์น๋ฐ์ ๊ทธ๋ฃน์ ๋ํ ํ๊ท ์ฒ์นํจ๊ณผ๋ก ATE๋ณด๋ค ์ถ์ ํ๊ธฐ ์ข ๋ ์ฝ๋ค.
• ATT = E[Y1-Y0 | Y=1]
โฏ ์์ ๊ณ์ฐ ์์
• 4๊ฐ์ ํ๊ต์ ๋ํ ๋ฐ์ดํฐ๋ฅผ ์์ง : i = {1,2,3,4}
• ํ์๋ค์๊ฒ ํ๋ธ๋ฆฟ์ ์ ๊ณตํ๋ ๊ฒฝ์ฐ : t=1
• y0 : before treatment, y1 : after treatment, te = treatment effect = y1 - y0
• y : ์ค์ ๊ด์ธก์น โจ t=0 ์ผ ๋๋ y0 ๊ฐ์ ๊ฐ์ง๊ณ , t=1 ์ผ ๋๋ y1 ๊ฐ์ ๊ฐ์ง๋ค.
• t=0 ์ผ ๋์ y1 ๊ฐ์ ์ฒ์น๋ฐ์ Y0 ์ผ๋ก counterfactual ๊ฐ์ ํด๋นํ๋ค. ์ ์ฌํ๊ฒ t=1 ์ผ ๋ y0 ๋ counterfactual ์ ํด๋นํ๋ค.
• ATE ๋ ๋ง์ง๋ง ์นผ๋ผ์ ๋ํ ํ๊ท , ์ฆ ๊ฐ๋ณ ์ฒ์นํจ๊ณผ์ ๋ํ ํ๊ท ์ด๋ค.
โช ํ๋ธ๋ฆฟ์ด ํ์๋ค์ ํ์ ์ฑ์ทจ๋๋ฅผ ํ๊ท ์ ์ผ๋ก 50์ ๊ฐ์์์ผฐ์์ ์๋ฏธํ๋ค.
• ATT ๋ T=1 ์ผ ๋ ๋ง์ง๋ง ์ด์ ํ๊ท ์ด๋ค.
โช ํ๋ธ๋ฆฟ์ ๋ฐ์ ํ๊ต๋ ํ๋ธ๋ฆฟ์ด ํ์๋ค์ ํ์ ์ฑ์ทจ๋๋ฅผ ํ๊ท ์ ์ผ๋ก 75์ ๊ฐ์์์ผฐ์์ ์๋ฏธํ๋ค.
• ๊ทธ๋ฌ๋ ์ค์ ๋ก ATE ์ ATT ๋ฅผ ๊ณ์ฐํด๋ผ ์๋ ์๋ค. (counterfactual) ์ค์ ๋ก ๋ง์ฃผํ๋ ๋ฐ์ดํฐ๋ ์๋์ ๊ฐ๋ค.
โข Bias
โฏ ์์ ์์ bias
• ํ์๋ค์๊ฒ ํ๋ธ๋ฆฟ์ ์ ๊ณตํ๋ ํ๊ต๊ฐ ๋ ๋์ ์ํ ์ ์๋ฅผ ์ป๋๋ค๋ ์ฃผ์ฅ์ ๋ถ๋ํ์ ๋, ํด๋น ํ๊ต๋ ๋ถ์ ํ๊ธฐ ๋๋ฌธ์ ํ๋ธ๋ฆฟ์ ์ ๊ณต ํ ์ ์์๋ ๊ฒ์ด๊ณ , ๋ฐ๋ผ์ ํ๋ธ๋ฆฟ ์์ด๋ ๋ ๋ฅ๋ ฅ์ด ์ข์ ๊ต์ฌ๋ฅผ ๊ณ ์ฉํด ์ด์จ๋ ๋ ๋์ ์ํ ์ ์๋ฅผ ์ป์ ๊ฒ์ด๋ผ๊ณ ๋งํจ์ผ๋ก์จ ์ด ์ฃผ์ฅ์ ๋ฐ๋ฐํ ์ ์๋ค. ์ฆ, treatment group ๊ณผ control group ์ด ๋น๊ต ๊ฐ๋ฅํ์ง ์์ ๊ฒฝ์ฐ์ ํด๋นํ๋ค.
โฏ Bias
• Counterfactual ์ ๊ด์ฐฐ ๋ถ๊ฐ๋ฅํ๋, ํด๋น ๋ถ๋ถ์ ๋ํ ์ถ๋ก ์ ๋๋ฉ์ธ ์ง์๋ฑ์ ํตํด ๊ฐ๋ฅํ๋ค.
• ์์ ์์์ ๊ฒฝ์ฐ ์ฒ์น๋ฅผ ๋ฐ์ ํ๊ต์ Y0 ๊ฐ ์ฒ์น๋ฅผ ๋ฐ์ง ์์ ํ๊ต์ Y0 ๋ณด๋ค ํฌ๋ค๊ณ ๋ณผ ์ ์๋ค. ์ฆ, ํ์๋ค์๊ฒ ํ๋ธ๋ฆฟ์ ์ ๊ณตํ ์ ์๋ ๋ฅ๋ ฅ์ด ์๋ ํ๊ต๋ ๋ ๋์ ์ํ์ ์์ ์ํฅ์ ์ฃผ๋ ๋ค๋ฅธ ์์ธ๋ค๋ ์กด์ฌํ ์ ์๊ธฐ ๋๋ฌธ์ด๋ค. (ex. ๊ตญ์ ํ๊ต๋ผ๋์ง)
• ์ฒ์น๋ฅผ ๋ฐ์ ๊ฒฝ์ฐ ๊ด์ฐฐ๋ ๊ฒฐ๊ณผ๋ฅผ Y1, ์ฒ์น๋ฅผ ๋ฐ์ง ์์ ๊ฒฝ์ฐ์ ๊ด์ฐฐ๋ ๊ฒฐ๊ณผ๋ฅผ Y0 ์ด๋ผ๊ณ ์ด์ ๋,
๋ก ๋ณผ ์ ์๊ณ , counterfactual outcome (์ฒ์น๋ฅผ ๋ฐ์ง ์์๋ค๋ฉด ์ฒ์น์ ๊ฒฐ๊ณผ) ์ธ E[Y0 | T=1] ๋ฅผ ๋ํ๊ณ ๋บ์ ๋
์ ๊ฐ์ด ์์ฑํด๋ณผ ์ ์์ผ๋ฉฐ, ์์์ ์ฌ์ ๋ฆฌํ๊ณ ๊ธฐ๋๊ฐ์ ํฉ์น ์ดํ์ ์์์ ์๋์ ๊ฐ๋ค.
์ด๋ bias ๋ ์คํ๊ตฐ๊ณผ ๋์กฐ๊ตฐ์ด ์ฒ์น๋ฅผ ๋ฐ์ง ์์ ๊ฒฝ์ฐ, ์ฒ์น ์ ์ ์คํ๊ตฐ๊ณผ ๋์กฐ๊ตฐ์ด ์ด๋ป๊ฒ ๋ค๋ฅธ์ง๋ฅผ ๋ํ๋ธ๋ค. ํ๋ธ๋ฆฟ ์์ ์์ ์ฃผ์ฅํ๋ ๋ฐ๋ฐ๋๋ก bias ๋ฅผ ์์ฑํด๋ณด๋ฉด E[Y0 | T=0] < E[Y0 | T=1] ์ด๋ผ ๋ณผ ์ ์๋ค. (์ด๋ฏธ ๋ฅ๋ ฅ์๋ ํ๊ต)
• Bias ๊ฐ ๋ฐ์ํ๋ ์ด์ ๋, ์ฐ๋ฆฌ๊ฐ ํต์ ํ ์ ์๋ ๋ง์ ๋ณ์๋ค์ด Treatment ์ ํจ๊ป ๋ฐ๋๊ธฐ ๋๋ฌธ์ ๋ฐ์ํ๋ค. ๊ฒฐ๊ณผ์ ์ผ๋ก ์ฒ์น๋ฅผ ๋ฐ์ ํ๊ต์ ์ฒ์น๋ฅผ ๋ฐ์ง ์์ ํ๊ต๋ ํ๋ธ๋ฆฟ์์๋ง ์ฐจ์ด๊ฐ ์๋ ๊ฒ์ด ์๋๋ค. ์์ ๋ฃ, ์์น, ๊ต์ฌ ๋ฑ ๋ค๋ฅธ ์์ธ๋ค๋ ์ํฅ์ ๋ฏธ์น ์ ์๋ค. ๋ง์ฝ, ํ๋ธ๋ฆฟ ์ ๊ณต๊ณผ ํ์ ์ฑ์ ํฅ์์ ์ธ๊ณผ๊ด๊ณ๋ฅผ ๋ช ํํ ๋ฐํ๊ณ ์ถ๋ค๋ฉด, ํ๋ธ๋ฆฟ์ด ์๋ ํ๊ต์ ์๋ ํ๊ต๊ฐ ํ๊ท ์ ์ผ๋ก ์๋ก ๋น์ทํด์ผ ํ๋ค. ์ฆ, E[Y0 | T=0] = E[Y0 | T=1] ์ด์ฌ์ผ ์ธ๊ณผ๊ด๊ณ๋ก ํด์ํ ์ ์๋ ๊ฒ์ด๋ค. (๋๋ ์คํ๊ตฐ์ด ์ฒ์น๋ฅผ ๋ฐ์ง ์์์ ๋๋ฅผ ๊ด์ธกํ ์ ์์ผ๋ฉด ๋๋ค)
• bias ๊ฐ ์๋ค๋ฉด, ATT ๋ E[Y|T=1] - E[Y|T=0] ์ด ๋๋ค. ์ฆ, ๋น๊ต ๊ฐ๋ฅํ ๊ทธ๋ฃน์ผ ๊ฒฝ์ฐ ๋ ์ง๋จ์ ํ๊ท ์ฐจ์ด๊ฐ ์ธ๊ณผํจ๊ณผ๊ฐ ๋๋ค.
• ๋ง์ฝ ์ฒ์น ํ์๋ ์คํ๊ตฐ๊ณผ ๋์กฐ๊ตฐ์ด ๊ตํ ๊ฐ๋ฅํ, ์ฆ, E[Y1 | T=0] = E[Y1 | T=1] ์ํ๊ฐ ๋๋ฉด ์๋์ ๊ฐ์ด ATT ๊ฐ ATE ๊ฐ ๋๋ค. (โป ์ฐธ๊ณ )
• ์คํ๊ตฐ๊ณผ ๋์กฐ๊ตฐ์ ๋จ์ ํ๊ท ์ ๋น๊ตํ์ ๋๋ ์๋์ ๊ฐ๋ค.
๊ทธ๋ฌ๋ ์ค์ ์ฒ์นํจ๊ณผ๋ ์๋์ ์ผ์ชฝ ๊ทธ๋ฆผ๊ณผ ๊ฐ์ด ์ ์ฌ์ ๊ฒฐ๊ณผ๋ฅผ ๊ด์ฐฐํ ์ ์๋ ๊ฒฝ์ฐ์๋ง ๊ฐ๋ฅํ๋ค. ์๋์ ์ค๋ฅธ์ชฝ ๊ทธ๋ํ๋ bias ๋ฅผ ๋ํ๋ธ๋ค.
bias ๊ฐ ์๋ ๊ฐ์์ ์ํฉ์ ์๋์ ๊ฐ์๋ฐ, ํ๋ธ๋ฆฟ์ด ํ๊ต์ ๋ฌด์์๋ก ํ ๋น๋ ๊ฒฝ์ฐ๋ฅผ ๋ํ๋ธ๋ค. ์ด ๊ฒฝ์ฐ์๋ ์ฒ์น๋ฅผ ๋ฐ์ ๊ทธ๋ฃน๊ณผ ๋ฐ์ง ์์ ๊ทธ๋ฃน์ ์ฐจ์ด๋ ํ๊ท ์ธ๊ณผํจ๊ณผ์ ํด๋นํ๋ค. (ATE) treatment ์ด์ธ์ ์ฒ์น๊ทธ๋ฃน๊ณผ ํต์ ๊ทธ๋ฃน ์ฐจ์ด์ ๋ค๋ฅธ ์์ธ์ด ์๊ธฐ ๋๋ฌธ์ด๋ค.
โจ Bias์ ์ ๊ฑฐํ๊ณ ์คํ๊ตฐ๊ณผ ๋์กฐ๊ตฐ์ ๋น๊ต๊ฐ๋ฅํ๊ฒ ํ๋ ํ๋ช ํ ๋ฐฉ๋ฒ์ ์ฐพ์์, ๋ชจ๋ ์ฐจ์ด๊ฐ ํ๊ท ์ ์ธ ์ฒ๋ฆฌ ํจ๊ณผ(ATE)๋ง์ผ๋ก ์ถ์ ํ ์ ์๊ฒ๋ํ๋ ๊ฒ์ด ์ธ๊ณผ์ถ๋ก ์ด๋ค. Identifying causal effect
๋๊ธ