์ฐธ๊ณ ์์ : Bootcamp 4-1. Instrumental variable and regression discontinuity
1. ๋๊ตฌ๋ณ์
โฏ Causal Hierarchy
• quasi-experiment design ์ด ๋ถ๊ฐ๋ฅํ์ง๋ง treatment๋ฅผ ํ ์ ์๋ ์ธ์๋ณ์๊ฐ ์กด์ฌํ๋ ๊ฒฝ์ฐ โจ instrumental variable ๋ฅผ ์ฌ์ฉ
• quasi-experiment design ์ด ๊ฐ๋ฅํ๊ณ , ์ฒ์น์ง๋จ๊ณผ ํต์ ์ง๋จ์ ๊ด์ฐฐํ ์ ์์ง๋ง, longitudinal data (=panel data)๋ฅผ ๊ด์ธกํ ์ ์์ด (์ฆ, panel data ๊ฐ ์๋) treatment ๊ฐ arbitrary ํ threshold๋ก ์ ์ฉ๋๋ ๊ฒฝ์ฐ โจ Regression discontinuity์ ์ฌ์ฉ
โฏ Endogeneity in Regression
• ํ๊ท๋ถ์์ ์ธ๊ณผ์ถ๋ก ๊ด์ ์์ ํด์ํ๊ธฐ ์ํ ๊ฐ์ : conditional independence : control variable ์ ํตํด selection bias๋ฅผ ํต์ ํ๊ณ , control variable ์ด condition ๋์ด์๋ ์ํฉ์์ treatment variable ์ธ Xi์ error term ์ฌ์ด์ ์๊ด๊ด๊ณ๊ฐ ์์ด์ผ ํ๋ค.
• selection bias = (treatment group ์์ treatment ๊ฐ ์์์ ๋๋ฅผ ๊ฐ์ ํ counterfactual) - (์ค์ treatment ๊ฐ ์๋ control group)
โช ๊ด์ฐฐ๋์ง ์์ ์์ธ์ ์ํ selection bias ๋, regression ์ผ๋ก ๋ถ์ํ๊ฒ ๋๋ฉด, error term์ ๋ด๊ธฐ๊ฒ ๋๋ค.
โช error term ์ treatment ๋ฅผ ๋ฐ์ ์ฌ๋ถ์ ์ฐ๊ด์ด ์๊ฒ ๋จ (selection bias ๊ฐ ํฌํจ๋์ด ์๊ธฐ ๋๋ฌธ) โจ ๊ฒฐ๊ตญ ํ๊ท๋ถ์์์ Xi์ ei ์ฌ์ด์ ์๊ด๊ด๊ณ๊ฐ ๋ํ๋๊ฒ ๋๋ค.
• ๊ฒฐ๊ณผ๋ฅผ ์ธ๊ณผ์ถ๋ก ์ผ๋ก ํด์ํ๊ธฐ ์ํด์๋ treatment variable ๊ณผ error term ์ exogenous ํด์ผ ํ๋ค. ํ์ง๋ง ์ค์ ๋ก๋ ๊ทธ๋ฐ ๊ฒฝ์ฐ๊ฐ ๋๋ฌผ๊ธฐ ๋๋ฌธ์ ์ธ๊ณผ์ถ๋ก ์ ํ๊ธฐ๊ฐ ์ด๋ ค์ด ๊ฒ์ด๋ค.
• treatment variable ๊ณผ error term ์ด endogenous ํด๋ 100% correlation ์ด ์์ง๋ ์์ ๊ฒ์ด๋ค โจ treatment group์์๋ error term๊ณผ endogenous ํ ๋ถ๋ถ๊ณผ exogenous ํ ๋ถ๋ถ์ด ์์ฌ์์ ๊ฒ์ด๋ค. endogenous ํ ๋ถ๋ถ์ด selection bias ์ ํด๋นํ๋ ๊ฒ์ด๊ณ ์ธ๊ณผ์ถ๋ก ์ ๋ฌธ์ ๋๋ ๋ถ๋ถ์ด๋ค. ์ด ๋ถ๋ถ์ ํต๊ณ์ ์ธ ์ ๊ทผ์ผ๋ก ๋ถ๋ฆฌํด ๋ผ ์ ์์ง ์์๊น โจ ๋๊ตฌ๋ณ์!
2. Taking endogeneity out : instrumental variable
โฏ IV
• ํต๊ณ์ ์ผ๋ก exogenous ํ ๋ถ๋ถ์ ์ป์ด๋ด๋ณด์
• treatment variable ์์ exogenous ํ ๋ถ๋ถ์ ๋ถ๋ฆฌํด ๋ผ ์ ์๋๋ก ํ๋ ๋ณ์๋ฅผ ๋๊ตฌ๋ณ์๋ผ ํ๋ค.
โฏ IV ์ ๋ํ ๊ฐ์
• ๋๊ตฌ๋ณ์๊ฐ ๊ฐ์ถ์ด์ผ ํ ์กฐ๊ฑด๋ ์ข ๋ ๋ถ๋ช ํด์ง ์ ์๋ค.
(1) ๋๊ตฌ๋ณ์๋ treatment variable์ ์ค๋ช ํ ์ ์์ด์ผ ํ๋ค (relevance).
(2) error term ๊ณผ ๋๊ตฌ๋ณ์๋ ์๊ด๊ด๊ณ๊ฐ ์์ด์ผ ํ๋ค.
โช (2)-Exclusion restriction : ๋๊ตฌ๋ณ์๊ฐ outcome์ ์ํฅ์ ๋ฏธ์น๊ธฐ๋ ํด์ผ ํ๋ค. ๋จ, treatment variable์ ํตํด์๋ง outcome์ ์ํฅ์ ๋ฏธ์ณ์ผ ํ๋ค.
โช (2)-Exogeneity of IV : ๋๊ตฌ๋ณ์๊ฐ ๊ด์ฌ์๋ outcome์ ๋ํด ์ด๋ ํ confounder (๊ต๋์์ธ) ๋ ๊ฐ์ง ์์์ผ ํ๋ค.
3. First approach: Two-stage least squares
• Regression ์์ Xi์ ei ์ด ์๊ด๊ด๊ณ๊ฐ ์์ด์ผ๋ง, coefficient๋ฅผ ์ธ๊ณผ๊ด๊ณ๋ก ํด์ํ ์ ์๋ค.
• ๋๊ตฌ๋ณ์๋ฅผ ํตํด exogenous ํ ๋ถ๋ถ๋ง ์์ธกํ๊ณ , ๋๋จธ์ง endogenous ํ ๋ถ๋ถ์ ๋ฒ๋ ค์ ์ธ๊ณผ๊ด๊ณ๋ฅผ ๋ถ์ํ๊ณ ์ ํ๋ ๊ฒ
โฏ ์์์ผ๋ก ์ดํด๋ณด๊ธฐ
(1) ๋ณธ๋์ ๋ฐฉ์ ์
(2) First-stage equation : ๋๊ตฌ๋ณ์์ธ z๋ฅผ ๊ฐ์ง๊ณ treatment variable ์ธ x๋ฅผ ์์ธก
โช ๋๊ตฌ๋ณ์๊ฐ ๊ฐ์ ์ ๋ง์กฑํ๋ค๋ฉด, x๋ก๋ถํฐ exogenous ํ ํํธ๋ง์ ์์ธกํ ์ ์๋ค.
โช α0 + α1โz ๊ฐ ๋๊ตฌ๋ณ์๋ก ์ค๋ช ํ ์ ์๋ ๋ถ๋ถ
โช v ๋ ์ค๋ช ๋ถ๊ฐ๋ฅํ ๋ถ๋ถ์ ๋ด๋ error term (endogenous part)
(3) ๋๊ตฌ๋ณ์๋ก exogenous ๋ถ๋ถ์ ์์ธก
โช residual v๋ฅผ ์ ๊ฑฐํ๊ณ ๋๊ตฌ๋ณ์๋ก ์์ธก ๊ฐ๋ฅํ ๋ถ๋ถ๋ง ๋ผ์ด์ ์์ธก๊ฐ์ ๋ง๋ฆ
(4) second stage : 3๋ฒ์์ ๊ตฌํ x_hat์ ๊ฐ์ง๊ณ x๋ฅผ ๋์ฒดํ๋ค.
โช x_hat ๊ณผ u (error term)์ correlation์ ๋ณด๋ฉด 0์ด ๋๋ค. ์ฆ, ์ด์ exogenous ํ๋ค๋ ๊ฒ์ด๋ค. ์ฆ, ์ธ๊ณผ์ ์ธ ๊ด๊ณ๋ฅผ ์ด์ ํด์ํ ์ ์๋ค๋ ๊ฒ์ด๋ค.
๐ ๊ทธ๋ฌ๋ ์ด๋ฌํ ์กฐ๊ฑด์ ๋ง์กฑํ๋ ๋๊ตฌ๋ณ์๋ฅผ ์ค์ ์ธ๊ณ์์ ์ฐพ๊ธฐ๋ ๋งค์ฐ ์ด๋ ต๋ค.
4. IV example
โฏ ex1. Exogenous Event-based IVs (Ideal)
• ์ฃผ์ : ์ฌํ์ ๋์ ๊ฒฝ์ ์ฑ์ฅ ๊ฐ์ ๊ด๊ณ, ์ฌ์ ์ฌ์ฐ ์ ๋์ ๊ณ์ฝ์ ๋๊ฐ ๊ฒฝ์ ์ฑ์ฅ์ ๋ฏธ์น๋ ์ํฅ ๋ถ์
• ๋ฐ์ดํฐ๋ฅผ ํตํด ๋ถ์ํ๊ธฐ ์ด๋ ค์ด ์ด์ ๋, ๊ฒฝ์ ์ฑ์ฅ์ ๋ฏธ์น๋ ๊ด์ธกํ๊ธฐ ์ด๋ ค์ด ์์ธ์ด ๋งค์ฐ ๋ง๊ธฐ ๋๋ฌธ์ด๋ค. ์ ํํธํฅ์ด ํฌ๊ฒ ์กด์ฌํ๊ณ , ๋ด์์ฑ์ด ์กด์ฌํ๋ค.
• ์ฐธ์ ํ ๋๊ตฌ๋ณ์๋ฅผ ํ์ฉํด ๋ฌธ์ ๋ฅผ ํด๊ฒฐํด๋ณผ ์ ์๋ค.
โช ์ฌ์ ์ ์ฐ ์ ๋์ ๋ํ ๋๊ตฌ๋ณ์๋ก๋ "์ ๊ตญ์ฃผ์ ์์ ์ ์ ๋ฝ์ ์๋ฏผ์ง์์์ ์ฌ๋ง๋ฅ ๊ณผ ์ธ๊ตฌ๋ฐ๋๋ฅผ" ์ฌ์ฉํ๋ค. (์ ๊ตญ์ฃผ์ ๋น์์ ์๋ฏผ์ง ์ง๋ฐฐ์ ๋ต์ด ์ง๊ธ์ ๋ง์ ๊ตญ๊ฐ๋ค์ ์ฌํ์ ๋์ ๊ทผ๊ฐ์ ์ด๋ฃจ๊ณ ์๋ค๋ ๊ฐ์ . ์ญ์ฌ์ ์ธ ๋ฐฐ๊ฒฝ)
โช ์ฝ์ ๋์ ์์ด์๋ ๋๋ฅ๊ตญ๊ฐ (์๊ตญ, ๋ค๋๋๋ ๋ฑ)์ ์ง๋ฐฐ๋ฅผ ๋ฐ์๋์ ๋ฐ๋ผ์ ์๋ฏผ๊ตญ๊ฐ์ ๋ฒ์ ๋๊ฐ ์ด๋ป๊ฒ ์ ์ฐฉ๋์๋์ง๊ฐ ๋ฌ๋ผ์ ํด๋น ๋ณ์๋ฅผ ๋๊ตฌ๋ณ์๋ก ์ฌ์ฉํ๋ค.
โฏ ex2. Regional IVs
• ํด๋น ์ง์ญ์์์ ํน์ฑ์ ํ์ฉํ๋ ๋๊ตฌ๋ณ์
• ์ฃผ์ โ : ์ธํฐ๋ท ๋ณด๊ธ์ด ํ์ค๋ฒ์ฃ์ ๋ฏธ์น๋ ์ํฅ์ ๋ํ ๋ถ์
โช ํ์ค๋ฒ์ฃ์ ์ํฅ์ ๋ฏธ์น๋ ๋ค์ํ ์์ธ : ๋ถํ๋ฑ, ์ฌ๊ฑด, ์ธ์ข ๊ตฌ์ฑ ๋ฑ โจ ์ธํฐ๋ท ๋ณด๊ธ๋ฅ ๊ณผ ๊ด๋ จ์ด ์์ ์ ์์
โช ์งํ์ ์ธ ๊ธฐ์ธ๊ธฐ๋ฅผ ๋๊ตฌ๋ณ์๋ก ํ์ฉ : ๋ฏธ๊ตญ์ ์ฌ์ ํ ์ธํฐ๋ท ์ธํ๋ผ๊ฐ ์ ๊ตญ์ ์ผ๋ก ํผ์ ธ์์ง ์๋ค. ๊ธฐ์ธ๊ธฐ๊ฐ ๋ ๊ฐํ๋ฅธ ์ธ๋์ด๋ ์ฌ๋ง ์ง์ญ์ ์ธํฐ๋ท ์ ์ ์ค์นํ๊ธฐ๊ฐ ๊น๋ค๋กญ๋ค. (relevance term ๋ง์กฑ). ๊ทธ๋ฌ๋ ํ์ค๋ฒ์ฃ๋ฅผ ์ ์ง๋ฅผ๋งํ ํน์ ํ ์ด์ ๋ ์๊ธฐ ๋๋ฌธ์ ๋๊ตฌ๋ณ์์ ์ ์ ํ๋ค.
• ์ฃผ์ โก : ๋ชจ๋ฐ์ผ ์ดํ ์ ์์ด ์จ๋ผ์ธ/์คํ๋ผ์ธ ์ ํ ๊ตฌ๋งค์ ๋ฏธ์น๋ ์ํฅ
โช ์ฌ๋ฌ ์์ธ์ด endogenous ํ๊ฒ ์ํฅ์ ๋ฏธ์นจ
โช ์๋น์๊ฐ ์ฌ๋ ์ง์ญ์์์ ๊ธฐ์ง๊ตญ ์ซ์๋ฅผ ๋๊ตฌ๋ณ์๋ก ํ์ฉ : ๊ธฐ์ง๊ตญ ์ซ์๊ฐ ๋ง์์๋ก ๋ชจ๋ฐ์ผ ํ๊ฒฝ์ด ๋ง๊ธฐ ๋๋ฌธ์ ๋ชจ๋ฐ์ผ ์ฑ ์ ์์ด ๋์์ง ๊ฒ์ด๋ค. ๊ทธ๋ฌ๋ ๊ธฐ์ง๊ตญ์ด ๋ง๋ค๊ณ ํด์, ๋ค๋ฅธ ๊ฒฝ๋ก๋ฅผ ํตํด ๊ตฌ๋งค๋ฅผ ํ ์ด์ ๋ ํน๋ณํ ์์ผ๋ฏ๋ก ์ข์ ๋๊ตฌ๋ณ์๋ก์ ์๋ํ๋ค.
โฏ ex3. Geographical proximity-based IVs
• ์ง๋ฆฌ์ ์ธ ์์ธ๋ค์ด exogenous ํ ๋ถ๋ถ์ด ๋ง์ ๋๊ตฌ๋ณ์๋ก ํ์ฉํ๊ธฐ ์ข๋ค. ์ง๋ฆฌ์ ์ธ ๊ทผ์ ์ฑ์ด ๋ํ์ ์ด๋ค.
• ์ฃผ์ โ : ์ ์ฌ์ ์์๊ด๋ฆฌ (ERP) ์ ๋์ ์ด ๋งค๋์ ์ ๊ด๋ฆฌ ๋ฒ์์ ๋ฏธ์น๋ ์ํฅ ๋ถ์
โช Span of control ์ ์ํฅ์ ๋ฏธ์น๋ ์์๋ ๋ค์ํ๊ธฐ ๋๋ฌธ์, ๋จ์ํ ERP ๋์ ๋ง์ด ๋ฏธ์น๋ ์ํฅ์ ํ์ ํ๊ธฐ๊ฐ ์ด๋ ต๋ค.
โช ํด๋น ๊ธฐ์ ์ด ๋ ์ผ์ ์๋ SAP ๋ณธ์ฌ์ ๊ฑฐ๋ฆฌ๊ฐ ์ผ๋ง๋ ๋๋์ง๋ฅผ ๋๊ตฌ๋ณ์๋ก ์ฌ์ฉํ๋ค. SAP ๋ณธ์ฌ๊ฐ ๊ฐ๊น์ธ์๋ก ์์ ์ ๋ ๋ง๊ณ ์ธ๋ ฅ๋ ๋ง๊ณ ๋คํธ์ํฌ๊ฐ ๋ง๋ค.
• ์ฃผ์ โก : ๊ฐ์ ๊ต๊ฐ ๊ฒฝ์ ์ฑ์ฅ์ ๋ฏธ์น๋ ์ํฅ
โช ์ข ๊ต๊ฐํ์ด ์์๋ ๊ณณ์ผ๋ก๋ถํฐ ๊ฑฐ๋ฆฌ๊ฐ ๊ฐ๊น์ธ์๋ก ๊ฐ์ ๊ต์ ํ์ฅ์ด ๋ ๋ง์ด ๋์๊ธฐ ๋๋ฌธ์ relevancy condition์ ๋ง์กฑํ๊ณ , ๊ทธ๋ฌ๋ ๊ณผ๊ฑฐ์ ์ข ๊ต๊ฐํ์ด ์์๋ ์์ ๋์๋ก๋ถํฐ์ ๊ฑฐ๋ฆฌ๊ฐ ๊ฐ์ ๊ต ๋ณ์๋ฅผ ํตํ์ง ์๊ณ ์ ์ง๊ธ์ ๊ฒฝ์ ์ฑ์ฅ์ ๋ฏธ์น๋ ๊ฒฝ์ฐ๋ ์๊ฐํ๊ธฐ ์ฝ์ง ์๊ธฐ ๋๋ฌธ์ ๋๊ตฌ๋ณ์๋ก ์ ํฉํ๋ค.
โฏ ex4. Macro/Cohort Trends as IVs
• ์์ ๋ ๋ฒจ์์์ trend ๋ ๊ฐ์ ์ฑ๊ฒฉ์ ์ง๋ ์ง๋จ (cohort) ์์์ trend๋ฅผ ๋๊ตฌ๋ณ์๋ก ํ์ฉ
โช ๊ตญ๊ฐ ์ ์ฒด์์์ employment trend ๋ฅผ ๋๊ตฌ๋ณ์๋ก ํ์ฉํด ํน์ ์ง์ญ์์์ ๋น๊ณ ์ฉ๋ฅ ์ ๊ณ์ฐํ๋ค.
โช ํฌ์ธํธ์นด๋ ๊ฐ์ loyalty program ์ adoption (์๋น์๊ฐ ์ผ๋ง๋ ์ ์ฌ์ฉํ๋์ง, ์ผ๋ง๋ ์ ๊ทน์ ์ผ๋ก ๋ฐ์๋ค์ด๋์ง)์ ์ค๋ช ํ๊ธฐ ์ํด ์ค์ ๋ก ์๋น์์ cohort (๊ฐ์ ๋์ด๋, ๊ฐ์ ์ง์ญ์ ์ฌ๋..)์์์ 5G adoption์ ๋๊ตฌ๋ณ์๋ก ์ฌ์ฉํ๋ค.
โฏ ex5. Peer's environments as IVs
• ์์ ๋คํธ์ํฌ์ ๊ฐ์ด ๋คํธ์ํฌ๋ฅผ ํ์ฑํ ์ ์๋ ์ํฉ์์๋, ๋๊ตฌ๋ณ์๋ฅผ ๊ตฌํ๋ ๊ฒ์ด ์๋์ ์ผ๋ก ์ฝ๋ค. ๋ฐ๋ก ๋คํธ์ํฌ ์์์ ๋์๊ฒ ๋งํฌ๋ ๋ ๋๋ฃ๊ฐ ์ฒํ ์ํฉ์ ํ์ฉํ๋ ๊ฒ์ด๋ค.
• ์ฃผ์ โ : SNS ์์์ ์น๊ตฌ๊ฐ ๋ฌ๋๊ณผ ๊ด๋ จ๋ ๋ด์ฉ์ ๊ณต์ ํ๋ค๋ฉด, ๋๋ ๋ฐ๋ผ์ ๋ฌ๋์ ํ ์ง
โช ๋คํธ์ํฌ ์์์๋ homophily (ํน์ฑ,์ทจํฅ์ ์ ์ฌ์ฑ)๊ฐ ์กด์ฌํ๊ธฐ ๋๋ฌธ์ ๋จ์ํ ๋ถ์ํ๋ ๊ฒ์ ์ฝ์ง ์๋ค. ๊ผญ ์น๊ตฌ๊ฐ ๋ฌ๋์ ํ๊ธฐ ๋๋ฌธ์ ๋ด๊ฐ ๋ฌ๋์ ํ๋ค๊ณ ๋ ๋ณด๊ธฐ ์ด๋ ต๋ค. ๊ธฐ์กด์ ๋ด๊ฐ ๋ฌ๋์ ๊ณ์ํด์ค๋ ์ฌ๋์ผ ์๋ ์๊ณ , ์ฑ๋ฆฐ์ง ํํ๋ก ๋ฌ๋์ ์์ํ์ ์๋ ์๊ธฐ ๋๋ฌธ์ด๋ค.
โช ๋ฐ๋ผ์ ๋๊ตฌ๋ณ์๋ก ์น๊ตฌ๊ฐ ์ฌ๋ ์ง์ญ์์์ ๋ ์จ๋ฅผ ํ์ฉํ๋ค. ๊ฐ๋ น ์น๊ตฌ๊ฐ ๋ถ์ฐ์ ์ฐ๋ค๊ณ ํ๋ฉด, ๋ถ์ฐ์ ๋ ์จ๊ฐ ์น๊ตฌ๊ฐ ๋ฌ๋ํ๋ ๋ฐ์๋ ์ํฅ์ ๋ฏธ์น๊ฒ ์ง๋ง ๋๋ ์์ธ์ ์ด๊ณ ์๋ค๊ณ ํ๋ฉด ์ํฅ์ ํฌ๊ฒ ๋ฏธ์น์ง ์๋๋ค.
• ์ฃผ์ โก : ์น๊ตฌ๊ฐ ์๋น๊ณ์ ์ ์ข์์๋ฅผ ๋๋ฅด๊ฑฐ๋ ํด์ ์ฒดํฌ์ธ์ ํ ๊ฒ์ด, ๋ด๊ฐ ๊ทธ ์๋น์ ๋ฐฉ๋ฌธํ๋ ๊ฒ์ ์ํฅ์ ๋ฏธ์น๋์ง
โช ์น๊ตฌ์ ์น๊ตฌ์ ์ฒดํฌ์ธ์ ๋๊ตฌ๋ณ์๋ก ํ์ฉํ๋ค.
๐ ๋๊ตฌ๋ณ์๋ ์์ ์ ํ ๋ง๊ณ ๋ ๋ค์ํ๋ค. ์ฌ๋ฌ ๊ฐ์ง์ ์ฌ๋ก๋ฅผ ๋ณด๋ฉด์ ๊ฐ์ ํค์ฐ๋ ๊ฒ์ด ์ค์ํจ!
'1๏ธโฃ AIโขDS > ๐ฅ Casual inference' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
์ธ๊ณผ์ถ๋ก ์ ๋ฐ์ดํฐ ๊ณผํ - ํ๊ท๋ถ์ฐ์ (0) | 2023.04.26 |
---|---|
์ธ๊ณผ์ถ๋ก ์ ๋ฐ์ดํฐ ๊ณผํ - ์ธ๊ณผ์ถ๋ก ๊ด์ ์์์ ๋๊ตฌ๋ณ์ (1) | 2023.04.25 |
์ธ๊ณผ์ถ๋ก ์ ๋ฐ์ดํฐ ๊ณผํ - ๊ฐ์์ ํต์ ์ง๋จ (0) | 2023.04.25 |
์ธ๊ณผ์ถ๋ก ์ ๋ฐ์ดํฐ ๊ณผํ - ์ด์ค์ฐจ๋ถ๋ฒ (0) | 2023.04.24 |
์ธ๊ณผ์ถ๋ก ์ ๋ฐ์ดํฐ ๊ณผํ - ์ค์คํ ๋ถ์ ๋ฐฉ๋ฒ๋ก (0) | 2023.04.24 |
๋๊ธ