์ฐธ๊ณ ์์ : Bootcamp 3-2. ์ค์คํ ๋ถ์ ๋ฐฉ๋ฒ๋ก
1. Counterfactual and methods
โฏ Counterfactual revisited
• ์ฐ๋ฆฌ์๊ฒ ํ์ํ๊ฑด, treatment group ์์ treat ๋ฅผ ๋ฐ์ง ์์๋๋ผ๋ฉด ์ด๋ค ๊ฒฐ๊ณผ๋ฅผ ๋ณด์๋์ง์ ๋ํ counterfactual โจ ํ์ค์์ ๊ด์ฐฐ ๋ถ๊ฐ๋ฅํ๊ธฐ ๋๋ฌธ์ ๊ฐ์ฅ ๋น์ทํ control group ์ ์ฐพ๋ ๊ฒ์ด ๊ด๊ฑด์ด๋ค.
• Causal experiment method: control group ์ ํ์ฉํด ์ด๋ป๊ฒ counterfactual ์ ์ ์ถํ ์ ์์์ง์ ๋ํ ๋ฐฉ๋ฒ โจ Research design and apply method
• ์ฐ๋ฆฌ๊ฐ ์ค์ ๋ฐ์ดํฐ๋ฅผ ํตํด ์ถ์ ํ๋ ๊ฒ์, treatment group ์ ๋ํ ATE ์ธ ATET ์ด๋ค. ์๋ฐํ ๋งํ๋ฉด, control group ์์ ๋ง์ฝ treatment ๊ฐ ์์์ผ๋ฉด ์ด๋ ํ์์ง ๋ํ๋ด๋ ATEU ๋ ๋ฐ์ดํฐ๋ฅผ ํตํด ์ถ์ ํ๊ณ ์ ํ๋ ๋์์ ์๋๊ณ , ์ญ๊ด๊ณ๊ฐ ์ฑ๋ฆฝํ๊ธฐ ์ํด treatment group ์ control group ์ด ๊ต์ฅํ ๋น์ทํด์, ์๋ก ์ญํ ์ ๋ฐ๊ฟ๋ ๊ฒฐ๊ณผ๊ฐ ๋์ผํ ๊ฒ์ด๋ผ๋ ๊ฐ์ ํ์์ ATEU ๊น์ง๋ ์ถ์ ํ๋ ๊ฒ์ด๋ค. ์ด๋ฅผ ์ข ํฉํด ์ ์ฒด ์ํ์์ ATE ๋ฅผ ๊ตฌํ๋ค.
• [์ ๋ฆฌ] Causal inference method ๋ ๋น๊ต ๊ฐ๋ฅํ control group ์ ํ์ฉํด counterfactual ์ approximation ํ๊ฒ ๋ค๋ ์ ๊ทผ์ด๊ณ , ์ฐ๋ฆฌ๊ฐ ์ค์ ๋ก ๊ทธ๋ฌํ method ๋ฅผ ํตํด์ ์ถ์ ํ ์ ์๋ ๊ฒ์ ATET ์ด๋ค. ATE ๋ฅผ ๊ตฌํ๊ณ ์ ํ๋ค๋ฉด, ์ญ๊ด๊ณ ์ฑ๋ฆฝ์ด๋ผ๋ ๊ฐ์ ์ด ์ถ๊ฐ๋์ด์ผ ํ๋ค.
2. Data structure from the perspective of Counterfactual
โฏ Data structure
• ๋น๊ต ๊ฐ๋ฅํ ๋์์ ํตํด counterfactual ์ approximate
• counterfactual ์ time-invariant outcome ๊ณผ time-varying outcome ์ผ๋ก ๋ถ๋ฅ๋ ์ ์๋ค.
• ์๊ฐ์ ๋ฐ๋ผ ๋ณํ์ง ์๋ counterfactual ์ treatment ๊ฐ ์ค์ ๋ก ์์์ ๋ ์์๋ ๊ณผ๊ฑฐ์ ๊ฐ์ ๊ฑฐ์ ๋์ผํ ๊ฒ์ด๋ค. ์๊ฐ์ ๋ฐ๋ผ ๋ณํ์ง ์๋ ์์ธ์, ๊ณผ๊ฑฐ ๋ฐ์ดํฐ๋ก ์ฝ๊ฒ ์ ์ถํ ์ ์๋ค.
• treatment ์ ํ์ ๋ฐ์ดํฐ๋ฅผ ๊ด์ฐฐํ ์ ์๋ longitudinal data ๊ฐ, treatment ๋ฅผ ๋ฐ์ ์ดํ์ ํน์ ์์ ์ ๋ฐ์ดํฐ๋ง ์๋ cross-sectional data ๋ณด๋ค ์ธ๊ณผ์ถ๋ก ๊ด์ ์์๋ ํจ์ฌ ๋ ์ ๋ฆฌํ๋ค.
• ์๊ฐ์ ๋ฐ๋ผ ๋ณํ๋ counterfactual ๋ง ์๊ฐํด๋ณด๋ฉด ๋๋ค.
• counterfactual ์ approximation ํ๋ค๋ ์ธก๋ฉด์์ treatment ์ ํ์ ๋ฐ์ดํฐ๊ฐ ๋ชจ๋ ์์ผ๋ฉด ํจ์ฌ ๋ ์ ๋ฆฌํ ์ธก๋ฉด์ด ์๋ค.
• treatment group ์์๋ง ์ ํ ๋ฐ์ดํฐ๊ฐ ์๋ ๊ฒฝ์ฐ๊ฐ ์๊ณ (time-series data) , control group ์ ์ ํ ๋ฐ์ดํฐ๊น์ง ์๋ ๊ฒฝ์ฐ (panel data) ๊ฐ ์๋ค. Panel data ํํ๊ฐ time-series ๋ณด๋ค ํจ์ฌ ์ ๋ฆฌํ๋ค๊ณ ๋ณผ ์ ์๋ค.
• [์์]
โช ํ ์ธ์ฟ ํฐ์ด ์ง๊ธ๋์๊ณ , ๋ด๊ฐ ์ด๋ฒ์ฃผ์ ์ฐ์ฐ์ ๊ตฌ๋งคํ๋ค. ์ด๋, ์ฟ ํฐ ์ง๊ธ์ด ์ ํ ๊ตฌ๋งค๋ก ์ด์ด์ก๋์ง์ ๋ํด ์ธ๊ณผ์ถ๋ก ์ ์งํํด๋ณด๊ณ ์ ํ๋ค. ์ง๋์ฃผ์๋ ๋ ์จ๊ฐ ํ์ฐฝํ๋ค๊ณ ๊ฐ์ ํด๋ณธ๋ค๋ฉด, ์ง๋์ฃผ์๋ ์ฐ์ฐ์ ๊ตฌ๋งคํ์ง ์์์ด๋ ๋์๊ธฐ ๋๋ฌธ์, ์ง๋์ฃผ์ ํ๋๋ง ๊ฐ์ง๊ณ ์ด๋ฒ์ฃผ์ ํ๋์ ์์ธกํ๋ค๋ฉด counterfactual ๋ก "์ฟ ํฐ์ด ์์๋ค๋ฉด ์ด๋ฒ์ฃผ์ ์ฐ์ฐ์ ๊ตฌ๋งคํ์ง ์์์ ๊ฒ์ด๋ค" ๋ผ๊ณ ์์ธกํ ๊ฐ๋ฅ์ฑ์ด ๋๋ค. ๊ทธ๋ฌ๋, ์ค์ ๋ก๋ ์ฐ์ฐ์ ๊ตฌ๋งคํ๊ธฐ ๋๋ฌธ์ ์ด๋ฐ ๊ฒฝ์ฐ์๋ ์ฟ ํฐ์ ์ธ๊ณผ์ ์ธ ํจ๊ณผ๊ฐ ํฌ๊ฒ ๋ํ๋ฌ์ ๊ฒ์ด๋ค.
โช ๋ฐ๋ฉด, ์ด๋ฒ์ฃผ์ ๋น๊ฐ ์ค๊ธฐ ๋๋ฌธ์ ์ฟ ํฐ์ ๋ฐ์ง ์์์ง๋ง ์ฐ์ฐ์ ๊ตฌ๋งคํ ๋ค๋ฅธ ์น๊ตฌ๋ค control group ์ ๊ณ ๋ คํด์ counterfactual ์ ์์ํด๋ณธ๋ค๋ฉด, ์ฟ ํฐ์ด ์์๋๋ผ๋ ์ฐ์ฐ์ ๊ตฌ๋งคํ์ ๊ฐ๋ฅ์ฑ์ด ํฌ๋๊น, ์ฟ ํฐ์ ํจ๊ณผ๋ผ๊ณ ๋ณผ ์ ์์ ๊ฒ์ด๋ค.
• [์ ๋ฆฌ]
1. treatment ์ ํ๋ก ๋ฐ์ดํฐ๊ฐ ๋ชจ๋ ์๋ ๊ฒ์ด ์ข๋ค.
2. control group ์์๋ ์ ํ ๋ฐ์ดํฐ๊ฐ ๋ชจ๋ ์๋ ๊ฒ์ด ์ธ๊ณผ์ถ๋ก ๊ด์ ์์ ๋งค์ฐ ์ ๋ฆฌํ๋ค.
3. What's your research design and data structure
1. ๋ด๊ฐ ๊ฐ์ง๊ณ ์๋ ๋ฐ์ดํฐ์ ํน์ฑ์ด ๋ฌด์์ธ์ง
2. ๋ฐ์ดํฐ๋ฅผ ๊ฐ์ง๊ณ ์ด๋ป๊ฒ ๋ถ์ํ ์ง
โฏ Research Design ์ ํ ๋จ๊ณ
[๋จ๊ณ ์ค๋ช ]
• โ . ์ธ๊ณผ์ถ๋ก ์ ๋ชฉ์ ์ผ๋ก ํ๋๊ฒ ๋ง๋์ง, ๋ฌด์์ ๋ฐฐ์ ์ด ๊ฐ๋ฅํ์ง ์ฒดํฌ
• โก.
(a) โ ๋ฒ์ด ๋ง์กฑ๋๋ค๋ฉด RCT ๊ฐ ๊ฐ๋ฅํ๋ค๋ฉด, RCT ๋ฅผ ํ์ฉ
(b) RCT ๊ฐ ๋ถ๊ฐ๋ฅํ๋ฉด treatment group ์ control group ์ด ์ด๋ป๊ฒ ์ ํ๋๋์ง์ ๋ํ ๋ฉ์ปค๋์ฆ ์๊ฐํ๊ธฐ : Quasi-experiment design ๊ณผ ๊ฐ์ research design ๊ณ ๋ คํ๊ธฐ
• โข.
(a) research design ์ ์ฐพ์ ์ ์๋ค๊ณ ํ๋ค๋ฉด treatment group ์ control group ์ ์ฐพ๊ธฐ
โจ a-1. control์ ๊ด์ฐฐ ๋ถ๊ฐ๋ฅ : longitudinal data (treatment ์ ํ๋ก ๊ด์ธก ๊ฐ๋ฅํ์ง ๋ณด๊ธฐ) : interrupted time series analysis
โจ a-2. control์ ๊ด์ฐฐ ๊ฐ๋ฅ : treatment ์ control ์์ ์๊ฐ์ ๋ฐ๋ฅธ ๋ณํ๊ฐ ์ผ๋ง๋ ๋น๊ต ๊ฐ๋ฅํ์ง์ ๋ํ ๊ฐ์ (parallel trend assumption) ์ด ๋ง์กฑํ๋์ง ๋ฐ์ ธ๋ณด๊ธฐ → ๋ง์กฑํ๋ค๋ฉด DID , ๋ง์กฑํ์ง ์๋๋ค๋ฉด Matching ์์ ํ์ DID ๋ฅผ ์ ์ฉํ๊ฑฐ๋, Synthetic control ์ด๋ผ๋ ๋ฐฉ๋ฒ์ ํ์ฉํด๋ณผ ์ ์๋ค.
(b) control ์ ๊ด์ฐฐ ๊ฐ๋ฅํ๋ฐ, treatment ์ ํ์ ๋ฐ์ดํฐ๊ฐ ์๋ ๊ฒฝ์ฐ : treatment ๊ฐ ์์์ threshold ์ ์ํด ๋๋ ๊ฒ์ธ์ง ๋ฐ๋ ค๋ณด๊ณ , ๋ง์ฝ ๊ทธ๋ ๋ค๋ฉด regression discontinuity ๋ผ๋ ๋ฐฉ๋ฒ์ ํ์ฉํ ์ ์๊ณ , ๊ทธ๊ฒ์ด ์๋๋ผ๋ฉด, treatment ๋ฅผ ๋ฐ์ ์ ์๋ ์ธ๋ถ ์์ธ์ด ์๋์ง ์ฐพ์๋ณด์์ผ ํ๋ค (โฃ).
• โฃ. ๋๊ตฌ๋ณ์
(a) ๋๊ตฌ๋ณ์๊ฐ ์๋ค๋ฉด : local average treatment effect ๋ถ์์ ํ ์ ์๊ณ , control function ์ด๋ selection model ์ ํ์ฉํด๋ณผ ์ ์๋ค.
(b) ๋๊ตฌ๋ณ์๋ ๊ณ ๋ คํด๋ณผ ์ ์๋ค๋ฉด : Matching/weighting ์ด๋ regression ์ ๋ต์ ๊ณ ๋ คํด๋ณผ ์ ์๋ค.
4. Overview of methods
• ๋ชฉ์ : control group ์ ํ์ฉํด์ treatment group ์์์ counterfactual ๊ตฌํ๊ธฐ
โฏ DID
• ์กฐ๊ฑด : treatment ์ control group ์ด ์ด๋ป๊ฒ ๋๋๋์ง ์์์ผ ํ๊ณ , treatment group ๊ณผ control group ๋ชจ๋ treatment ์ ํ์ ๋ฐ์ดํฐ๊ฐ ์กด์ฌํด์ผ ํ๊ณ , treatment ๊ฐ ์๋ ์ํฉ์์ treatment group ์์์ ์๊ฐ์ ๋ฐ๋ฅธ ๋ณํ์ control group ์์ ์๊ฐ์ ๋ฐ๋ฅธ ๋ณํ๊ฐ ํํํ๋ parallel trend assumption ์ด ์ฑ๋ฆฝํด์ผ ํ๋ค.
• ์๊ฐ์ ๋ฐ๋ผ ๋ณํ์ง ์๋ ๋ณ์, ์ฑ๋ณ, ์ง์ญ, ์ทจํฅ ๋ฑ์ ์์ธ๋ง ๊ณ ๋ คํ ์ ์์ด๋ ์๋นํ ๋ง์ ๋ถ๋ถ์ ์ปค๋ฒํ ์ ์๋ค. ๋ฐ๋ผ์ ๊ณผ๊ฑฐ ๋ฐ์ดํฐ๊ฐ ์ค์ํ๋ค.
• treatment ๊ฐ ์๋ ์ํฉ์์ ์๊ฐ์ ๋ฐ๋ผ ๋ณํ์ counterfactual ๋ง ๋จ์ → control group ์์์ ์๊ฐ์ ๋ฐ๋ผ ๋ณํ๋ ์ ๋๋ฅผ ๊ฐ์ง๊ณ ์ถ์ ํ๋ค. ๊ฐ๋ น ์์ ์์์ฒ๋ผ, control group ์์ potential outcome ์ด "ํ๊ท "์ ์ผ๋ก 0.5 ์ฆ๊ฐํ๊ธฐ ๋๋ฌธ์ counterfactual ์ ์ถ์ ํ ๋์๋ 0.5์ฉ ์ฆ๊ฐ์ํจ๋ค.
• DID ๋ฅผ ์ ์ฉํ๋๋ฐ ์์ด์ parallel trend assumption ์์ treatment group ๊ณผ control group ์ด ๋ค ๋น์ทํ ํ์๋ ์๊ณ , ์๊ฐ์ ๋ฐ๋ผ ๋ณํ๋ ์ ๋๋ง ๋น๊ต ๊ฐ๋ฅํ๋ฉด ๋๊ธฐ ๋๋ฌธ์ ๊ธฐ์กด ๋ถ์๋ณด๋ค ๋ค์ ๋์จํ ๊ฐ์ ์ ํด๋นํ๋ค. ๋ง์ฝ ์ด๋ฌํ ๊ฐ์ ์ด ์์ ๋ง์กฑ๋์ง ์๋๋ค๋ฉด matching ๋ฑ์ ๋ฐฉ๋ฒ์ ์ฌ์ฉํ๋ฉด ๋๋ค.
• DID ๋ฅผ ํตํด ๊ตฌํ ์ ์๋ ๊ฒ์ ATET ์ด๋ค. ATET ๋ฅผ ๊ตฌํ๊ธฐ ์ํด์๋ ์๊ฐ์ ๋ฐ๋ผ ๋ณํ๋ ์ถ์ธ๋ง ๋น์ทํ๋ฉด ๋๋ค. ๊ทธ๋ฌ๋ ์ด๋ฅผ ATE ๋ก ํ์ฅ์ํค๋ ค๋ฉด ์ข ๋ ๊ฐํ ๊ฐ์ ์ด ํ์ํ๋ค. ATE ๋ก ํ์ฅํ๋ ค๋ฉด treatment ์ control ์ด ๋ชจ๋ ๋ฉด์์ ๋น์ทํด์ ์ญ์ผ๋ก ๋์์ ๋ฐ๊ฟ๋ (control ์์ treat ๋ฅผ ๋ฐ์๋ค๊ณ ํ์๋) ์ฑ๋ฆฝํ๋ ์ํฉ์ด ์ฑ๋ฆฝ๋์ด์ผ ํ๋ค. ATET์ ATE ๋ฅผ ๊ตฌ๋ถํ๋ ๊ฒ๋ ์ค์ํ๋ค. ์ฐ๊ตฌ ๋ชฉ์ ์ ๋ฐ๋ผ ATET ๋ง ๋ด๋ ์ถฉ๋ถํ ์ ์๋ค.
โฏ Synthetic control
• ๊ธฐ๋ณธ ์์ด๋์ด : control group ์ combination ์ ํตํด treatment group ์ counterfactual ์ ์์ํ๊ธฐ
• DID ์ ๋ชฉ์ ์ ๋์ผํ๋ค.
• parallel trend ๊ฐ์ ์ด ๋ง์กฑ๋์ง ์์๋, control unit ์ ์ ์กฐํฉํด์ treatment unit ์ ์ ์์ธกํด๋ผ ์ ์๋ค.
โฏ Synthetic control vs DID
• ๊ฐ๊ฐ์ Firm 2~5 ๋ treatment ์ ๋น๊ต ๊ฐ๋ฅํ ๊ฒ์ด ํ๋๋ ์๋ค. (DID ๋ง์กฑX)
• ๋ฐ๋ฉด, Firm 2์ Firm3 ๋ฅผ ์ ์ ํ ์กฐํฉํ๋ฉด, ๋น๊ต ๊ฐ๋ฅํ ๊ฐ์์ ํต์ ์ง๋จ์ ๋ง๋ค ์ ์๋ค.
โฏ Interrupted Time series analysis
• ์กฐ๊ฑด : control group ๋ฐ์ดํฐ๊ฐ ์๊ณ , treatment group ์ ์ ํ ๋ฐ์ดํฐ๋ง ์๋ ๊ฒฝ์ฐ
• treatment group ์์์ ๊ณผ๊ฑฐ ๋ฐ์ดํฐ๋ง์ ๊ฐ์ง๊ณ ๋ฏธ๋๋ฅผ ์์ธก : time-series forecasting
• ex. ์๊ฐ์ ํ๋ฆ์ ๋ฐ๋ผ 1์ฉ ์ฆ๊ฐํ๋ ๊ฒฝํฅ์ ๋ณด์ด๋ฏ๋ก, ๋ค์ outcome ๋ +1์ ๊ฒฐ๊ณผ๋ฅผ ๊ฐ์ง ๊ฒ์ด๋ค.
'1๏ธโฃ AIโขDS > ๐ฅ Casual inference' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
์ธ๊ณผ์ถ๋ก ์ ๋ฐ์ดํฐ ๊ณผํ - ๊ฐ์์ ํต์ ์ง๋จ (0) | 2023.04.25 |
---|---|
์ธ๊ณผ์ถ๋ก ์ ๋ฐ์ดํฐ ๊ณผํ - ์ด์ค์ฐจ๋ถ๋ฒ (0) | 2023.04.24 |
์ธ๊ณผ์ถ๋ก ์ ๋ฐ์ดํฐ ๊ณผํ - ๋์์ธ ๊ธฐ๋ฐ์ ์ธ๊ณผ์ถ๋ก (0) | 2023.04.24 |
์ธ๊ณผ์ถ๋ก ์ ๋ฐ์ดํฐ ๊ณผํ - ๋งค์นญ๊ณผ ์ญํ๋ฅ ๊ฐ์ค์น (1) | 2023.04.21 |
์ธ๊ณผ์ถ๋ก ์ ๋ฐ์ดํฐ ๊ณผํ - ์ธ๊ณผ์ถ๋ก ๊ด์ ์์์ ํ๊ท๋ถ์ (0) | 2023.04.21 |
๋๊ธ