์ฐธ๊ณ ์์ : Bootcamp 3-2. ์ค์คํ ๋ถ์ ๋ฐฉ๋ฒ๋ก
1. Counterfactual and methods
โฏ Counterfactual revisited

โข ์ฐ๋ฆฌ์๊ฒ ํ์ํ๊ฑด, treatment group ์์ treat ๋ฅผ ๋ฐ์ง ์์๋๋ผ๋ฉด ์ด๋ค ๊ฒฐ๊ณผ๋ฅผ ๋ณด์๋์ง์ ๋ํ counterfactual โจ ํ์ค์์ ๊ด์ฐฐ ๋ถ๊ฐ๋ฅํ๊ธฐ ๋๋ฌธ์ ๊ฐ์ฅ ๋น์ทํ control group ์ ์ฐพ๋ ๊ฒ์ด ๊ด๊ฑด์ด๋ค.
โข Causal experiment method: control group ์ ํ์ฉํด ์ด๋ป๊ฒ counterfactual ์ ์ ์ถํ ์ ์์์ง์ ๋ํ ๋ฐฉ๋ฒ โจ Research design and apply method
โข ์ฐ๋ฆฌ๊ฐ ์ค์ ๋ฐ์ดํฐ๋ฅผ ํตํด ์ถ์ ํ๋ ๊ฒ์, treatment group ์ ๋ํ ATE ์ธ ATET ์ด๋ค. ์๋ฐํ ๋งํ๋ฉด, control group ์์ ๋ง์ฝ treatment ๊ฐ ์์์ผ๋ฉด ์ด๋ ํ์์ง ๋ํ๋ด๋ ATEU ๋ ๋ฐ์ดํฐ๋ฅผ ํตํด ์ถ์ ํ๊ณ ์ ํ๋ ๋์์ ์๋๊ณ , ์ญ๊ด๊ณ๊ฐ ์ฑ๋ฆฝํ๊ธฐ ์ํด treatment group ์ control group ์ด ๊ต์ฅํ ๋น์ทํด์, ์๋ก ์ญํ ์ ๋ฐ๊ฟ๋ ๊ฒฐ๊ณผ๊ฐ ๋์ผํ ๊ฒ์ด๋ผ๋ ๊ฐ์ ํ์์ ATEU ๊น์ง๋ ์ถ์ ํ๋ ๊ฒ์ด๋ค. ์ด๋ฅผ ์ข ํฉํด ์ ์ฒด ์ํ์์ ATE ๋ฅผ ๊ตฌํ๋ค.
โข [์ ๋ฆฌ] Causal inference method ๋ ๋น๊ต ๊ฐ๋ฅํ control group ์ ํ์ฉํด counterfactual ์ approximation ํ๊ฒ ๋ค๋ ์ ๊ทผ์ด๊ณ , ์ฐ๋ฆฌ๊ฐ ์ค์ ๋ก ๊ทธ๋ฌํ method ๋ฅผ ํตํด์ ์ถ์ ํ ์ ์๋ ๊ฒ์ ATET ์ด๋ค. ATE ๋ฅผ ๊ตฌํ๊ณ ์ ํ๋ค๋ฉด, ์ญ๊ด๊ณ ์ฑ๋ฆฝ์ด๋ผ๋ ๊ฐ์ ์ด ์ถ๊ฐ๋์ด์ผ ํ๋ค.
2. Data structure from the perspective of Counterfactual
โฏ Data structure

โข ๋น๊ต ๊ฐ๋ฅํ ๋์์ ํตํด counterfactual ์ approximate
โข counterfactual ์ time-invariant outcome ๊ณผ time-varying outcome ์ผ๋ก ๋ถ๋ฅ๋ ์ ์๋ค.
โข ์๊ฐ์ ๋ฐ๋ผ ๋ณํ์ง ์๋ counterfactual ์ treatment ๊ฐ ์ค์ ๋ก ์์์ ๋ ์์๋ ๊ณผ๊ฑฐ์ ๊ฐ์ ๊ฑฐ์ ๋์ผํ ๊ฒ์ด๋ค. ์๊ฐ์ ๋ฐ๋ผ ๋ณํ์ง ์๋ ์์ธ์, ๊ณผ๊ฑฐ ๋ฐ์ดํฐ๋ก ์ฝ๊ฒ ์ ์ถํ ์ ์๋ค.

โข treatment ์ ํ์ ๋ฐ์ดํฐ๋ฅผ ๊ด์ฐฐํ ์ ์๋ longitudinal data ๊ฐ, treatment ๋ฅผ ๋ฐ์ ์ดํ์ ํน์ ์์ ์ ๋ฐ์ดํฐ๋ง ์๋ cross-sectional data ๋ณด๋ค ์ธ๊ณผ์ถ๋ก ๊ด์ ์์๋ ํจ์ฌ ๋ ์ ๋ฆฌํ๋ค.
โข ์๊ฐ์ ๋ฐ๋ผ ๋ณํ๋ counterfactual ๋ง ์๊ฐํด๋ณด๋ฉด ๋๋ค.
โข counterfactual ์ approximation ํ๋ค๋ ์ธก๋ฉด์์ treatment ์ ํ์ ๋ฐ์ดํฐ๊ฐ ๋ชจ๋ ์์ผ๋ฉด ํจ์ฌ ๋ ์ ๋ฆฌํ ์ธก๋ฉด์ด ์๋ค.

โข treatment group ์์๋ง ์ ํ ๋ฐ์ดํฐ๊ฐ ์๋ ๊ฒฝ์ฐ๊ฐ ์๊ณ (time-series data) , control group ์ ์ ํ ๋ฐ์ดํฐ๊น์ง ์๋ ๊ฒฝ์ฐ (panel data) ๊ฐ ์๋ค. Panel data ํํ๊ฐ time-series ๋ณด๋ค ํจ์ฌ ์ ๋ฆฌํ๋ค๊ณ ๋ณผ ์ ์๋ค.
โข [์์]
โช ํ ์ธ์ฟ ํฐ์ด ์ง๊ธ๋์๊ณ , ๋ด๊ฐ ์ด๋ฒ์ฃผ์ ์ฐ์ฐ์ ๊ตฌ๋งคํ๋ค. ์ด๋, ์ฟ ํฐ ์ง๊ธ์ด ์ ํ ๊ตฌ๋งค๋ก ์ด์ด์ก๋์ง์ ๋ํด ์ธ๊ณผ์ถ๋ก ์ ์งํํด๋ณด๊ณ ์ ํ๋ค. ์ง๋์ฃผ์๋ ๋ ์จ๊ฐ ํ์ฐฝํ๋ค๊ณ ๊ฐ์ ํด๋ณธ๋ค๋ฉด, ์ง๋์ฃผ์๋ ์ฐ์ฐ์ ๊ตฌ๋งคํ์ง ์์์ด๋ ๋์๊ธฐ ๋๋ฌธ์, ์ง๋์ฃผ์ ํ๋๋ง ๊ฐ์ง๊ณ ์ด๋ฒ์ฃผ์ ํ๋์ ์์ธกํ๋ค๋ฉด counterfactual ๋ก "์ฟ ํฐ์ด ์์๋ค๋ฉด ์ด๋ฒ์ฃผ์ ์ฐ์ฐ์ ๊ตฌ๋งคํ์ง ์์์ ๊ฒ์ด๋ค" ๋ผ๊ณ ์์ธกํ ๊ฐ๋ฅ์ฑ์ด ๋๋ค. ๊ทธ๋ฌ๋, ์ค์ ๋ก๋ ์ฐ์ฐ์ ๊ตฌ๋งคํ๊ธฐ ๋๋ฌธ์ ์ด๋ฐ ๊ฒฝ์ฐ์๋ ์ฟ ํฐ์ ์ธ๊ณผ์ ์ธ ํจ๊ณผ๊ฐ ํฌ๊ฒ ๋ํ๋ฌ์ ๊ฒ์ด๋ค.
โช ๋ฐ๋ฉด, ์ด๋ฒ์ฃผ์ ๋น๊ฐ ์ค๊ธฐ ๋๋ฌธ์ ์ฟ ํฐ์ ๋ฐ์ง ์์์ง๋ง ์ฐ์ฐ์ ๊ตฌ๋งคํ ๋ค๋ฅธ ์น๊ตฌ๋ค control group ์ ๊ณ ๋ คํด์ counterfactual ์ ์์ํด๋ณธ๋ค๋ฉด, ์ฟ ํฐ์ด ์์๋๋ผ๋ ์ฐ์ฐ์ ๊ตฌ๋งคํ์ ๊ฐ๋ฅ์ฑ์ด ํฌ๋๊น, ์ฟ ํฐ์ ํจ๊ณผ๋ผ๊ณ ๋ณผ ์ ์์ ๊ฒ์ด๋ค.
โข [์ ๋ฆฌ]
1. treatment ์ ํ๋ก ๋ฐ์ดํฐ๊ฐ ๋ชจ๋ ์๋ ๊ฒ์ด ์ข๋ค.
2. control group ์์๋ ์ ํ ๋ฐ์ดํฐ๊ฐ ๋ชจ๋ ์๋ ๊ฒ์ด ์ธ๊ณผ์ถ๋ก ๊ด์ ์์ ๋งค์ฐ ์ ๋ฆฌํ๋ค.
3. What's your research design and data structure
1. ๋ด๊ฐ ๊ฐ์ง๊ณ ์๋ ๋ฐ์ดํฐ์ ํน์ฑ์ด ๋ฌด์์ธ์ง
2. ๋ฐ์ดํฐ๋ฅผ ๊ฐ์ง๊ณ ์ด๋ป๊ฒ ๋ถ์ํ ์ง
โฏ Research Design ์ ํ ๋จ๊ณ

[๋จ๊ณ ์ค๋ช ]
โข โ . ์ธ๊ณผ์ถ๋ก ์ ๋ชฉ์ ์ผ๋ก ํ๋๊ฒ ๋ง๋์ง, ๋ฌด์์ ๋ฐฐ์ ์ด ๊ฐ๋ฅํ์ง ์ฒดํฌ
โข โก.
(a) โ ๋ฒ์ด ๋ง์กฑ๋๋ค๋ฉด RCT ๊ฐ ๊ฐ๋ฅํ๋ค๋ฉด, RCT ๋ฅผ ํ์ฉ
(b) RCT ๊ฐ ๋ถ๊ฐ๋ฅํ๋ฉด treatment group ์ control group ์ด ์ด๋ป๊ฒ ์ ํ๋๋์ง์ ๋ํ ๋ฉ์ปค๋์ฆ ์๊ฐํ๊ธฐ : Quasi-experiment design ๊ณผ ๊ฐ์ research design ๊ณ ๋ คํ๊ธฐ
โข โข.
(a) research design ์ ์ฐพ์ ์ ์๋ค๊ณ ํ๋ค๋ฉด treatment group ์ control group ์ ์ฐพ๊ธฐ
โจ a-1. control์ ๊ด์ฐฐ ๋ถ๊ฐ๋ฅ : longitudinal data (treatment ์ ํ๋ก ๊ด์ธก ๊ฐ๋ฅํ์ง ๋ณด๊ธฐ) : interrupted time series analysis
โจ a-2. control์ ๊ด์ฐฐ ๊ฐ๋ฅ : treatment ์ control ์์ ์๊ฐ์ ๋ฐ๋ฅธ ๋ณํ๊ฐ ์ผ๋ง๋ ๋น๊ต ๊ฐ๋ฅํ์ง์ ๋ํ ๊ฐ์ (parallel trend assumption) ์ด ๋ง์กฑํ๋์ง ๋ฐ์ ธ๋ณด๊ธฐ โ ๋ง์กฑํ๋ค๋ฉด DID , ๋ง์กฑํ์ง ์๋๋ค๋ฉด Matching ์์ ํ์ DID ๋ฅผ ์ ์ฉํ๊ฑฐ๋, Synthetic control ์ด๋ผ๋ ๋ฐฉ๋ฒ์ ํ์ฉํด๋ณผ ์ ์๋ค.
(b) control ์ ๊ด์ฐฐ ๊ฐ๋ฅํ๋ฐ, treatment ์ ํ์ ๋ฐ์ดํฐ๊ฐ ์๋ ๊ฒฝ์ฐ : treatment ๊ฐ ์์์ threshold ์ ์ํด ๋๋ ๊ฒ์ธ์ง ๋ฐ๋ ค๋ณด๊ณ , ๋ง์ฝ ๊ทธ๋ ๋ค๋ฉด regression discontinuity ๋ผ๋ ๋ฐฉ๋ฒ์ ํ์ฉํ ์ ์๊ณ , ๊ทธ๊ฒ์ด ์๋๋ผ๋ฉด, treatment ๋ฅผ ๋ฐ์ ์ ์๋ ์ธ๋ถ ์์ธ์ด ์๋์ง ์ฐพ์๋ณด์์ผ ํ๋ค (โฃ).
โข โฃ. ๋๊ตฌ๋ณ์
(a) ๋๊ตฌ๋ณ์๊ฐ ์๋ค๋ฉด : local average treatment effect ๋ถ์์ ํ ์ ์๊ณ , control function ์ด๋ selection model ์ ํ์ฉํด๋ณผ ์ ์๋ค.
(b) ๋๊ตฌ๋ณ์๋ ๊ณ ๋ คํด๋ณผ ์ ์๋ค๋ฉด : Matching/weighting ์ด๋ regression ์ ๋ต์ ๊ณ ๋ คํด๋ณผ ์ ์๋ค.
4. Overview of methods
โข ๋ชฉ์ : control group ์ ํ์ฉํด์ treatment group ์์์ counterfactual ๊ตฌํ๊ธฐ
โฏ DID
โข ์กฐ๊ฑด : treatment ์ control group ์ด ์ด๋ป๊ฒ ๋๋๋์ง ์์์ผ ํ๊ณ , treatment group ๊ณผ control group ๋ชจ๋ treatment ์ ํ์ ๋ฐ์ดํฐ๊ฐ ์กด์ฌํด์ผ ํ๊ณ , treatment ๊ฐ ์๋ ์ํฉ์์ treatment group ์์์ ์๊ฐ์ ๋ฐ๋ฅธ ๋ณํ์ control group ์์ ์๊ฐ์ ๋ฐ๋ฅธ ๋ณํ๊ฐ ํํํ๋ parallel trend assumption ์ด ์ฑ๋ฆฝํด์ผ ํ๋ค.
โข ์๊ฐ์ ๋ฐ๋ผ ๋ณํ์ง ์๋ ๋ณ์, ์ฑ๋ณ, ์ง์ญ, ์ทจํฅ ๋ฑ์ ์์ธ๋ง ๊ณ ๋ คํ ์ ์์ด๋ ์๋นํ ๋ง์ ๋ถ๋ถ์ ์ปค๋ฒํ ์ ์๋ค. ๋ฐ๋ผ์ ๊ณผ๊ฑฐ ๋ฐ์ดํฐ๊ฐ ์ค์ํ๋ค.

โข treatment ๊ฐ ์๋ ์ํฉ์์ ์๊ฐ์ ๋ฐ๋ผ ๋ณํ์ counterfactual ๋ง ๋จ์ โ control group ์์์ ์๊ฐ์ ๋ฐ๋ผ ๋ณํ๋ ์ ๋๋ฅผ ๊ฐ์ง๊ณ ์ถ์ ํ๋ค. ๊ฐ๋ น ์์ ์์์ฒ๋ผ, control group ์์ potential outcome ์ด "ํ๊ท "์ ์ผ๋ก 0.5 ์ฆ๊ฐํ๊ธฐ ๋๋ฌธ์ counterfactual ์ ์ถ์ ํ ๋์๋ 0.5์ฉ ์ฆ๊ฐ์ํจ๋ค.
โข DID ๋ฅผ ์ ์ฉํ๋๋ฐ ์์ด์ parallel trend assumption ์์ treatment group ๊ณผ control group ์ด ๋ค ๋น์ทํ ํ์๋ ์๊ณ , ์๊ฐ์ ๋ฐ๋ผ ๋ณํ๋ ์ ๋๋ง ๋น๊ต ๊ฐ๋ฅํ๋ฉด ๋๊ธฐ ๋๋ฌธ์ ๊ธฐ์กด ๋ถ์๋ณด๋ค ๋ค์ ๋์จํ ๊ฐ์ ์ ํด๋นํ๋ค. ๋ง์ฝ ์ด๋ฌํ ๊ฐ์ ์ด ์์ ๋ง์กฑ๋์ง ์๋๋ค๋ฉด matching ๋ฑ์ ๋ฐฉ๋ฒ์ ์ฌ์ฉํ๋ฉด ๋๋ค.
โข DID ๋ฅผ ํตํด ๊ตฌํ ์ ์๋ ๊ฒ์ ATET ์ด๋ค. ATET ๋ฅผ ๊ตฌํ๊ธฐ ์ํด์๋ ์๊ฐ์ ๋ฐ๋ผ ๋ณํ๋ ์ถ์ธ๋ง ๋น์ทํ๋ฉด ๋๋ค. ๊ทธ๋ฌ๋ ์ด๋ฅผ ATE ๋ก ํ์ฅ์ํค๋ ค๋ฉด ์ข ๋ ๊ฐํ ๊ฐ์ ์ด ํ์ํ๋ค. ATE ๋ก ํ์ฅํ๋ ค๋ฉด treatment ์ control ์ด ๋ชจ๋ ๋ฉด์์ ๋น์ทํด์ ์ญ์ผ๋ก ๋์์ ๋ฐ๊ฟ๋ (control ์์ treat ๋ฅผ ๋ฐ์๋ค๊ณ ํ์๋) ์ฑ๋ฆฝํ๋ ์ํฉ์ด ์ฑ๋ฆฝ๋์ด์ผ ํ๋ค. ATET์ ATE ๋ฅผ ๊ตฌ๋ถํ๋ ๊ฒ๋ ์ค์ํ๋ค. ์ฐ๊ตฌ ๋ชฉ์ ์ ๋ฐ๋ผ ATET ๋ง ๋ด๋ ์ถฉ๋ถํ ์ ์๋ค.
โฏ Synthetic control
โข ๊ธฐ๋ณธ ์์ด๋์ด : control group ์ combination ์ ํตํด treatment group ์ counterfactual ์ ์์ํ๊ธฐ

โข DID ์ ๋ชฉ์ ์ ๋์ผํ๋ค.
โข parallel trend ๊ฐ์ ์ด ๋ง์กฑ๋์ง ์์๋, control unit ์ ์ ์กฐํฉํด์ treatment unit ์ ์ ์์ธกํด๋ผ ์ ์๋ค.
โฏ Synthetic control vs DID

โข ๊ฐ๊ฐ์ Firm 2~5 ๋ treatment ์ ๋น๊ต ๊ฐ๋ฅํ ๊ฒ์ด ํ๋๋ ์๋ค. (DID ๋ง์กฑX)

โข ๋ฐ๋ฉด, Firm 2์ Firm3 ๋ฅผ ์ ์ ํ ์กฐํฉํ๋ฉด, ๋น๊ต ๊ฐ๋ฅํ ๊ฐ์์ ํต์ ์ง๋จ์ ๋ง๋ค ์ ์๋ค.
โฏ Interrupted Time series analysis
โข ์กฐ๊ฑด : control group ๋ฐ์ดํฐ๊ฐ ์๊ณ , treatment group ์ ์ ํ ๋ฐ์ดํฐ๋ง ์๋ ๊ฒฝ์ฐ
โข treatment group ์์์ ๊ณผ๊ฑฐ ๋ฐ์ดํฐ๋ง์ ๊ฐ์ง๊ณ ๋ฏธ๋๋ฅผ ์์ธก : time-series forecasting

โข ex. ์๊ฐ์ ํ๋ฆ์ ๋ฐ๋ผ 1์ฉ ์ฆ๊ฐํ๋ ๊ฒฝํฅ์ ๋ณด์ด๋ฏ๋ก, ๋ค์ outcome ๋ +1์ ๊ฒฐ๊ณผ๋ฅผ ๊ฐ์ง ๊ฒ์ด๋ค.
'1๏ธโฃ AIโขDS > ๐ฅ Casual inference' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
์ธ๊ณผ์ถ๋ก ์ ๋ฐ์ดํฐ ๊ณผํ - ๊ฐ์์ ํต์ ์ง๋จ (0) | 2023.04.25 |
---|---|
์ธ๊ณผ์ถ๋ก ์ ๋ฐ์ดํฐ ๊ณผํ - ์ด์ค์ฐจ๋ถ๋ฒ (0) | 2023.04.24 |
์ธ๊ณผ์ถ๋ก ์ ๋ฐ์ดํฐ ๊ณผํ - ๋์์ธ ๊ธฐ๋ฐ์ ์ธ๊ณผ์ถ๋ก (0) | 2023.04.24 |
์ธ๊ณผ์ถ๋ก ์ ๋ฐ์ดํฐ ๊ณผํ - ๋งค์นญ๊ณผ ์ญํ๋ฅ ๊ฐ์ค์น (1) | 2023.04.21 |
์ธ๊ณผ์ถ๋ก ์ ๋ฐ์ดํฐ ๊ณผํ - ์ธ๊ณผ์ถ๋ก ๊ด์ ์์์ ํ๊ท๋ถ์ (0) | 2023.04.21 |
๋๊ธ