1️⃣ AI•DS/πŸ₯Ž Casual inference

μΈκ³ΌμΆ”λ‘ μ˜ 데이터 κ³Όν•™ - κ°€μƒμ˜ ν†΅μ œμ§‘λ‹¨

isdawell 2023. 4. 25. 13:48
728x90

μ°Έκ³ μ˜μƒ : Bootcamp 3-4.  κ°€μƒμ˜ ν†΅μ œμ§‘λ‹¨ 

 

 

 

1. synthetic control vs DID 


 

β—―  Synthetic control 

 

 

•  synthetic control 은 DID 의 ν™•μž₯λ²„μ „μ΄λ‚˜ μ’€ 더 μœ μ—°ν•œ 방법이닀. 

•  맀칭이 μ„±λ¦½λ˜μ§€ μ•Šκ³ , parallel trend 가정이 μ„±λ¦½ν•˜μ§€ μ•Šλ”λΌλ„ μ μš©ν•  수 μžˆλ‹€. 

•  졜근 κ°€μž₯ μ£Όλͺ©λ°›λŠ” 방법둠이기도 ν•˜λ‹€. 

 

 

•  control group 을 μ‘°ν•©ν•¨μœΌλ‘œμ„œ κ°€μƒμ˜ 비ꡐ가λŠ₯ν•œ ν†΅μ œμ§‘λ‹¨μ„ ꡬ성할 수 μžˆλŠ” 방법이닀. 

 

 

 

 

 

 

 

2. Example


 

β—―  μΊ˜λ¦¬ν¬λ‹ˆμ•„μ˜ λ‹΄λ°° 규제의 λ‹΄λ°° νŒλ§€λŸ‰μ— 미친 효과 

 

 

•  μΊ˜λ¦¬ν¬λ‹ˆμ•„μ—μ„œλ§Œ 1988년에 λ„μž…λ¨, κ·œμ œκ°€ λ„μž…λ˜μ§€ μ•Šμ€ 49개의 λ‹€λ₯Έ 주와 λΉ„κ΅ν•˜κ³ μž ν•˜μ§€λ§Œ, μœ„μ˜ κ·Έλ¦Όκ³Ό 같이 parallel trend λ₯Ό λ”°λ₯΄μ§€ μ•ŠμŒ ⇨ synthetic control 이 ν•„μš” 

 

 

•  synthetic μΊ˜λ¦¬ν¬λ‹ˆμ•„λ₯Ό λ§Œλ“€κΈ° μœ„ν•΄, 각 주에 λŒ€ν•΄ weight linear combination 을 톡해 μΊ˜λ¦¬ν¬λ‹ˆμ•„λ₯Ό λͺ¨λ°©ν•  수 μžˆλŠ” κ°€μƒμ˜ μ£Όλ₯Ό λ§Œλ“ λ‹€. 

•  Donor pool : synthetic control 을 λ§Œλ“œλŠ”λ° νˆ¬μž…λ˜λŠ” control unit 

 

 

β—―  μ„œλ…κ³Ό λ™λ…μ˜ 톡일이 κ²½μ œμ— 미친 인과적 효과 

 

•  톡일이 λ˜μ§€ μ•Šμ•˜λ”λΌλ©΄ μžˆμ—ˆμ„ counterfactual μžμ²΄λŠ” κ΄€μ°°ν•  수 μ—†μŒ 

•  독일과 μœ μ‚¬ν•œ μƒν™©μ˜ κ΅­κ°€λ₯Ό 찾기도 어렀움 

 

 

•  Synthetic control 을 μ μš©ν•˜μ—¬, μ£Όλ³€ ꡭ가듀을 적절히 weight 을 μ£Όμ–΄μ„œ μ‘°ν•©ν–ˆλ”λ‹ˆ, μ„œλ…μ˜ 경제λ₯Ό λͺ¨λ°©ν•˜λŠ” κ°€μƒμ˜ κ΅­κ°€λ₯Ό λ§Œλ“€ 수 μžˆμ—ˆλ‹€. 

•  Donor pool μ—μ„œ weight 을 μ–΄λ–»κ²Œ μ„€μ •ν•˜λŠλƒκ°€ 관건 

 

 

 

 

 

 

3. How to construct the synthetic control 


 

β—―  Original Method

 

 

•  treatment λ₯Ό λ°›κΈ° μ΄μ „μ˜ outcome κ³Ό predictor 에 λŒ€ν•΄μ„œ μ²˜μΉ˜κ·Έλ£Ήμ—μ„œμ˜ κ°’κ³Ό ν†΅μ œμ§‘λ‹¨μ—μ„œμ˜ μ‘°ν•©μ—μ„œμ˜ 차이가 μ΅œμ†Œν™” λ˜λ„λ‘ rate 을 κ΅¬ν•œλ‹€. 

 

 

•  control unit μ—μ„œμ˜ μ‘°ν•©μœΌλ‘œ treated unit 에 κ°€κΉŒμ›Œμ§ˆ 수 μžˆλŠ” weight 을 μ°ΎκΈ° ⇨ optimization 문제 

•  t=1 인 μ‹œμ μ˜ outcome, t=2 인 μ‹œμ μ˜ outcome, t=2 인 μ‹œμ μ—μ„œμ˜ predictor X ⇨ μ„Έ λ³€μˆ˜λ“€ κ°„μ˜ weight 을 κ³ λ € : w-weights 

•  control unit λ³„λ‘œ μ–΄λ–»κ²Œ weight 을 μ£Όμ–΄μ„œ synthetic control 을 λ§Œλ“€μ§€ : v-weights 

 

⇨  W1βˆ™(Y1' - (V1βˆ™Y1,1 + V2βˆ™Y2,1 + V3βˆ™Y3,1)) + W2βˆ™(Y2' - .....) + W3βˆ™(Y3' - .....) λ₯Ό minimize ν•˜λŠ” weight μ°ΎκΈ° 

⇨  W, V의 이차항 문제 : Quadratic programming 

 

 

•  synthetic control 은 각각의 treated unit 에 λŒ€ν•΄ λ”°λ‘œ ꡬ할 수 밖에 μ—†λ‹€. 

•  optimization 문제이기 λ•Œλ¬Έμ— control variable 이 많으면 μ‹œκ°„μ΄ 였래걸리고 μ΅œμ κ°’μ΄ λ„μΆœλ˜μ§€ μ•Šμ„ 수 μžˆλ‹€. λͺ¨λ“  control variable 이 λͺ¨λ‘ donor pool 이지 μ•Šμ•„λ„ λœλ‹€. donor pool 을 적절히 μ€„μ΄λŠ” 것도 μ€‘μš”ν•˜λ‹€. 

 

 

β—―  Various methods 

 

 

•  negative weight 을 μ“°κ±°λ‚˜, μ—˜λΌμŠ€ν‹±λ„·/라쏘 등을 μ‚¬μš©ν•˜κ±°λ‚˜ λ‹€μ–‘ν•œ 방법듀이 μƒκ²¨λ‚˜κ³  μžˆλ‹€. 

 

 

β—―  Synthetic difference in difference 

 

 

•  기쑴의 synthetic control 은 μ‹œκ°„μ— λ”°λ₯Έ λ³€ν™”λ₯Ό 크게 κ³ λ €ν•˜μ§€ μ•Šκ³ , control unit κ³Ό λ³€μˆ˜μ— λŒ€ν•œ weight λ§Œμ„ κ³ λ €ν•œλ‹€. κ·ΈλŸ¬λ‚˜, synthetic DID λŠ” 기쑴의 DID 처럼 unit fixed effect 와 time fixed effect λ₯Ό λͺ¨λ‘ κ³ λ €ν•˜κ³ , λ™μ‹œμ— 기쑴의 synthetic control 처럼 λ™μž‘ν•˜λ©΄μ„œ, time weight 도 κ³ λ €ν•œλ‹€. 이λ₯Όν†΅ν•΄ fixed effect 와 weight 을 λͺ¨λ‘ κ³ λ €ν•  수 있게 λœλ‹€. 

 

 

 

β—―  Bayesian synthetic control 

 

 

 

 

•  synthetic control 은 prediction problem 으둜 귀결될 수 μžˆλ‹€. out of sample prediction 문제이기 λ•Œλ¬Έμ— λ¨Έμ‹ λŸ¬λ‹ 방법둠이 많이 μ μš©λ˜λŠ” 뢄야이닀. 

 

 

 

 

 

 

 

4. Inference for synthetic control 


 

β—―  Placebo test

 

•  ν†΅κ³„μ μœΌλ‘œ synthetic theory 에 κΈ°λ°˜μ— standard error λ‚˜ p-value λ₯Ό ꡬ할 μˆ˜κ°€ μ—†λ‹€. 

•  synthetic control 을 ν•  λ•Œ, μ–΄λ– ν•œ μ‹μœΌλ‘œ inference λ₯Ό ν•˜λƒ ⇨ Placebo test : synthetic control κ³Ό actual κ°’μ˜ 차이가 treatment μ „ν›„λ‘œ μ–Όλ§ˆλ‚˜ 차이가 λ‚˜λŠ”μ§€ ν™•μΈν•œλ‹€. 

 

 

•  treatment 이후에 μ‹€μ œκ°’κ³Ό synthetic control κ°„μ˜ 차이가 100λ°° μ΄μƒμœΌλ‘œ 큼 

•  μ˜…μ€ νšŒμƒ‰ 선듀은 μΊ˜λ¦¬ν¬λ‹ˆμ•„λ₯Ό μ œμ™Έν•œ λ‚˜λ¨Έμ§€ 주듀에 λŒ€ν•œ synthetic control κ³Ό μ‹€μ œ κ°’μ˜ 차이 

•  λ‹€λ₯Έ λŒ€λΆ€λΆ„μ˜ μ£Όλ“€μ—μ„œλŠ” treatment 이전과 이후에 차이가 λ³„λ‘œ μ—†λ‹€ (μ‹€μ œ treatment κ°€ μ—†μ—ˆκΈ° λ•Œλ¬Έ) ⇨ μΊ˜λ¦¬ν¬λ‹ˆμ•„μ— λŒ€ν•œ νš¨κ³Όκ°€ μœ μ˜ν•˜λ‹€κ³  결둠내릴 수 μžˆλ‹€. 

 

 

 

 

5. Sensitivity tests for synthetic control 


 

 

•  synthetic control 을 μ–΄λ–€ λ³€μˆ˜λ‘œ κ΅¬μ„±ν•˜λŠ”μ§€μ— 따라 달라짐 : variable (predictors) 에 λŒ€ν•œ sensitivity test κ°€ ν•„μš” 

•  donor pool λ‚΄μ—μ„œ control unit 에 λŒ€ν•œ weight 에 λŒ€ν•΄μ„œλ„ sensitivity test κ°€ ν•„μš” 

•  μ—¬λŸ¬κ°€μ§€ κ°€λŠ₯성에 λŒ€ν•΄ robust ν•œ 경우의 수λ₯Ό μ°ΎκΈ° 

 

 

•  prediction 문제이기 λ•Œλ¬Έμ— λ¨Έμ‹ λŸ¬λ‹μ—μ„œ μ μš©ν•˜λŠ” Train , test 데이터 split 도 synthetic control 에 μ μš©ν•΄λ³Ό 수 μžˆλ‹€. 

 

 

 

6. Requirements for synthetic control 


•  더 곡뢀해보고 μ‹Άλ‹€λ©΄ review paper μ‚΄νŽ΄λ³΄κΈ°! 

 

 

 

 

πŸ‘€ Control group 이 μ—†λ‹€λ©΄ → Time series forecasting model can be used to predict the counterfactual, κ·ΈλŸ¬λ‚˜ μ΄λŸ¬ν•œ 경우 μ™ΈλΆ€ 좩격 이후에 λŒ€ν•œ μ˜ˆμΈ‘μ€ λ‹€μ†Œ μ–΄λ €μšΈ 수 있음

 

 

728x90