1️⃣ AI•DS/πŸ₯Ž Casual inference

μΈκ³ΌμΆ”λ‘ μ˜ 데이터 κ³Όν•™ - μ€€μ‹€ν—˜ 뢄석 방법둠

isdawell 2023. 4. 24. 13:08
728x90

μ°Έκ³ μ˜μƒ : Bootcamp 3-2.  μ€€μ‹€ν—˜ 뢄석 방법둠 

 

 

 

1. Counterfactual and methods 


 

β—―  Counterfactual revisited 

 

 

•  μš°λ¦¬μ—κ²Œ ν•„μš”ν•œκ±΄, treatment group μ—μ„œ treat λ₯Ό λ°›μ§€ μ•Šμ•˜λ”λΌλ©΄ μ–΄λ–€ κ²°κ³Όλ₯Ό λ³΄μ˜€λŠ”μ§€μ— λŒ€ν•œ counterfactual ⇨ ν˜„μ‹€μ—μ„œ κ΄€μ°° λΆˆκ°€λŠ₯ν•˜κΈ° λ•Œλ¬Έμ— κ°€μž₯ λΉ„μŠ·ν•œ control group 을 μ°ΎλŠ” 것이 관건이닀. 

•  Causal experiment method: control group 을 ν™œμš©ν•΄ μ–΄λ–»κ²Œ counterfactual μ„ μœ μΆ”ν•  수 μžˆμ„μ§€μ— λŒ€ν•œ 방법 ⇨ Research design and apply method 

 

•  μš°λ¦¬κ°€ μ‹€μ œ 데이터λ₯Ό 톡해 μΆ”μ •ν•˜λŠ” 것은, treatment group 에 λŒ€ν•œ ATE 인 ATET 이닀. μ—„λ°€νžˆ λ§ν•˜λ©΄, control group μ—μ„œ λ§Œμ•½ treatment κ°€ μžˆμ—ˆμœΌλ©΄ μ–΄λ– ν–ˆμ„μ§€ λ‚˜νƒ€λ‚΄λŠ” ATEU λŠ” 데이터λ₯Ό 톡해 μΆ”μ •ν•˜κ³ μž ν•˜λŠ” λŒ€μƒμ€ μ•„λ‹ˆκ³ , 역관계가 μ„±λ¦½ν•˜κΈ° μœ„ν•΄ treatment group 와 control group 이 ꡉμž₯히 λΉ„μŠ·ν•΄μ„œ, μ„œλ‘œ 역할을 바꿔도 κ²°κ³Όκ°€ 동일할 κ²ƒμ΄λΌλŠ” κ°€μ • ν•˜μ—μ„œ ATEU κΉŒμ§€λ„ μΆ”μ •ν•˜λŠ” 것이닀. 이λ₯Ό μ’…ν•©ν•΄ 전체 μƒ˜ν”Œμ—μ„œ ATE λ₯Ό κ΅¬ν•œλ‹€. 

 

•  [정리] Causal inference method λŠ” 비ꡐ κ°€λŠ₯ν•œ control group 을 ν™œμš©ν•΄ counterfactual 을 approximation ν•˜κ² λ‹€λŠ” 접근이고, μš°λ¦¬κ°€ μ‹€μ œλ‘œ κ·ΈλŸ¬ν•œ method λ₯Ό ν†΅ν•΄μ„œ μΆ”μ •ν•  수 μžˆλŠ” 것은 ATET 이닀. ATE λ₯Ό κ΅¬ν•˜κ³ μž ν•œλ‹€λ©΄, 역관계 μ„±λ¦½μ΄λΌλŠ” 가정이 μΆ”κ°€λ˜μ–΄μ•Ό ν•œλ‹€

 

 

 

 

 

2. Data structure from the perspective of Counterfactual 


 

β—―  Data structure 

 

 

•  비ꡐ κ°€λŠ₯ν•œ λŒ€μƒμ„ 톡해 counterfactual 을 approximate 

•  counterfactual 은 time-invariant outcome κ³Ό time-varying outcome 으둜 λΆ„λ₯˜λ  수 μžˆλ‹€. 

•  μ‹œκ°„μ— 따라 λ³€ν•˜μ§€ μ•ŠλŠ” counterfactual 은 treatment κ°€ μ‹€μ œλ‘œ μ—†μ—ˆμ„ λ•Œ μžˆμ—ˆλ˜ 과거의 값에 거의 동일할 것이닀. μ‹œκ°„μ— 따라 λ³€ν•˜μ§€ μ•ŠλŠ” μš”μΈμ€, κ³Όκ±° λ°μ΄ν„°λ‘œ μ‰½κ²Œ μœ μΆ”ν•  수 μžˆλ‹€. 

 

 

•  treatment 전후에 데이터λ₯Ό κ΄€μ°°ν•  수 μžˆλŠ” longitudinal data κ°€, treatment λ₯Ό 받은 μ΄ν›„μ˜ νŠΉμ • μ‹œμ μ˜ λ°μ΄ν„°λ§Œ μžˆλŠ” cross-sectional data 보닀 인과좔둠 κ΄€μ μ—μ„œλŠ” 훨씬 더 μœ λ¦¬ν•˜λ‹€. 

 

•  μ‹œκ°„μ— 따라 λ³€ν•˜λŠ” counterfactual 만 생각해보면 λœλ‹€. 

 

•  counterfactual 을 approximation ν•œλ‹€λŠ” μΈ‘λ©΄μ—μ„œ treatment μ „ν›„μ˜ 데이터가 λͺ¨λ‘ 있으면 훨씬 더 μœ λ¦¬ν•œ 츑면이 μžˆλ‹€. 

 

 

•  treatment group μ—μ„œλ§Œ μ „ν›„ 데이터가 μžˆλŠ” κ²½μš°κ°€ 있고 (time-series data) , control group 의 μ „ν›„ λ°μ΄ν„°κΉŒμ§€ μžˆλŠ” 경우 (panel data) κ°€ μžˆλ‹€. Panel data ν˜•νƒœκ°€ time-series 보닀 훨씬 μœ λ¦¬ν•˜λ‹€κ³  λ³Ό 수 μžˆλ‹€. 

 

 

•  [μ˜ˆμ‹œ] 

β†ͺ  할인쿠폰이 μ§€κΈ‰λ˜μ—ˆκ³ , λ‚΄κ°€ μ΄λ²ˆμ£Όμ— μš°μ‚°μ„ κ΅¬λ§€ν–ˆλ‹€. μ΄λ•Œ, 쿠폰 지급이 μ œν’ˆ ꡬ맀둜 μ΄μ–΄μ‘ŒλŠ”μ§€μ— λŒ€ν•΄ 인과좔둠을 μ§„ν–‰ν•΄λ³΄κ³ μž ν•œλ‹€. μ§€λ‚œμ£Όμ—λŠ” 날씨가 ν™”μ°½ν–ˆλ‹€κ³  κ°€μ •ν•΄λ³Έλ‹€λ©΄, μ§€λ‚œμ£Όμ—λŠ” μš°μ‚°μ„ κ΅¬λ§€ν•˜μ§€ μ•Šμ•˜μ–΄λ„ λ˜μ—ˆκΈ° λ•Œλ¬Έμ—, μ§€λ‚œμ£Όμ˜ ν–‰λ™λ§Œ κ°€μ§€κ³  이번주의 행동을 μ˜ˆμΈ‘ν–ˆλ‹€λ©΄ counterfactual 둜 "쿠폰이 μ—†μ—ˆλ‹€λ©΄ μ΄λ²ˆμ£Όμ— μš°μ‚°μ„ κ΅¬λ§€ν•˜μ§€ μ•Šμ•˜μ„ 것이닀" 라고 μ˜ˆμΈ‘ν•  κ°€λŠ₯성이 λ†’λ‹€. κ·ΈλŸ¬λ‚˜, μ‹€μ œλ‘œλŠ” μš°μ‚°μ„ κ΅¬λ§€ν–ˆκΈ° λ•Œλ¬Έμ— 이런 κ²½μš°μ—λŠ” 쿠폰의 인과적인 νš¨κ³Όκ°€ 크게 λ‚˜νƒ€λ‚¬μ„ 것이닀. 

β†ͺ  반면, μ΄λ²ˆμ£Όμ— λΉ„κ°€ 였기 λ•Œλ¬Έμ— 쿠폰을 λ°›μ§€ μ•Šμ•˜μ§€λ§Œ μš°μ‚°μ„ κ΅¬λ§€ν•œ λ‹€λ₯Έ μΉœκ΅¬λ“€ control group 을 κ³ λ €ν•΄μ„œ counterfactual 을 μ˜ˆμƒν•΄λ³Έλ‹€λ©΄, 쿠폰이 μ—†μ—ˆλ”λΌλ„ μš°μ‚°μ„ κ΅¬λ§€ν–ˆμ„ κ°€λŠ₯성이 ν¬λ‹ˆκΉŒ, 쿠폰의 효과라고 λ³Ό 수 없을 것이닀. 

 

 

•  [정리]

1. treatment μ „ν›„λ‘œ 데이터가 λͺ¨λ‘ μžˆλŠ” 것이 μ’‹λ‹€.

2. control group μ—μ„œλ„ μ „ν›„ 데이터가 λͺ¨λ‘ μžˆλŠ” 것이 인과좔둠 κ΄€μ μ—μ„œ 맀우 μœ λ¦¬ν•˜λ‹€. 

 

 

 

 

 

 

3. What's your research design and data structure 


 

1. λ‚΄κ°€ κ°€μ§€κ³  μžˆλŠ” λ°μ΄ν„°μ˜ νŠΉμ„±μ΄ 무엇인지 

2. 데이터λ₯Ό κ°€μ§€κ³  μ–΄λ–»κ²Œ 뢄석할지 

 

 

β—―  Research Design 선택 단계 

 

 

 

 

[단계 μ„€λͺ…]

 

•  β‘ . 인과좔둠을 λͺ©μ μœΌλ‘œ ν•˜λŠ”κ²Œ λ§žλŠ”μ§€, λ¬΄μž‘μœ„ 배정이 κ°€λŠ₯ν•œμ§€ 체크 

 

 

•  β‘‘. 

(a) β‘ λ²ˆμ΄ λ§Œμ‘±λœλ‹€λ©΄ RCT κ°€ κ°€λŠ₯ν•˜λ‹€λ©΄, RCT λ₯Ό ν™œμš© 

(b) RCT κ°€ λΆˆκ°€λŠ₯ν•˜λ©΄ treatment group 와 control group 이 μ–΄λ–»κ²Œ μ„ νƒλ˜λŠ”μ§€μ— λŒ€ν•œ λ©”μ»€λ‹ˆμ¦˜ μƒκ°ν•˜κΈ° : Quasi-experiment design κ³Ό 같은 research design κ³ λ €ν•˜κΈ° 

 

 

•  β‘’.

 

(a) research design 을 찾을 수 μžˆλ‹€κ³  ν•œλ‹€λ©΄ treatment group 와 control group 을 μ°ΎκΈ° 

⇨ a-1. control을 κ΄€μ°° λΆˆκ°€λŠ₯ : longitudinal data (treatment μ „ν›„λ‘œ κ΄€μΈ‘ κ°€λŠ₯ν•œμ§€ 보기) : interrupted time series analysis 

⇨ a-2. control을 κ΄€μ°° κ°€λŠ₯ : treatment 와 control μ—μ„œ μ‹œκ°„μ— λ”°λ₯Έ λ³€ν™”κ°€ μ–Όλ§ˆλ‚˜ 비ꡐ κ°€λŠ₯ν•œμ§€μ— λŒ€ν•œ κ°€μ • (parallel trend assumption) 이 λ§Œμ‘±ν•˜λŠ”μ§€ 따져보기 → λ§Œμ‘±ν•œλ‹€λ©΄ DID , λ§Œμ‘±ν•˜μ§€ μ•ŠλŠ”λ‹€λ©΄ Matching μž‘μ—… 후에 DID λ₯Ό μ μš©ν•˜κ±°λ‚˜, Synthetic control μ΄λΌλŠ” 방법을 ν™œμš©ν•΄λ³Ό 수 μžˆλ‹€. 

 

(b) control 을 κ΄€μ°° κ°€λŠ₯ν•œλ°, treatment μ „ν›„μ˜ 데이터가 μ—†λŠ” 경우 : treatment κ°€ μž„μ˜μ˜ threshold 에 μ˜ν•΄ λ‚˜λ‰œ 것인지 따렀보고, λ§Œμ•½ κ·Έλ ‡λ‹€λ©΄ regression discontinuity λΌλŠ” 방법을 ν™œμš©ν•  수 있고, 그것이 μ•„λ‹ˆλΌλ©΄, treatment λ₯Ό 받을 수 μžˆλŠ” μ™ΈλΆ€ μš”μΈμ΄ μžˆλŠ”μ§€ 찾아보아야 ν•œλ‹€ (β‘£). 

 

 

•  β‘£. λ„κ΅¬λ³€μˆ˜

 

(a) λ„κ΅¬λ³€μˆ˜κ°€ μžˆλ‹€λ©΄ : local average treatment effect 뢄석을 ν•  수 있고, control function μ΄λ‚˜ selection model 을 ν™œμš©ν•΄λ³Ό 수 μžˆλ‹€. 

(b) λ„κ΅¬λ³€μˆ˜λ„ κ³ λ €ν•΄λ³Ό 수 μ—†λ‹€λ©΄ : Matching/weighting μ΄λ‚˜ regression μ „λž΅μ„ κ³ λ €ν•΄λ³Ό 수 μžˆλ‹€. 

 

 

 

 

 

 

 

 

4. Overview of methods 


 

•  λͺ©μ  : control group 을 ν™œμš©ν•΄μ„œ treatment group μ—μ„œμ˜ counterfactual κ΅¬ν•˜κΈ° 

 

 

β—―  DID

 

•  쑰건 : treatment 와 control group 이 μ–΄λ–»κ²Œ λ‚˜λ‰˜λŠ”μ§€ μ•Œμ•„μ•Ό ν•˜κ³ , treatment group κ³Ό control group λͺ¨λ‘ treatment μ „ν›„μ˜ 데이터가 μ‘΄μž¬ν•΄μ•Ό ν•˜κ³ , treatment κ°€ μ—†λŠ” μƒν™©μ—μ„œ treatment group μ—μ„œμ˜ μ‹œκ°„μ— λ”°λ₯Έ 변화와 control group μ—μ„œ μ‹œκ°„μ— λ”°λ₯Έ λ³€ν™”κ°€ ν‰ν–‰ν•˜λŠ” parallel trend assumption 이 성립해야 ν•œλ‹€. 

 

•  μ‹œκ°„에 따라 λ³€ν•˜μ§€ μ•ŠλŠ” λ³€μˆ˜, 성별, μ§€μ—­, μ·¨ν–₯ λ“±μ˜ μš”μΈλ§Œ κ³ λ €ν•  수 μžˆμ–΄λ„ μƒλ‹Ήνžˆ λ§Žμ€ 뢀뢄을 컀버할 수 μžˆλ‹€. λ”°λΌμ„œ κ³Όκ±° 데이터가 μ€‘μš”ν•˜λ‹€. 

 

 

•  treatment κ°€ μ—†λŠ” μƒν™©μ—μ„œ μ‹œκ°„μ— 따라 λ³€ν–ˆμ„ counterfactual 만 λ‚¨μŒ → control group μ—μ„œμ˜ μ‹œκ°„μ— 따라 λ³€ν•˜λŠ” 정도λ₯Ό κ°€μ§€κ³  μΆ”μ •ν•œλ‹€. κ°€λ Ή μœ„μ˜ μ˜ˆμ‹œμ²˜λŸΌ, control group μ—μ„œ potential outcome 이 "평균"적으둜 0.5 μ¦κ°€ν–ˆκΈ° λ•Œλ¬Έμ— counterfactual 을 μΆ”μ •ν•  λ•Œμ—λ„ 0.5μ”© μ¦κ°€μ‹œν‚¨λ‹€. 

 

•  DID λ₯Ό μ μš©ν•˜λŠ”λ° μžˆμ–΄μ„œ parallel trend assumption μ—μ„œ treatment group κ³Ό control group 이 λ‹€ λΉ„μŠ·ν•  ν•„μš”λŠ” μ—†κ³ , μ‹œκ°„μ— 따라 λ³€ν•˜λŠ” μ •λ„λ§Œ 비ꡐ κ°€λŠ₯ν•˜λ©΄ 되기 λ•Œλ¬Έμ— κΈ°μ‘΄ 뢄석보닀 λ‹€μ†Œ λŠμŠ¨ν•œ 가정에 ν•΄λ‹Ήν•œλ‹€. λ§Œμ•½ μ΄λŸ¬ν•œ 가정이 μ•„μ˜ˆ λ§Œμ‘±λ˜μ§€ μ•ŠλŠ”λ‹€λ©΄ matching λ“±μ˜ 방법을 μ‚¬μš©ν•˜λ©΄ λœλ‹€. 

 

•  DID λ₯Ό 톡해 ꡬ할 수 μžˆλŠ” 것은 ATET 이닀. ATET λ₯Ό κ΅¬ν•˜κΈ° μœ„ν•΄μ„œλŠ” μ‹œκ°„μ— 따라 λ³€ν•˜λŠ” μΆ”μ„Έλ§Œ λΉ„μŠ·ν•˜λ©΄ λœλ‹€. κ·ΈλŸ¬λ‚˜ 이λ₯Ό ATE 둜 ν™•μž₯μ‹œν‚€λ €λ©΄ μ’€ 더 κ°•ν•œ 가정이 ν•„μš”ν•˜λ‹€. ATE 둜 ν™•μž₯ν•˜λ €λ©΄ treatment 와 control 이 λͺ¨λ“  λ©΄μ—μ„œ λΉ„μŠ·ν•΄μ„œ μ—­μœΌλ‘œ λŒ€μƒμ„ 바꿔도 (control μ—μ„œ treat λ₯Ό λ°›μ•˜λ‹€κ³  ν–ˆμ„λ•Œ) μ„±λ¦½ν•˜λŠ” 상황이 μ„±λ¦½λ˜μ–΄μ•Ό ν•œλ‹€. ATET와 ATE λ₯Ό κ΅¬λΆ„ν•˜λŠ” 것도 μ€‘μš”ν•˜λ‹€. 연ꡬ λͺ©μ μ— 따라 ATET 만 봐도 μΆ©λΆ„ν•  수 μžˆλ‹€. 

 

 

 

 

β—―  Synthetic control 

 

•  κΈ°λ³Έ 아이디어 : control group 의 combination 을 톡해 treatment group 의 counterfactual 을 μ˜ˆμƒν•˜κΈ° 

 

 

•  DID 와 λͺ©μ μ€ λ™μΌν•˜λ‹€. 

•  parallel trend 가정이 λ§Œμ‘±λ˜μ§€ μ•Šμ•„λ„, control unit 을 잘 μ‘°ν•©ν•΄μ„œ treatment unit 을 잘 μ˜ˆμΈ‘ν•΄λ‚Ό 수 μžˆλ‹€. 

 

 

 

β—―  Synthetic control vs DID 

 

 

•  κ°κ°μ˜ Firm 2~5 λŠ” treatment 와 비ꡐ κ°€λŠ₯ν•œ 것이 ν•˜λ‚˜λ„ μ—†λ‹€. (DID 만쑱X) 

 

 

•  λ°˜λ©΄, Firm 2와 Firm3 λ₯Ό 적절히 μ‘°ν•©ν•˜λ©΄, 비ꡐ κ°€λŠ₯ν•œ κ°€μƒμ˜ ν†΅μ œμ§‘λ‹¨μ„ λ§Œλ“€ 수 μžˆλ‹€. 

 

 

 

 

β—―  Interrupted Time series analysis 

 

•  μ‘°κ±΄ : control group 데이터가 μ—†κ³ , treatment group 의 μ „ν›„ λ°μ΄ν„°λ§Œ μžˆλŠ” 경우 

•  treatment group μ—μ„œμ˜ κ³Όκ±° λ°μ΄ν„°λ§Œμ„ κ°€μ§€κ³  미래λ₯Ό 예츑 : time-series forecasting 

 

 

•  ex. μ‹œκ°„μ˜ 흐름에 따라 1μ”© μ¦κ°€ν•˜λŠ” κ²½ν–₯을 λ³΄μ΄λ―€λ‘œ, λ‹€μŒ outcome 도 +1의 κ²°κ³Όλ₯Ό κ°€μ§ˆ 것이닀.

 

 

 

 

728x90