์ฐธ๊ณ ์์ : Bootcamp 2-3. ์ธ๊ณผ์ถ๋ก ๊ด์ ์์์ ํ๊ท๋ถ์
1. Casual Hierarchy
• ์ด๋ค ์ข ๋ฅ์ selection bias๋ฅผ ๋ค๋ฃฐ ์ ์๋์ง์ ๋ํ ๊ธฐ์ค
• Selection on Observables strategies : ๊ด์ฐฐ ๊ฐ๋ฅํ ๋ณ์๋ค์ ์ํด์๋ง treatment์ control ์ด ์ ํ๋๋ค๋ ๊ฐ์ ์ ๊ฐ์ง๊ณ ๊ด์ฐฐ ๊ฐ๋ฅํ ๋ณ์๋ค๋ง์ ๊ฐ์ง๊ณ selection bias๋ฅผ ์ค๋ช ํ๋ ค๋ ๊ฒฝํฅ
• Selection on Unobservables strategies : ๊ด์ฐฐ ๊ฐ๋ฅํ์ง ์์ ๊ต๋ ์์ธ๋ค๋ ์ ์ ํ ์คํ๋์์ธ์ ํตํด ํด๊ฒฐํ๊ณ ์ ํ๋ ์ ๋ต โจ ์ข ๋ powerful ํ ์ ๋ต
2. How to balance between treatment and control groups
โฏ Regression adjustment
• ํต์ ๋ณ์์ ํ์ฉ์ ํตํด selection bias ๋ฅผ ๋ชจ๋ ์ค๋ช ํ๊ณ ์ ํ๋ ๋ฐฉ๋ฒ
• ๊ฐ์ฅ ๊ฐ๋จํ๊ณ ์ ์ฐํ ๋ชจ๋ธ์ด๋ผ, ์ธ๊ณผ์ถ๋ก ์ ํผ๋์ ์ค ์ ์๋ ๋ชจ๋ธ์ด๊ธฐ๋ ํ๋ค.
โฏ Matching
• treatment group ๊ณผ control group ์ด ์๋ก ๋น๊ต ๊ฐ๋ฅํ ์ ์๋๋ก ๊ด์ฐฐ ๊ฐ๋ฅํ ๋ณ์๋ค์ ๊ฐ์ด ์๋ก ์ ์ฌํ ๋ฐ์ดํฐ๋ค๋ผ๋ฆฌ ๋งค์นญํ๋ ์ ๋ต
โฏ Weighting
• treatment ๋ฅผ ๋ฐ์ ํ๋ฅ ์ ์ญ์๋งํผ์ ๊ฐ ๋ฐ์ดํฐ์ ๊ฐ์ค์น๋ฅผ ๋ถ์ฌํด, ๊ฒฐ๊ณผ์ ์ผ๋ก random assignment ๊ฐ ๋ ์ ์๋๋ก ํ๋ ๋ฐฉ๋ฒ
3. Regression from the perspective of potential outcomes
โฏ ์ ํต์ ์ธ ๋ฐฉ์์ ํ๊ท๋ถ์
• ์ข ์๋ณ์๋ฅผ ์ค๋ช ํ๋ ๋ชจ๋ ๋ ๋ฆฝ๋ณ์๋ฅผ ์ค๋ช ํจ์ผ๋ก์จ , ์ข ์๋ณ์๋ฅผ ์จ์ ํ ์ค๋ช ํ๋ true model์ ๋ง๋๋ ๊ฒ์ด ๋ชฉ์ : R-squared
• EX. 4๊ฐ์ง์ ๋ ๋ฆฝ๋ณ์๋ค์ด Studnet achievement ๋ฅผ ์ ์ค๋ช ํ๊ณ ์๋ค.
โฏ ์ธ๊ณผ์ถ๋ก ๊ด์ ์์์ ํ๋ ํ๊ท๋ถ์
• ์ธ๊ณผ์ถ๋ก ๊ด์ ์์์ ํ๊ท๋ถ์์ ์ญํ ์, selection bias ๋ฅผ ์ผ๊ธฐํ๋ confounding factor ๋ฅผ ํต์ ํ๊ณ ํ๋ ๊ฒ : control variable ํต์ ๋ณ์
• R-squared ๋ณด๋จ, ํต์ ๋ณ์๊ฐ selection bias ๋ฅผ ์ผ๋ง๋ ์ ํต์ ํ๋๋๊ฐ ์ค์
โฏ ์ธ๊ณผ์ถ๋ก ๊ด์ ์ผ๋ก ํ๊ท๋ถ์์ ์ฌ์ ์ํด๋ณด๊ธฐ
• ํธ์์ treatment variable ์ธ X๋ฅผ bianry variable ๋ก ๋ฐ๊ฟ๋ณด์. True causal coefficient ๋ฅผ β๋ผ ํ์.
• α : ์ ์ฒด ์ํ์ ๋ํ ํ๊ท
• Potential outcome ๊ด์ ์์ Regression model ์ ๋ค์ ์จ๋ณผ ์ ์๋ค.
• ε1i ์ ε0i ์ ์ฐจ์ด๊ฐ ํจ๊ป ์ถ์ ๋จ → β ๋ฅผ ์ ์ธํ ์ฐจ์ด (treatment ์ฌ๋ถ๋ฅผ ์ ์ธํ ์ฐจ์ด) ์ด๋ฏ๋ก (ε1i - ε0i) ๋ selection bias ๋ฅผ ๋ปํ๋ค.
• ATE ๋ฅผ ์ ๋ฆฌํ๋ฉด ์ฐ๋ฆฌ๊ฐ ๊ตฌํ๊ณ ์ ํ๋ True causal effect ๋ฟ๋ง ์๋๋ผ, selection bias ๊ฐ ๊ทธ๋๋ก ๊ปด์ ๋์จ๋ค. selection bias = 0 ์ด๋ฉด ๋น๋ก์ causal effect ๋ผ๊ณ ๋ถ๋ฅผ ์ ์๋ค.
• selection bias ๋ฅผ ๋ชจ๋ ์ค๋ช ํ ์ ์๋ ๋ณ์ (control variable) Ci ๊ฐ ์๋ค๊ณ ๊ฐ์ ํด๋ณด์ (Selection on Observables strategies). ์ด Ci ์ selection bias ๊ฐ ์ ํ ๊ด๊ณ์์ผ๋ก ์ ์๋ ์ ์๋ค๋ ๊ฐ์ ์ ์ถ๊ฐํด๋ณผ ์ ์๋ค.
• ei ์ X=0 ์ผ ๋์ control variable ์ ๊ฐ C0i, X=1 ์ผ ๋์ control variable ์ ๊ฐ C1i
• Control variable ์ ํฌํจํด์ ๋ค์ ์์ ์ฌ์ ์ํ๋ฉด, treatment variable ์ธ X ์ coefficient ์ ๋ ์ด์ selection bias ๊ฐ ํฌํจ๋์ง ์์์ ๋ณผ ์ ์๋ค.
• ๊ทธ๋ฌ๋ ์ฌ์ ํ ATE ๋ ์จ์ ํ β ๊ฐ ๋์ง ๋ชปํ๊ณ , Control variable ์์์ ์ฐจ์ด๊น์ง ๊ณ์ฐ๋๋ค. ๋ง์ฝ control variable ์ด conditioning ํ๋ค๋ฉด (๊ณ ์ ํ๋ค๋ฉด), potential outcome ์ ์ฐจ์ด๊ฐ ์ฌ๋ผ์ง ์ ์๋ค. Conditional ATE ๊ฐ ์ฐ๋ฆฌ๊ฐ ์ํ๋ True casual effect ๊ฐ ๋๋ ๊ฒ์ด๋ค โจ Regression ์์ selection bias ๋ฅผ ์ ๊ฑฐํ๋ ๋ฐฉ๋ฒ
โฏ [์ ๋ฆฌ] Control variable ๋ก selection bias ๋ฅผ ์ ๊ฑฐํ๊ธฐ ์ํ 2๊ฐ์ง ๊ฐ์
1. selection bias ๋ฅผ ๋ชจ๋ ์ค๋ช ํ ์ ์๋ control variable ์ ์๊ณ ์์ด์ผ ํ๋ค.
2. ๊ทธ ๊ด๊ณ๊ฐ ์ด๋ค functional form ์ ๊ฐ์ง๊ณ ์์ด์ผ ํ๋ค. (์์์๋ linear function ์ ๊ฐ์ ํจ)
โจ Control variable ์ ๋ช ์์ ์ผ๋ก ํ๊ท๋ถ์์์ ํต์ ํจ์ผ๋ก์จ ํ๊ท๋ถ์์ ํตํด ์ธ๊ณผ๊ด๊ณ๋ฅผ ํด์ํ ์ ์๋ค.
โฏ Conditional Independence
• Identification assumption : ์ธ๊ณผ์ถ๋ก ์ด ๊ฐ๋ฅํ ๊ฐ์ ์ Identification ๊ฐ์ ์ด๋ผ ๋ถ๋ฅธ๋ค.
• Conditional independence : control variable C ๊ฐ conditioning ๋์ด์๋ ์ํ์์ ์์ธ ๋ณ์์ธ X ์ฌ๋ถ์ ์๊ด์์ด error term ์ธ e์ ํ๊ท ๊ฐ์ด ๋์ผํด์ผ ํ๋ค. ์ฆ, control variable ์ด conditioning ๋์ด์๋ ์ํ์์ ์์ธ๋ณ์์ธ X์ error term ๊ฐ์ ์๊ด๊ด๊ณ๊ฐ ์์ด์ผ ํ๋ค. control variable ์ selection bias ๋ฅผ ์ค๋ช ํ๋ฉด์ conditional independence ๋ฅผ ๊ฐ๋ฅํ๊ฒ ํ๋ค.
• R-squared ๊ฐ ๋๊ณ ๋ฎ์์ ์ธ๊ณผ์ถ๋ก ๊ณผ ์๊ด์๋ค. X์ ์ธ๊ณผ์ ์ธ ํจ๊ณผ์ ๊ด์ฌ์ด ์๊ณ , Control variable ์ ์ญํ ์ R-square ๋ฅผ ๋์ด๋ ๊ฒ์ด ์๋๋ผ, Control variable ์ด treatment ๊ฐ 1์ผ๋์ 0์ผ๋์ ์ฐจ์ด์ธ selection bias ๋ฅผ ์ผ๋ง๋ ์ ์ค๋ช ํ๋์ง ์ฌ๋ถ๊ฐ ์ธ๊ณผ์ถ๋ก ์ด ๊ฐ๋ฅํ์ง์ ๋ํ ์ฌ๋ถ๊ฐ ๋๋ค.
โฏ [์ ๋ฆฌ] ์ธ๊ณผ์ถ๋ก ์ ์ํด ํ๊ท๋ถ์์์ ๊ธฐ์ตํด์ผ ํ 3๊ฐ์ง
1. There should be a clear distinction between causes and controls : Regression ์ ์๋ ์ฐํญ์ ์กด์ฌํ๋ ๋ชจ๋ ๋ ๋ฆฝ๋ณ์๋ค์ด ๋์ผํ ์ญํ ์ ํ๋ ๊ฒ์ ์๋๋ค. ์ธ๊ณผ๊ด๊ณ๋ฅผ ์ถ์ ํ๊ณ ์ ํ๋ ์์ธ๋ณ์์ ๋๋จธ์ง ํต์ ๋ณ์์ ์ญํ ์ ๋ช ํํ ๊ตฌ๋ถํ๋๊ฒ ์ค์ํ๋ค.
2. The role of control variables is to account for the selection bias : ๊ตฌ๋ถํ๋ ๋ชฉ์ ์ ํต์ ๋ณ์์ ์ญํ ์ ๋ํด ํ๋จํ๊ธฐ ์ํจ์ธ๋ฐ, ํต์ ๋ณ์์ ์ญํ ์ selection bias ๋ฅผ ์ผ๋ง๋ ์ ์ค๋ช ํ๋๋์ด๋ค. ํต์ ๋ณ์๋ฅผ conditioning ํ ์ํ์์, treatment ๊ทธ๋ฃน๊ณผ Control ๊ทธ๋ฃน ๊ฐ์ ์ฐจ์ด๊ฐ ์์ด์ apples vs apples (Ceteris Paribus ๋ฅผ ๋ปํ๋ ์ฉ์ด) ๋น๊ต๊ฐ ๊ฐ๋ฅํ๊ฒ ๋ง๋๋ ๊ฒ์ด ํต์ ๋ณ์์ ์ญํ ์ด๋ค.
3. Don't interpret the coefficients of controls in a causal manner : Control variable ์ ๋ํด์๋ ์ธ๊ณผ์ ์ธ ํจ๊ณผ๋ก ํด์ํ์ง ์๋๋ก ์ฃผ์ํด์ผ ํ๋ค. control variable ์ ์ญํ ์ ์์ธ๋ณ์์ธ X์ ๋ํด์ conditional independence ๋ฅผ ๋ง์กฑ์ํค๊ธฐ ์ํ ๋ณด์กฐ์ ์ธ ๋๊ตฌ์ ๋ถ๊ณผํ๊ธฐ ๋๋ฌธ์ด๋ค.
4. Regression is Analogous to Matching
ํ๊ท๋ถ์์ matching ๊ณผ ๋์ผํ๋ค๊ณ ๋ณผ ์ ์๋ค. ํ๊ท๋ถ์์ "automated matchmaker" ์ด๋ค.
'1๏ธโฃ AIโขDS > ๐ฅ Casual inference' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
์ธ๊ณผ์ถ๋ก ์ ๋ฐ์ดํฐ ๊ณผํ - ๋์์ธ ๊ธฐ๋ฐ์ ์ธ๊ณผ์ถ๋ก (0) | 2023.04.24 |
---|---|
์ธ๊ณผ์ถ๋ก ์ ๋ฐ์ดํฐ ๊ณผํ - ๋งค์นญ๊ณผ ์ญํ๋ฅ ๊ฐ์ค์น (1) | 2023.04.21 |
์ธ๊ณผ์ถ๋ก ์ ๋ฐ์ดํฐ ๊ณผํ - ๋ฌด์์ ํต์ ์คํ (0) | 2023.04.21 |
์ธ๊ณผ์ถ๋ก ์ ๋ฐ์ดํฐ ๊ณผํ - ์ ์ฌ์ ๊ฒฐ๊ณผ ํ๋ ์์ํฌ (0) | 2023.04.21 |
The science of price experiments in the Amazon Store (0) | 2023.04.21 |
๋๊ธ