์ฐธ๊ณ ์์ : Bootcamp 1-2. ์ธ๊ณผ์ถ๋ก ์ ์ด๋ ค์๊ณผ ์ธ๊ณผ์ถ๋ก ์ ๋ต
1. Challenges in causal inference
• ์๊ด๊ด๊ณ๋ ์ธ๊ณผ๊ด๊ณ๋ฅผ ์๋ฏธํ์ง ์๋๋ค.
โฏ Ex1. ์ต์ ์๊ธ๊ณผ ๊ณ ์ฉ๋ฅ
• ์ธ๊ณผ์ถ๋ก ์ ์ ์ฉํ๊ธฐ ๋งค์ฐ ์ด๋ ค์ด ์ฃผ์ ์ด๊ณ ๊ฐ๋ก ์๋ฐ์ด ๊ณ์ ์ด์ด์ง๋ ์ฃผ์
• ์ต์ ์๊ธ์ ๋ํ ์์ฐ์คํ ์ฐ๊ตฌ
• ์ธ๊ณผ์ถ๋ก ์ฐ๊ตฌ์ ์ฝ์ : external validity and transportability ๋ค๋ฅธ ์ํฉ์ผ๋ก์ ์ ์ฉ
โฏ Ex2. ์ถ์ฒ์์คํ
• ์๊ณ ๋ฆฌ์ฆ์ ์ฑ๊ณผ๋ฅผ ๋์ด๋ ๊ฒ๋ฟ๋ง ์๋๋ผ, ์ด๋ฌํ ์๊ณ ๋ฆฌ์ฆ์ ๋์ ํ์ ๋ ์ค์ง์ ์ธ ์ ํ ํ๋งค ์ฆ๊ฐ๋ก ์ด์ด์ก๋๊ฐ๊ฐ ๋ ์ค์ํ ๊ฒ
• ์ถ์ฒ์์คํ ์ ๊ฐ๋ฐํ๋ ๊ฑด ์๊ณ ๋ฆฌ์ฆ์ ์ธ ๋ฌธ์ ์ง๋ง, ์ด๋ฌํ ์ถ์ฒ์์คํ ์ ๋์ ํ ์ง ๋ง์ง๋ฅผ ๊ฒฐ์ ํ๋ ๊ฒ์ ์ธ๊ณผ์ถ๋ก ๋ฌธ์ ๊ฐ ๋ ์ ์๋ค.
• ์ฌ์ฉ์ A๊ฐ ์ฌ์ฉ์ B์ ํน์ฑ์ด ๋น์ทํ๊ธฐ ๋๋ฌธ์ ์์๋ฅผ B์ ์ถ์ฒํด ์ค ์ ์๋ค. ์ถ์ฒ ์ดํ์, ์ฌ์ฉ์ B๊ฐ ์์๋ฅผ ๊ตฌ๋งคํ๋ค๋ฉด, ์ด๋ ์ถ์ฒ์์คํ ์ ์ธ๊ณผ์ ์ธ ํจ๊ณผ๊ฐ ๋ง์๊น? ์ถ์ฒ์์คํ ๋๋ฌธ์ ํด๋น ๋ฌผํ์ ๊ตฌ๋งคํ ๊ฒ ๋ง์๊น? โจ ๊ทธ๋ ๊ฒ ์ฝ์ง๋ง์ ์์ ๋ฌธ์ !
• Homophily, correlation : ์ถ์ฒ์์คํ ์ด ์ถ์ฒํด์ฃผ์ง ์์์ด๋ ๋ด ๊ณ ์ ์ ์ทจํฅ/ํน์ฑ์ ์ํด ํด๋น ์ ํ์ ๊ตฌ๋งคํ์ ๊ฒ โจ ์ธ๊ณผ๊ด๊ณ๊ฐ ์๋ ์๊ด๊ด๊ณ๋ก ํด์ ๊ฐ๋ฅ
• peer effect, causation : ์น๊ตฌ์ ์๋ชฉ์ ๋ฏฟ๊ณ (ํน์ ์ข์ํ๋ ์ธํ๋ฃจ์ธ์๊ฐ ๊ตฌ๋งคํ๋ ๊ฒ์ ๋ฌด์กฐ๊ฑด ๋ฐ๋ผ์ฌ๋) ๊ตฌ๋งคํ๋ ๊ฒฝ์ฐ๋ โจ ์ธ๊ณผ์ ์ธ ํจ๊ณผ๊ฐ ๋ถ๋ช ํจ
⇒ ์ถ์ฒ์์คํ ์ ํตํ ๊ตฌ๋งค๋ correlation ์ผ๋ก ๋ณผ ์๋ ์๊ณ causation ์ผ๋ก๋ ๋ณผ ์ ์๋ค.
• ๋ทํ๋ฆญ์ค์์ ์งํํ๋ ์คํ : ํ์ฐ์ค์ค๋ธ์นด๋์ ์ ์ฌํ ์ฝํ ์ธ ๋ฅผ ์ถ์ฒํด์ฃผ๋ ํ๋จ ๋ชฉ๋ก์ด ์๊ณ , ํ์ฐ์ค์ค๋ธ์นด๋์ ์ ์ฌ์ฑ์ ์ข ๋จ์ด์ง์ง๋ง ๋์ค์ ์ผ๋ก ์ธ๊ธฐ์๋ ์ฝํ ์ธ ๋ฅผ ์ถ์ฒํด์ฃผ๋ ์๋จ ๋ชฉ๋ก์ด ์์ ๋, ์๊ณ ๋ฆฌ์ฆ์ ์ฑ๋ฅ์ ์๋ ๊ฒ์ด ๋ ๋๊ฒ ๋์์ง๋ง ์ค์ ์๋น์๋ค์๊ฒ ์ ์ฉํ์ ๋๋ ์์ ๋ชฉ๋ก์ด ์ ํ๋ ํ๋ฅ ์ด ๋์๋ค.
• ์ข์ ์ฑ๋ฅ์ ๊ฐ์ง ์ถ์ฒ์์คํ ์ ๊ฐ๋ฐํ๋ ๊ฒ๋ ์ค์ํ์ง๋ง, ํด๋น ์ถ์ฒ์์คํ ์ ๋์ ํ์ ๋, ๋น์ฆ๋์ค ์ฑ๊ณผ๊ฐ ์๋์ง๋ฅผ ์ธ๊ณผ์ถ๋ก ์ ์ผ๋ก ์ดํด๋ณด๋ ๊ฒ ๋ํ ์ค์ํ๋ค.
• ๋ฐ๋ผ์ ๋ทํ๋ฆญ์ค๋ ์๊ณ ๋ฆฌ์ฆ์ ๋์ ํ๊ธฐ ์ ์, ํญ์ A/B test ๋ฅผ ํตํด ์ธ๊ณผ์ ์ธ ํจ๊ณผ๋ฅผ ์ถ๋ก ํ๋ค. ๋๋ถ๋ถ์ IT ๊ธฐ์ ๋ค์ ์๊ณ ๋ฆฌ์ฆ์ ๋์ ํ๊ธฐ ์ ์ A/B test ๋ฅผ ๋ง์ด ํ๋ค. ์ฌํ๊ณผํ ๋ถ์ผ ๋ฟ ์๋๋ผ IT ๋ฑ์ ๋ค์ํ ๋ถ์ผ์์ ์ธ๊ณผ์ถ๋ก ์ด ๋ง์ด ํ์ฉ๋๊ณ ์๋ค.
โฏ Ex3. ๋ฐ๋ ค๋๋ฌผ๊ณผ ์ฐ์ธ์ฆ
• ๋ฐ๋ ค๋๋ฌผ์ ํค์ฐ๋ ์ฌ๋๋ค์ ์ฐ์ธ์ฆ์ด ๋ ๋๊ฒ ๋์์์ โจ ์๋ชป๋ ํด์์ด ๋ ์ ์๋ค.
• ์ฑํฅ์ด ๋น์ทํ ์ฌ๋๋ค๋ผ๋ฆฌ ๊ทธ๋ฃนํ๋ฅผ ํด์ ๊ทธ ์์์ ๋ฐ๋ ค๋๋ฌผ ์ ๋ฌด๋ฅผ ์ดํด๋ดค์ ๋, ๊ฒฐ๊ณผ ํด์์ด ๋ฐ๋ ค๋๋ฌผ์ ํค์ฐ๋ฉด ์ฐ์ธ๊ฐ์ด ๋ฎ์์ง๋ ๊ฒ์ผ๋ก ํ๋นํ๋ค.
• ์ด์ฒ๋ผ ์ด๋ ํ ๊ฐ์ ์ ๋์ ํ ๊ฒ์ธ์ง, ์ด๋ ํ ๋ถ์ ๋ฐฉ๋ฒ๋ก ์ ์ฌ์ฉํ ๊ฒ์ธ์ง์ ๋ฐ๋ผ ๊ฒฐ๊ณผํด์์ด ๋ค๋ฐ๋ ์ ์๋ค.
โฏ Ex4. Treatment effectiveness
• Casual inference ์ ๋ํ framework ์ causal model ์ ๋งค์ฐ ์ค์ํ๋ค. ์ด๋ ํ ๊ฐ์ ์ ๋์ ํ๋์ง, ์ด๋ ํ ๋ถ์๋ฐฉ๋ฒ์ ์ฌ์ฉํ๋์ง์ ๋ฐ๋ผ ๊ฒฐ๊ณผ ํด์์ด ๋ค๋ฐ๋ ์ ์๋ค.
โฏ Ex5. Effectiveness of Paid Search Ads
• ํค์๋ ๊ด๊ณ ๋ฅผ ํ ๊น๋ง๊น : ์ ๋ฃ ๊ฒ์์ ํ๊ณ ์ค๋ ์ ๊ท ๊ณ ๊ฐ์ ๋น์จ๊ณผ ๊ตฌ๋งค ๋น์จ์ ์ดํด๋ณด๊ธฐ โจ ๊ทธ๋ฌ๋ ๊ทธ๋ ๊ฒ ์ฝ๊ฒ ๋ตํ ์ ์๋ ๋ฌธ์ ๋ ์๋๋ค.
• ์๋๋ฆฌ์ค1์ฒ๋ผ ๊ธฐ์ ์ ๊ธฐ์กด ๊ณ ๊ฐ๋ค์ ๊ทธ๋๋ก ์ ์ง๋๋ฉด์ ๊ณ ๊ฐ์ด ์๋์๋ ์ฌ๋๋ค์ ๊ด๊ณ ๋ฅผ ๋ณด๊ณ ์ ์ ๋์ง ์์์๊น ๊ธฐ๋ํจ
• ๊ทธ๋ฌ๋ ๊ธฐ์กด ๊ณ ๊ฐ๋ค์ด ์ด์จ๋ ๊ด๊ณ ๋งํฌ๊ฐ ๋ ์์๋จ์ ์์ผ๋๊น ์์ฐ์ค๋ฝ๊ฒ ๊ทธ ์์ ์๋ ๊ด๊ณ ๋ฅผ ํด๋ฆญํ๊ณ ๋ค์ด์ฌ ์ ์์. ์ด๋ฐ ๊ฒฝ์ฐ์๋, ์์ฐ์ ๋ง์ด ํฌ์ํด๋ ์ ๊ท๊ณ ๊ฐ์ ์ ์นํ์ง ๋ชปํ๊ฒ ๋จ
โจ ๊ทธ๋ฌ๋ ์ด๋ฌํ ๋ ์๋๋ฆฌ์ค๋ฅผ ๋ฐ์ดํฐ ์์์๋ ์ ํ ๊ตฌ๋ถํ ์ ์๋ค.
โฏ Ex5. ์ฌ์ ๋ค๊ฐํ
• ๊ธฐ์ ์์ ๋งค์ฐ ์ค์ํ ์์ฌ๊ฒฐ์
• ์ด๊ธฐ์๋ ์ฌ์ ๋ค๊ฐํ๊ฐ ๊ธฐ์ ๊ฐ์น์ ์์ ์๊ด์ฑ์ ๊ฐ์ง๋ค๋ ์ฐ๊ตฌ ๊ฒฐ๊ณผ๊ฐ ๋๋ถ๋ถ์ด์๋ค. ๊ทธ๋ฌ๋ ์ต๊ทผ ๋ค์ด์ ๋ฐ์ดํฐ ๋ถ์ ๋ฐฉ๋ฒ๋ก ๋ค์ด ๊ฐ์ ๋๋ฉด์, ๋ค์ ๋ถ์์ ํด๋ณด๋, ์ธ๊ณผ๊ด๊ณ ๋ถ์ ๊ฒฐ๊ณผ ์ ํ ๊ด๋ จ์ด ์๊ฑฐ๋ ์คํ๋ ค ์ผ์ ์๊ด์ฑ์ ๋ณด์์ ํ์ธํ๋ค.
• ์๊ธฐ๋ฅผ ๋ง์ดํ ๊ธฐ์ ๋ค์ด ์ฐ์ ๋ค๊ฐํ๋ฅผ ํ๋ ๊ฒฝ์ฐ๊ฐ ๋ง๊ธฐ ๋๋ฌธ์ ์ด๊ธฐ์ ๊ทธ๋ฐ ๊ฒฐ๊ณผ๊ฐ ๋์จ๊ฒ์ด๋ค. (๋ฐฉํฅ์ฑ์ด ๋ฐ๋๋ก ๋ ๊ฒ). ์ด๋ฐ ์์ธ๋ค์ ์ ์ธํ๊ณ ์์ํ ์ธ๊ณผ๊ด๊ณ๋ฅผ ๋ถ์ํด์ผ ํ๋ค.
2. What is Causal inference
• ๋ฐ์ดํฐ๋ถ์ ๋ฐฉ๋ฒ๋ก
• ์ด์ธ์ ๋ชจ๋ ๊ฒ์ ๋ด์์ ์ด๋ค. Endogenous ๊ฐ ์ธ๊ณผ์ถ๋ก ์ ์์ด์ ๊ฐ์ฅ ์ค์ํ ๊ฐ์ ์ด๊ณ ๊ทผ๋ณธ์ ์ธ ์ด๋ ค์์ด๋ค.
• ๊ด์ฌ์๋ ์์ธ๋ณ์ ์ด์ธ์๋, ๊ฒฐ๊ณผ์ ์ํฅ์ ๋ฏธ์น๋ ๊ต๋ ์์ธ๋ค์ด ์๋ก ๋ด์์ ์ผ๋ก ์ฝํ์์ด์, ์ด๋ฅผ ๋ฐํ๊ธฐ๊ฐ ๋งค์ฐ ์ด๋ ต๋ค. ๋ฐ๋ผ์ ์ด๋ฌํ ๋ด์์ฑ์ ํด๊ฒฐํ๋ ๊ฒ (์ ๊ฑฐํ๋ ๊ฒ)์ด ์ธ๊ณผ์ถ๋ก ์ด๋ผ๊ณ ๋ ๋ณผ ์ ์๋ค.
โช ๋ฐ์ดํฐ ์์ฑ ๊ณผ์ ์ ๋ํด์, selection process ๋ฅผ ์ด๋ป๊ฒ ๋ฐ์๋์ง๋ ํ์ ํ๊ธฐ ์ด๋ ค์ : ์ฌ๋ฌํ confounder ์์ธ๋ค์ด ์กด์ฌํ๋ค. ๋ด์์ ์ธ ์์ธ๋ค์ ํ์ ํ๊ธฐ ์ด๋ ต๋ค.
• ์ธ๊ณผ์ถ๋ก ๋ถ์์ Data generation process ๋ฅผ ์ดํดํ๊ณ , ๋ชจ๋ธ๋งํ๊ณ , ๋ถ์ํ๋ ๊ฒ์ด๋ค.
โช ์ฒซ๋ฒ์งธ๋ก ์๊ฐํด๋ณผ ์ ์๋ ์ ๊ทผ์, data generation ์ ์ ์ ์๋ research design ์ ํ์ฉํ๋ ๊ฒ์ด๋ค. ๊ฐ์ฅ ์ฝ๊ฒ ์๊ฐํด๋ณผ ์ ์๋ ๊ฒ์ ์ฐ๊ตฌ์๊ฐ ์ง์ ๋์์ธ ํด๋ณด๋ ๊ฒ! (์คํ ์ํฉ์ ์คํ์๊ฐ ์๋ฒฝํ ํต์ - randomized controlled trial : ๊ทธ๋ฌ๋ ํ์ค์์๋ ์ด๋ฌํ ์์ ํ ํต์ ๊ฐ ์ด๋ ค์), (์์ฐ์คํ/์ค์คํ - ์ฐ๊ตฌ์๊ฐ ํต์ ํ๊ธด ํ๋๋ฐ, ์ ์ฝ์กฐ๊ฑด์ด ์กฐ๊ธ ๋ ์ ์ ๊ฒฝ์ฐ), (LATE - ๊ฐ์์ ์ฐ๊ตฌ ๋์์ธ)
โช Research design ์ ํตํด์ selection ๊ณผ์ ์ด๋ data generation ๊ณผ์ ์ ํต์ ํ๋ค : selection model, causal graph
• ์ฌ๋ฌ๊ฐ์ง ํํ๋ฅผ ๋๋ ๋ด์์ฑ
๋๊ธ