๐ ์ธ๊ณผ์ถ๋ก ๊ฐ์ธ ๊ณต๋ถ์ฉ ํฌ์คํธ ๊ธ์ ๋๋ค. ์ถ์ฒ๋ ์ฒจ๋ถํ ๋งํฌ๋ฅผ ์ฐธ๊ณ ํด์ฃผ์ธ์!
โ ์ธ๊ณผ์ ๋ํด ์๊ฐํด๋ณด๊ธฐ
โฏ Potential outcome ์ ๋ํ ์กฐ๊ฑด๋ถ ๋ ๋ฆฝ ๊ฐ์
• ์กฐ๊ฑด๋ถ ๋ ๋ฆฝ ๊ฐ์ ์ ์ค์ง ์ฒ์น์ ์ํ ํจ๊ณผ๋ฅผ ์ธก์ ํ ์ ์๊ฒ ํ๋ค
• X์ ๋ํ conditioning : ๊ฐ๋ น ์ฝ์ ์ฒ๋ฐฉํ ๋, ์ฌ๊ฐํ ์ผ์ด์ค์ ํ์์ ๋ ์ฌ๊ฐํ ์ผ์ด์ค์ ํ์๋ก ํ์ ๊ทธ๋ฃน์ ๋๋๊ณ ์ฝ์ ํจ๊ณผ๋ฅผ ๋ถ์ํ๋ค๋ฉด ๋ ๋ช ํํ ๊ทธ๋ฆผ์ ์ป์ ์ ์๋ค.
โฏ ์ธ๊ณผ ๊ทธ๋ํ ๋ชจํ
โก ๊ทธ๋ํ ๋ชจ๋ธ
• [์ฐธ๊ณ ] Coursera Stanford ๊ฐ์ : Probabilistic Graphical models
• ๊ทธ๋ํ ๋ชจํ์ด ์๋ฐํ๋ ๋ ๋ฆฝ์ฑ๊ณผ ์กฐ๊ฑด๋ถ ๋ ๋ฆฝ์ฑ ๊ฐ์ ์ด ๋ฌด์์ธ์ง์ ๋ํด ์ดํดํ๋ ๊ฒ์ด ๋งค์ฐ ์ค์ํ๋ค.
โฏ Blocked
• Y๊ฐ ์กฐ๊ฑดํ ๋์์ ๋, X์ Z๋ ์๋ก ๋ ๋ฆฝ์ด๋ค.
• ๋งค๊ฐ๋ณ์ B๋ฅผ ์กฐ๊ฑดํ ํ๋ฉด A์์ C๋ก ํฅํ๋ ์ง์ ์ ํ๋ฅด๋ ์์กด์ฑ์ด ์ฐจ๋จ๋๋ค : A⊥C | B : blocked
โฏ Fork
• ํ ๋ณ์๊ฐ ๋ ๊ฐ์ ๋ค๋ฅธ ๋ณ์์ ์์ธ์ด ๋๋ ๊ฒฝ์ฐ, ์์กด์ฑ์ ํ์ดํ์ ์ญ๋ฐฉํฅ์ผ๋ก ํ๋ฅด๊ณ ์ด๋ฅผ backdoor path ๋ผ ๋ถ๋ฅธ๋ค.
• ํต๊ณํ ์ง์์ด ์ธ๊ณผ์ถ๋ก ๊ณผ ๊ธฐ๊ณํ์ต์ ๋ํด ๋ ์ ์๊ฒํ๋ ์์ธ์ด ๋๋ค๊ณ ํด๋ณด์. ๋ง์ฝ ํน์ ํ์์ ํต๊ณํ ์ง์์ ์์ค์ ๋ํด ์ ์์ง ๋ชปํ๋ค๊ณ ํ๊ณ , ์ธ๊ณผ์ถ๋ก ์ ๋ฅํ๋ค๋ ๊ฒ์ ์๊ณ ์๋ค๋ฉด ๊ธฐ๊ณํ์ต์ ์ ํ ๊ฒ์ด๋ผ๊ณ ์ฌ๊ธธ ๊ฒ์ด๋ค. ๊ทธ๋ฌ๋ ์ด๋ ํต๊ณํ ์ง์์ ์กฐ๊ฑดํ ์ํจ๋ค๋ฉด, ๊ธฐ๊ณํ์ต์ ๋ํ ์ง์๊ณผ ์ธ๊ณผ์ถ๋ก ์ ๋ํ ์ง์์ ๋ ๋ฆฝ์ด ๋๋ค.
• A⊥B | C
โฏ Collider
• ๋ ๊ฐ์ ํ์ดํ๊ฐ ํ๋์ ๋ณ์์์ ์ถฉ๋ํ๋ ๊ฒฝ์ฐ
• ์น์ง์ ํ๊ธฐ ์ํ ๋ ๊ฐ์ ๊ธธ๋ก, ํต๊ณํ์ ์ํ๊ฑฐ๋ ์์ฒจ์ ์ํ๋ ๊ฒ์ด ์๋ค๊ณ ํด๋ณด์. ๋ง์ฝ ์น์ง์ ๋ํด ์กฐ๊ฑดํํ์ง ์๋๋ค๋ฉด, ์น์ง ํ ์ง ์ํ ์ง ์ ํ ์ ์ ์๊ณ , ํต๊ณํ ์์ค๊ณผ ์์ฒจํ๋ ๊ฒ์ ์๋ก ๋ ๋ฆฝ์ด ๋๋ค. ์ฆ, ํต๊ณํ์ ์ํ๋์ง ์๋ ๊ฒ์ ์์ฌ์๊ฒ ์์ฒจ์ ์ผ๋ง๋ ์ํ๋์ง์ ๋ํด ์๋ ค์ฃผ๋ ๋ฐ๊ฐ ์๋ค. ํํธ ๋ง์ฝ ์น์งํ๋ค๋ฉด (์กฐ๊ฑดํ ํ๋ค๋ฉด), ํต๊ณํ ์์ค์ ์๋ ๊ฒ์ ์์ฒจ ์์ค์ ๋ํด์๋ ๋งํด์ค ์ ์๋ค. ํต๊ณ๋ฅผ ์ ๋ชปํ๋๋ฐ ์น์งํ๋ค๋ฉด, ์์ฒจ์ ์ํ๋ ์ฌ๋์ด์ด์ ์น์งํ๋ค๊ณ ๋ณผ ์ ์๋ค (๋ฐ๋๋ ๋ง์ฐฌ๊ฐ์ง)
• collider ์ ๋ํด ์กฐ๊ฑดํ ํ๋ ๊ฒ์ dependence path ๋ฅผ ์ด์ด์ค๋ค : A⊥B
→ C (์น์ง) ์ ์กฐ๊ฑดํ ํ๋ค๋ฉด, A (ํต๊ณ๋ฅผ ์ํ๋๊ฑฐ) ์ B (์์ฒจ์ ์ํ๋๊ฑฐ) ๋ ์์กด์ด ๋๋ค.
โฏ ๊ทธ๋ํ์์ ๋ ๋ฆฝ์ฑ๊ณผ ์์กด์ฑ์ ๋ํ๋ด๋ ๊ทธ๋ฆผ
โข ๊ต๋ํธํฅ : Confounding Bias
• ์ธ๊ณผ ๊ทธ๋ํ ๋ชจํ์ ์ธ๊ณผ์ถ๋ก ์์ ๋ฐ์ํ๋ ํธํฅ์ ๋ฐ๊ฒฌํ๋ ๋๊ตฌ๊ฐ ๋๋ค.
• ํธํฅ์ ์ค์ํ ์์ธ ์ค ์ฒซ๋ฒ์งธ๋ ๊ต๋๋ณ์ (confounding) ์ด๋ค. Confounder ๋ Treatment ์ Outcome ๋ชจ๋๊ฐ X (์์ธ) ์ ์ํด ์ํฅ์ ๋ฐ์ ๋ ๋ฐ์ํ๋ค.
โช ex. T : ๊ต์ก, Y : ์๊ธ, X : ์ง๋ฅ โจ ๊ต์ก ๋ฐ์ ์ฌ๋๋ค์ด ๋๋ํ๊ธฐ ๋๋ฌธ์ ๋ ๋ง์ ๋์ ๋ฒ๋ ๊ฒ์ธ์ง, ๊ต์ก์ ๋ ๋ฐ์ ๊ฒ ๋๋ฌธ์ ์๊ธ์ด ๋์์ง ๊ฒ์ ์๋๋ผ๊ณ ์ฃผ์ฅํ ์ ์๋ค.
• ์ธ๊ณผํจ๊ณผ๋ฅผ ๊ท๋ช ํ๋ ค๋ฉด ์ฒ์น์ ๊ฒฐ๊ณผ ์ฌ์ด์ ๋ชจ๋ backdoor path ๋ฅผ ๋ง์์ผ ํ๋ค : T → Y
โช ex. ์ง๋ฅ ์์ค์ ํต์ ํ ์ ์๋ค๋ฉด, ์ฆ, ๋์ผ ์์ค์ ์ง๋ฅ์ ๊ฐ์ง์ง๋ง ๊ต์ก ์์ค์ด ๋ค๋ฅธ ์ฌ๋๋ค์ ๋น๊ต ํ๋ค๋ฉด ์๊ธ ์ฐจ์ด์ ๊ฒฐ๊ณผ๋ ์ค์ง ๊ต์ก ์์ค์ ์ฐจ์ด์ ์ํด ๊ฒฐ์ ๋ ๊ฒ์ด๋ค.
• ๊ทธ๋ฌ๋ ๋ชจ๋ ๊ณตํต ์์ธ์ ํญ์ ํต์ ํ ์ ์๋ ๊ฒ์ ์๋๋ค. ๊ฐ๋ ์๋ ค์ง์ง ์์ ์์ธ, ์ธก์ ํ ์ ์๋ (์์ ์์์์ ์ง๋ฅ๊ณผ ๊ฐ์ ๋ณ์ = U ๋ก ํ๊ธฐ) ์์ธ๋ ์๋ค.
• ์ฌ๊ธฐ์ ์ธก์ ํ ์ ์๋ ์ง๋ฅ ๋์ ์, SAT ์ํ์ ์ (= Proxy) ๋ฅผ ํต์ ํ ์๋ ์๋ค. ์ง๋ฅ์ด SAT ์ํ์์ ์ข์ ์ ์๋ฅผ ๋ฐ๋๋ฐ์ ์ํฅ์ ๋ฏธ์น๊ณ SAT ์ ์ข์ ๋ํ์ ๊ฐ ๊ฐ๋ฅ์ฑ์ ์ด์ด ๊ต์ก ์์ค์ ๊ฒฐ์ ํ๋ค. ์์ ๊ทธ๋ํ์์ X1๊ณผ X2 ํน์ SAT ๊ณผ ๊ฐ์กฑ์ ์๋์์ค์ ๋ํด ์กฐ๊ฑดํ ํ๋ ๊ฒ์ ์ฒ์น์ ๊ฒฐ๊ณผ ์ฌ์ด์ backdoor path ๋ฅผ ๋ง๊ธฐ์ ์ถฉ๋ถํ๋ค โจ (Y0, Y1) ⊥ T | X1, X2
• ๋ชจ๋ ๊ณตํต์ ์์ธ์ ๋ค ์ธก์ ํ์ง๋ ๋ชปํ์ง๋ง, ์ธก์ ๋ถ๊ฐ๋ฅํ ๋ณ์๋ค์ด ์ฒ์น์ ๋ฏธ์น๋ ์ํฅ์ ๋งค๊ฐํ๋ ์ธก์ ๊ฐ๋ฅํ ๋ณ์๋ค์ ํตํด ์กฐ๊ฑด๋ถ ๋ ๋ฆฝ์ ๋ฌ์ฑํ ์ ์๋ค.
• ๋ง์ฝ, ์ธก์ ๋ถ๊ฐ๋ฅํ ๋ณ์๊ฐ ์ฒ์น์ ๊ฒฐ๊ณผ์ "์ง์ ์ ์ธ" ์์ธ์ ๊ฐ์ง๋ค๋ฉด ์ด๋ป๊ฒ ๋ ๊น : ๊ต๋ ๋ณ์์ proxy ๊ฐ ๋๋ ๋ค๋ฅธ ์ธก์ ๋ณ์๋ค์ด ์๋ค. ์๋ ๊ทธ๋ํ์ ๊ฐ์ ๊ฒฝ์ฐ์์ backdoor path ์ ์์ง๋ ์์ง๋ง, ์ด๋ฐ ๋ณ์๋ค์ ํต์ ํ๋ ๊ฒ ์์ฒด๊ฐ ํธํฅ์ ์ค์ด๋๋ฐ์๋ ๋์์ด ๋๋ค. ์ด๋ฌํ ๋ณ์๋ค์ ๋๋ฆฌ ๊ต๋ ๋ณ์ (surrogate confounders) ๋ผ๊ณ ๋ ๋ถ๋ฅธ๋ค. ๋๋ฆฌ๋ณ์๋ค์ ํต์ ํ๋ ๊ฒ์ ํธํฅ์ ์์ ์ ๊ฑฐํ์ง ๋ชปํ์ง๋ง ๋์์ ๋๋ค.
โฃ ์ ํํธํฅ : Selection bias
• ๊ทธ๋ ๋ค๋ฉด, Confounding bias ๋ฅผ ์ ๊ฑฐํ๊ธฐ ์ํด ์ธก์ ๊ฐ๋ฅํ ๋ชจ๋ ๋ณ์๋ฅผ ๋ชจ๋ธ์ ์ถ๊ฐํ๋ ๊ฒ์ด ์ข์ ์์ด๋์ด๋ผ๊ณ ์๊ฐํด๋ณผ ์ ์๋ค → ๋น์ฐํ ์๋๋ค!
• ํธํฅ์ ๋ฐ์์ํค๋ ๋ ๋ฒ์งธ ์ค์ํ ์์ธ์ "Selection bias" ๋ค. ๊ต๋ ํธํฅ์ด ๊ณตํต ์์ธ์ ํต์ ํ์ง ์์ ๋ ๋ฐ์ํ๋ ๊ฒ์ด๋ผ๋ฉด, ์ ํ ํธํฅ์ ๊ทธ๊ฒ์ ํจ๊ณผ์ ๋ ๊ด๋ จ์ด ์๋ค.
• Randomized experiment ๊ฐ ๊ฐ๋ฅํ ์ํฉ์์ ๊ต์ก์ด ์๊ธ์ ๋ฏธ์น๋ ์ํฅ์ ์ธก์ ํ๋ค๊ณ ๊ฐ์ ํด๋ณด์. ๊ต๋์ ์ ๊ฑฐํ๊ธฐ ์ํด ์ฌ๋ฌ ๋ณ์๋ฅผ ํต์ ํ๋ค๊ณ ํ ๋, "ํฌ์" ๋ณ์๋ฅผ ํต์ ํ๋ค๊ณ ํด๋ณด์. ๊ทธ๋ฌ๋ ํฌ์ ๋ณ์๋ ๊ต์ก๊ณผ ์๊ธ์ ๊ณตํต ์์ธ์ด ๋์ง ์๋๋ค. ์ฌ์ค ๊ฒฐ๊ณผ์ ๊ฐ๊น์ด ๋ณ์์ด๋ค. ์ฆ, Collider ์ ๊ฐ๊น์ด ๋ณ์์ด๊ธฐ ๋๋ฌธ์ ์ด๋ฅผ ์กฐ๊ฑดํ ํ๋ค๋ฉด Treatment ์ Outcome ์ฌ์ด์ ๋ ๋ค๋ฅธ ๊ฒฝ๋ก๋ฅผ ์ด๊ฒ ๋๊ณ ๋ฐ๋ผ์ ์ง์ ์ ์ธ ์ธก์ ์ ํ๊ธฐ๊ฐ ๋ ์ด๋ ค์์ง๋ค.
• ๋น์ทํ ์ํฉ์ผ๋ก ๋งค๊ฐ๋ณ์๋ฅผ ์กฐ๊ฑดํ ํ ๋์๋ selection bias ๊ฐ ๋ฐ์ํ๋ค. ๋งค๊ฐ๋ณ์๋, ์ฒ์น์ ๊ฒฐ๊ณผ ์ฌ์ด์ ์กด์ฌํ๋ ๋ณ์๋ก ์ธ๊ณผ์ ํจ๊ณผ๋ฅผ ๋งค๊ฐํ๋ค. ๊ฐ๋ น ๋งค๊ฐ๋ณ์๊ฐ ํ์ดํธ์นผ๋ผ ์ง์ ์ ์ฌ๋ถ๋ผ๊ณ ํ๋ค๋ฉด, Treatment ์ ์์ฉํ๋ ์ฑ๋ ์ค ํ๋๋ฅผ ๋ง์๋ฒ๋ฆฐ๋ค. ๋งค๊ฐ๋ณ์๋ฅผ ์กฐ๊ฑดํ ์ํจ๋ค๋ฉด ์์ ํธํฅ์ ์ผ์ผ์ผ ๊ต์ก์ ํจ๊ณผ๋ฅผ ์ค์ ๋ณด๋ค ๋ ์๊ฒ ๋ง๋ ๋ค. (์ฌ๊ธฐ์๋ ์ธ๊ณผ ํจ๊ณผ๊ฐ ๊ต์ก์ ๋ ๋ง์ด ๋ฐ์ผ๋ฉด ์๊ธ์ด ๋์์ง๋ค๋ ์์์ด๊ธฐ ๋๋ฌธ์ ์์ ํธํฅ์ ๋ฐ์์ํจ๋ค๊ณ ํด์ํ๋ค. ๋ง์ฝ ํจ๊ณผ๊ฐ ์์ ๊ฒฝ์ฐ์๋ ๋งค๊ฐ๋ณ์์ ๋ํ ์กฐ๊ฑดํ๊ฐ ์์ ํธํฅ์ ๊ฐ์ง๋ค๊ณ ์ด์ผ๊ธฐ ํ๋ค) ๋ชจ๋ ์ด๋ฌํ ์ข ๋ฅ์ ์กฐ๊ฑดํ๋ ํจ๊ณผ๋ฅผ ์ค์ ๋ณด๋ค ์ฝํ๊ฒ ๋ณด์ด๊ฒ ๋ง๋ ๋ค.
๐ ํต์ฌ ์ ๋ฆฌ
โ ๊ทธ๋ํ์์ ์กฐ๊ฑด๋ถ ํ๋ฅ ์ ๊ท์น
โก ํธํฅ์ผ๋ก ์ด์ด์ง ์ ์๋ 3๊ฐ์ง ๊ตฌ์กฐ
• Confounding : ์ฒ์น์ ๊ฒฐ๊ณผ๊ฐ ์ฐ๋ฆฌ๊ฐ ๊ณ์ฐํ๊ฑฐ๋ ํต์ ํ ์ ์๋ ๊ณตํต์ ์์ธ์ ๊ฐ์ง๊ณ ์์ ๋ ๋ฐ์
• Selection bias : ๋์ผํ ํจ๊ณผ์ ๋ํ ์กฐ๊ฑดํ๋ก ์ธํด ๋ฐ์ ( conditioning on a common effect )
• Selection bias ์ ํ ํํ๋ก ๋งค๊ฐ๋ณ์์ ๋ํ ๊ณผ๋ํ ํต์ ๋ก ๋ฐ์
๋๊ธ