๐ ์ธ๊ณผ์ถ๋ก ๊ฐ์ธ ๊ณต๋ถ์ฉ ํฌ์คํธ ๊ธ์ ๋๋ค. ์ถ์ฒ๋ ์ฒจ๋ถํ ๋งํฌ๋ฅผ ์ฐธ๊ณ ํด์ฃผ์ธ์!
โ ๋๋ฉ์ธ๊ณผ ์ธ๊ณผ์ถ๋ก
โฏ ์ธ๊ณผ์ถ๋ก ์ ๋๋ฉ์ธ์ ์๋น ๋ถ๋ถ ์์กดํ๋ ๋ฐฉ๋ฒ๋ก ์ด๋ค. Outcome ๊ณผ treatment ๊ทธ๋ฆฌ๊ณ confounder (๊ต๋๋ณ์) ๋ฅผ ํ์ ํ๋๋ฐ ์์ด ๋๋ฉ์ธ ์ง์์ ํ์๋ค.
โฏ data-driven ํ๊ฒ ๋ณ์ ๊ฐ ๊ทธ๋ํ ๊ตฌ์กฐ๋ฅผ ์๋ณํ๊ธฐ ์ํ ์๋๋ก causal discovery ๋ผ๋ ๋ฐฉ๋ฒ์ด ์๋ค. ๊ทธ๋ฌ๋ ์ด ๋ฐฉ๋ฒ๋ ์ ์ฝ์ด ์์ผ๋ฉด ์๋ํ๊ธฐ ์ด๋ ต๊ณ , ๋ณ์ ๊ฐ์ ๋ชจ๋ ์กฐํฉ์ ๊ณ ๋ คํ๋ ๊ฒ์ ๊ณ์ฐ๋์ด ๋๋ฌด ๋ง๋ค.
โฏ ์ธ๊ณผ์ถ๋ก : ์คํ/์ฒ์น/ํ๋/์ ์ฑ ์ด ๊ฐ์ ธ์จ ํจ๊ณผ๋ฅผ ์ ๋์ ์ผ๋ก ๋ถ์ → ๋ณ์๋ค ๊ฐ์ ๋ชจ๋ ๊ด๊ณ๋ฅผ ์ ํ์๋ ์๋ค. treatment ๋ฅผ ์ถ์ ํ ๋ ๊ต๋๋ณ์๋ฅผ ๋ณด์ (๋ชจํ์ ์ถ๊ฐ) ํ๋ค๋ ์ฌ์ค์ด ์ค์ํ๋ค. ๋ณ์๋ค ๊ฐ์ ๊ด๊ณ ์์ฒด๋ bias ์ ์ํฅ์ ๋ฏธ์น์ง ์๋๋ค.
โก ๋ชจํ ๊ธฐ๋ฐ์ ๊ต๋๋ณ์ ๋ณด์
โฏ ๋ชจํ์ ๊ธฐ๋ฐ์ผ๋ก ๊ต๋๋ณ์ (์ฒ์น์ ๊ฒฐ๊ณผ ๋์์ ์ํฅ์ ์ฃผ๋ ๋ณ์) ๋ฅผ ๋ณด์ ํ๋ ค๋ฉด, ์ ์ฌ์ ๊ต๋๋ณ์์ ๋์์ ํ์ ํด์ฃผ์ด์ผ ํ๋ค. ๋ณ์๋ค ๊ฐ์ ์๊ฐ์ ์ ํ๊ด๊ณ๋ฅผ ํตํด Pre-treatment covariate ๋ง ๊ฑธ๋ฌ ๋จ๊ฒจ์ฃผ์ด์ผ ํ๋ค.
โฏ ๊ต๋๋ณ์๋ ์ฒ์น์ ๊ฒฐ๊ณผ์ ๋ชจ๋ ์ํฅ์ ์ฃผ๋ ๋ณ์์ด๊ธฐ ๋๋ฌธ์ Outcome Y ์ ๋ํ ๋ชจํ (ex. Lasso ํ๊ท๋ชจํ) ๋ฟ ์๋๋ผ, Treatment ์ ๋ํ ๋ชจํ๋ ๊ณ ๋ คํด์ฃผ์ด์ผ ํ๋ค. ๊ฒฐ๊ณผ์ ์ฒ์น์ ๋ํ ๋ชจํ์ ๋์์ ์ ํฉํ๋ค.
โข ํธ๋ฆฌ ๋ชจํ ๊ธฐ๋ฐ์ ๊ต๋๋ณ์ ๋ณด์
โฏ ๋จธ์ ๋ฌ๋ ๊ธฐ๋ฐ์ ๊ต๋๋ณ์ ๋ณด์ ๋ชจํ์ ์ธ๊ณผํจ๊ณผ์ ๋ํ ์ถ์ ์ ์ ๋ฐํ๊ฒ ์ํํ ์ ์์ง๋ง, ์ด๋ค ๋ณ์๊ฐ ๊ต๋๋ณ์๋ก ์๋ํ๋์ง๋ ์ ์ ์๋ค. ๊ทธ๋ฌ๋ BART (๋ฒ ์ด์ง์ ํธ๋ฆฌ ์์๋ธ ๋ชจํ) (Kim et al., 2023) ์ ์ฌ์ฉํ๋ฉด ์ ํํ ํจ๊ณผ ์ถ์ , ๊ต๋๋ณ์์ผ ํ๋ฅ ๊น์ง ๋์์ ์ํํ๋ ๊ฒ์ด ๊ฐ๋ฅํ๋ค.
โฏ BART ๋ treatment ์ ๋ํ ๋ชจํ๊ณผ outcome ์์ ๋๋ฌด ๋ถ๊ธฐ์ ๋์์ ์ฌ์ฉ๋๋ ๋ณ์๋ค์ ๋ ํฐ ๊ฐ์ค์น๋ฅผ ์ฃผ์ด ํ์ตํ๋ ๋ฐฉ์์ด๋ค. ์ด๋ก์จ ๊ต๋๋ณ์๊ฐ ์๋ ๋ณ์๋ค์ ์ต์ข ๋ชจํ์ ์ ํ ํฌํจ๋์ง ์๊ณ , ๊ต๋๋ณ์ ํน์ outcome ์ ์ํฅ์ ์ฃผ๋ ๋ณ์๋ง ์ ํ๋์ด ์ ํํ ์ธ๊ณผํจ๊ณผ ์ถ์ ์ด ๊ฐ๋ฅํ๋ค.
- Kim, C., Tec, M., and Zigler, C. Bayesian nonparametric adjustment of confounding. Biometrics (2023).
- ํ์ด์ฌ ์์
- R ์์
- R ๋ผ์ด๋ธ๋ฌ๋ฆฌ
โฃ ๋ด๋ด๋ท ๊ธฐ๋ฐ์ ๊ต๋๋ณ์ ๋ณด์
โฏ ๋ํ์ ์ธ ๋ชจํ์ผ๋ก Draggonet (Shi et al., 2019) ์ด ์๋ค. ์ ์ฌ์ ๊ต๋๋ณ์ X๋ค๋ก ๋คํธ์ํฌ๋ฅผ ๊ฑฐ์ณ treatment ์ ๋ํ ์์ธก์ ์ํํ๊ณ , ๋ง๋ค์ด์ง ๊ฐ์ค์น๋ค๋ก ๋ค์ Potential outcome ์ ์์ธกํ๋ ๋ชจํ์ด๋ค. ๋ฐ์ดํฐ ์๊ฐ ์ ์ ๊ฒฝ์ฐ์๋ ์ข์ ์ฑ๋ฅ์ ๊ณ ๋ คํ๊ธฐ ์ด๋ ค์ธ ์ ์๋ค. ๊ด์ธก์น n ์ ๊ฐ์๊ฐ ์ถฉ๋ถํ๋ฉด์ ์ ์ฌ์ ๊ต๋๋ณ์์ ๊ฐ์ p ๊ฐ ๋ง์ ๊ฒฝ์ฐ ์ฌ์ฉํ๋ฉด ์ข๋ค.
- Shi, C., Blei, D., adn Veitch, V. Adapting neural networks for the estimation of treatment effects. In Advances in Neural Information Processing Systems (2019).
- ์ฝ๋
โค BART, ๋ฒ ์ด์ง์ ํธ๋ฆฌ ์์๋ธ ๋ชจ๋ธ๋ง
โฏ Bayesian additive regression trees : ๋๋คํฌ๋ ์คํธ์ ๋ถ์คํ ๊ฐ์ ํธ๋ฆฌ ์์๋ธ ๋ชจํ์ ๋ํ ๋ฒ ์ด์ง์ ๋ฒ์ ์ด๋ค.
โฏ ํธ๋ฆฌ๋ชจํ์ ๋ถ์ฐ (์์ธก์ ๋ถํ์ค์ฑ) ์ ๋ํ ์ ๋ณด๋ฅผ ๋ค๋ฃจ๊ธฐ ์ํด ๋ฒ ์ด์ง์์ ๋์ ํ๋ค. ๋ชจ๋ ๊ณผ์ ์ด deterministic ํ๋ ํธ๋ฆฌ ๋ชจํ๊ณผ ๋ฌ๋ฆฌ ๋ฒ ์ด์ง์ ํธ๋ฆฌ ๋ชจํ์ ๋ชจ๋ ๊ฒฐ์ ์ด stochastic ํ๋ค. tree ๊ฐ ๊น์ด์ง๋ฉด์ ๋ ๋ถ๊ธฐํ ์ง์ ๋ํด ํ๋ฅ ์ ์ผ๋ก ์ ํํ๊ณ , ๋๋ฌด๊ฐ ๊น์ด์ง์๋ก ํด๋น ๋ ธ๋์์ ๋ถ๊ธฐํ ํ๋ฅ ์ ๋ฎ์ถฐ์ฃผ๋ ๋ฐฉ์์ผ๋ก ์๋ํ๋ค.
โฏ ๋ํ ์์ธก๊ฐ์ ์ป๋ ๊ฒ์๋ ์์ด ๊ธฐ์กด ํธ๋ฆฌ๋ชจํ์ y ๊ฐ๋ค์ ํ๊ท ์ ์์ธก๊ฐ์ผ๋ก ์ฌ์ฉํ ๋ฐ๋ฉด, ๋ฒ ์ด์ง์ ํธ๋ฆฌ ๋ชจํ์ y ๊ฐ๋ค์ ํ๊ท ์ ์ค์ฌ์ผ๋ก ๋๋ ์ ๊ท๋ถํฌ์์ ์ํ๋ง์ ์งํํ์ฌ ์ด๋ฅผ ํตํด ์ป์ด์ง ๊ฐ์ ์์ธก๊ฐ์ผ๋ก ์ฌ์ฉํ๋ค. ๋ํ MCMC ๊ณผ์ ์ ํตํด ์ฌํ๋ถํฌ๋ฅผ ๋ฐ๋ฅด๋ ์ํ์ ์ป๊ฒ ๋๋๋ฐ, MCMC ๊ณผ์ ๋ง๋ค ํธ๋ฆฌ๋ฅผ ์ถ๊ฐ์ ์ผ๋ก ๋ถ๊ธฐํ ์ง, ๊ฐ์ง์น๊ธฐ๋ฅผ ์ํํ ์ง, ๋ถ๊ธฐ ๊ธฐ์ค ๋ณ์๋ฅผ ๋ณ๊ฒฝํ ์ง ํ๋ฅ ์ ์ผ๋ก ์ ํํ๋ค.
โป MCMC
โฏ BART ์ ๊ฐ tree ๋ ๋๋ฌด ๊น์ด ๋ถ๊ธฐํ์ง ์๋๋ค. ๋ํ tree ์ ๊ฐ์๊ฐ ์ปค์ง์๋ก ๊ฐ ๋๋ฌด์ ์ํฅ๋ ฅ์ด ๋ ์ฝํด์ง๋๋ก ํต์ ํ๋ ๊ฒ์ด ๊ฐ๋ฅํ๋ค.
โฏ ํ๋ฅ ์ ์ธ ํธ๋ฆฌ๋ฅผ ์์๋ธํจ์ผ๋ก์จ ์์ธก์ ๋ถํ์ค์ฑ์ ๊ณ๋ํ ์ ์๋ค๋ ์ ์ด ์ค์ํ๋ค.
โฏ ์ต๊ทผ ๊ด์ฐฐ๋ฐ์ดํฐ์ ๋ํ ์ธ๊ณผ์ถ๋ก ์ BART ๋ฅผ ์ฌ์ฉํ๋ ๊ฒฝ์ฐ๋ค์ด ๋ง์์ก๋ค.
'1๏ธโฃ AIโขDS > ๐ฅ Casual inference' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[The Brave and True] 1. Introduction to causality (0) | 2023.06.20 |
---|---|
[industry] ์ธ๊ณผ์ถ๋ก ํ์ฉ : Best practice (0) | 2023.06.20 |
[industry] ํ๋ก๋ํธ ์ ๋๋ฆฌํฑ์ค์์์ ์ธ๊ณผ์ถ๋ก ์ ํ์ฉ ์ฌ๋ก์ ํฅํ ๊ณผ์ (0) | 2023.06.01 |
์ธ๊ณผ์ถ๋ก ๊ณผ ๋ฐ์ดํฐ์ฌ์ด์ธ์ค (0) | 2023.05.12 |
[Causal ML] Causal inference ๊ณ ๋ ค๋ ์ฐ๊ณต ์ธ๋ฏธ๋ ๋ด์ฉ์ ๋ฆฌ (0) | 2023.05.07 |
๋๊ธ