โ [Research Topic] โ
โ Causal Forest ๊ธฐ๋ฒ์ ํ์ฉํด ์ฒ์นํจ๊ณผ๋ฅผ ๊ฒ์ฆ
โ ๊ต๋ด ๋์๋ฆฌ ํ๋ ์ฐธ์ฌ๊ฐ ํ์ ๋ฅ๋ ฅ์ ๋ฏธ์น๋ ํจ๊ณผ ๋ถ์ : ๋์๋ฆฌ ํ๋์ด ํ์ ๋ฅ๋ ฅ์ ๋ฏธ์น๋ ํ๊ท ์ฒ์นํจ๊ณผ (ATE) ๋ฅผ ์ถ์ ํจ๊ณผ ๋์์ ์ฑ๋ณ, ๋๋๊ด๊ณ, ๊ต์ฌ๊ด๊ณ์ ๋ฐ๋ผ ๋์๋ฆฌํ๋์ ํจ๊ณผ๊ฐ ๋ค๋ฅด๊ฒ ๋ํ๋๋์ง (Heterogeneous treatment effects) ๋ ํ์
โ [Introduction] โ
โด ๊ธฐ์กด ์ฐ๊ตฌ ๋ฐฉ์
โ ์ฒ์น๋ค์ ๋ํ ํจ๊ณผ๋ฅผ Randomized experiments ํน์ Observational data ๋ฅผ ์ด์ฉํด ๊ฒ์ฆํ๋ ค๋ ๋ ธ๋ ฅ์ด ์ด๋ฃจ์ด์ง๊ณ ์๋ค. Randomized experiments ๋ ์ฐ๊ตฌ์๊ฐ ์ฒ์น ํ ๋น์ ํ๊ธฐ ๋๋ฌธ์ ์ฐธ์ฌ์์ ์ํ Selection bias ๊ฐ ๋ฐ์ํ์ง ์๋๋ค.
๊ทธ๋ฌ๋ Observational data๋ฅผ ์ฌ์ฉํ๋ ๊ฒฝ์ฐ ์ฐ๊ตฌ์ ์ด์ธ์ ๋ค๋ฅธ ์์๋ค๋ก ์ธํด ์ฒ์น๊ฐ ๊ฒฐ์ ๋๋ฏ๋ก ์ ํํธ์ ๋ฌธ์ ๊ฐ ๋ฐ์ํ๋ค. ์ด๋ฅผ ์์ ๊ธฐ ์ํ ์ฌ๋ฌ ํต๊ณ์ ๋ฐฉ๋ฒ๋ค์ด ์ฌ์ฉ๋๊ณ ์์ผ๋ฉฐ, ๊ทธ์ค ๊ฐ์ฅ ๋ง์ด ์ฌ์ฉ๋๋ ๊ฒ์ด Propensity Score ๋ค. ๊ฐ๊ฐ์ธ์ด ์ฒ์น๋ฅผ ๋ฐ์ ์กฐ๊ฑด์ ํ๋ฅ ์ ๊ณ์ฐํ๋ ๋ฐฉ๋ฒ์ด๋ค. ์ด๋ถํ ์ฒ์น๋ณ์๋ผ๋ฉด ์ผ๋ฐ์ ์ผ๋ก ๋ก์ง์คํฑ ๋ชจํ์ ์ฌ์ฉํด ๊ฒฝํฅ ์ ์๋ฅผ ์ถ์ ํ๋ค.
โต ๋จธ์ ๋ฌ๋ ๋์ ์ด ํ์ํ ์ด์
โ ์ฐ๊ตฌ์๊ฐ ์ฌ์ ์ง์์ ๋ฐํ์ผ๋ก ๊ณต๋ณ์ธ๋ค๊ณผ ์ฒ์น๋ณ์์ ๊ด๊ณ๋ฅผ ์ง์ ๋ชจํ์์ ์ค์ ํ๊ณ , ์ค์ ๋ ๋ชจํ์ ๋ฐํ์ผ๋ก ๊ฒฝํฅ์ ์ ๋ฐ ์ฒ์นํจ๊ณผ๋ฅผ ์ถ์ ํ๋ค. ๊ทธ๋ฌ๋, ์ฌ์ ์ง์๋ง์ผ๋ก ๋ณ์๋ค ๊ฐ์ ๊ด๊ณ๋ฅผ ํ์ ํ๊ธฐ ์ด๋ ค์ด ๊ฒฝ์ฐ๊ฐ ๋ง๋ค. ์ฌ์ ์ฐ๊ตฌ๊ฐ ๋ง์ด ์งํ๋์ง ์์๊ฑฐ๋, ํ๋ณธ์ ํน์์ฑ์ผ๋ก ์ฌ์ ์ง์๊ณผ ์ผ์นํ์ง ์๋๋ค๊ฑฐ๋, ๋ณ์๋ค์ด ๊ณ ์ฐจํญ์ ๊ด๊ณ์ ๊ฐ์ด ๋ณต์กํ ์์์ด๋ผ ๊ฒฐ๊ณผ๋ฅผ ์์ธกํ๊ธฐ ์ด๋ ต๋ค๊ฑฐ๋, ๋ฐ์ดํฐ๊ฐ ๋ฐฉ๋ํด์ ๋ชจ๋ ๋ณ์๋ค ๊ฐ์ ๊ด๊ณ๋ฅผ ํ์ ํ๊ธฐ ์ด๋ ค์ด ๊ฒฝ์ฐ ๋ฑ์ด ์๋ค.
๋ํ ์ ํ ํ๊ท๋ชจํ์ด๋ ๋ก์ง์คํฑ ํ๊ท๋ชจํ ๊ฐ์ ๋ชจ์์ ๋ฐฉ๋ฒ์ ๊ฒฝ์ฐ๋ ๋ณ์๋ค๊ฐ์ ํน์ ํ ๊ด๊ณ๋ฅผ ๋ฏธ๋ฆฌ ๊ฐ์ ํ๊ณ ์ ๋ชจ์๋ฅผ ์ถ์ ํ๊ธฐ ๋๋ฌธ์, ํจ์์ ๊ด๊ณ (ex. ๊ณต๋ณ์ธ๊ณผ ๋ก์ง ๊ฐ์ ์ ํ๊ด๊ณ) ๊ฐ ์ ์ ํ ๋๋ ํจ๊ณผ์ ์ธ ์ถ์ ์ด๊ฒ ์ง๋ง, ๊ทธ๋ ์ง ์๋ค๋ฉด ๋ฐ์ดํฐ ํน์ฑ์ ๋ฐ๋ผ ๋ชจํ์ ์ ์ฐํ๊ฒ ์ ์ฉํ๊ธฐ์๋ ์ ์ฝ์ด ์๋ค.
์ด๋ฌํ ์ํฉ์์ ๋จธ์ ๋ฌ๋ ๊ธฐ๋ฒ์ ์ฌ์ฉํ ์ ์๋ค. ๋ณ์๋ค๊ฐ์ ๋ณต์กํ ๊ด๊ณ๋ฅผ ๋ฐ์ดํฐ ๊ธฐ๋ฐ์ ์๊ณ ๋ฆฌ์ฆ์ ํตํด ์ ์ฐํ๊ฒ ์๋์ ์ผ๋ก ์ค์ ํ ์ ์๋ ์ฅ์ ์ด ์๊ธฐ ๋๋ฌธ์, ์ฐ๊ตฌ์์ ์ฌ์ ์ง์์ด ์ถฉ๋ถํ์ง ์์ ๊ฒฝ์ฐ, ๋ถ์ถฉ๋ถํ ์ฌ์ ์ง์์ผ๋ก ์ค์ ํ ๋ชจํ ๊ฒฐ๊ณผ์๋ง ์์กดํ๋ ๊ฒ ๋ณด๋ค๋ ๋ฐ์ดํฐ ๊ธฐ๋ฐ์ ๋จธ์ ๋ฌ๋ ๋ฐฉ๋ฒ๋ค์ ์ฌ์ฉํ๋ฉด ๋ณด๋ค Robust ํ ์ถ์ ์น๋ฅผ ์ฐ์ถํ ์ ์๋ค.
โถ ๋จธ์ ๋ฌ๋ + ์ธ๊ณผ์ถ๋ก
โ ์ต๊ทผ์ ๊ฐ๋ฐ๋ ๋จธ์ ๋ฌ๋ ๊ธฐ๋ฐ์ ์ธ๊ณผ์ถ๋ก ๋ฐฉ๋ฒ๋ค์ ํ๊ท ์ฒ์นํจ๊ณผ (ATE) ์ ๊ฐ๋ณ/์กฐ๊ฑด์ ํ๊ท ์ฒ์นํจ๊ณผ (CATE) ๋ฅผ ์ถ์ ํ๋๋ฐ ๋ชฉ์ ์ด ์๋ค.
โ Causal Forest, Bayes additive regression trees model (BART ๋ฒ ์ด์ง์ ๊ธฐ๋ฒ ํ๊ท๋๋ฌด ๋ชจํ), Targeted Maximum Likelihood estimation (TMLE ํ์ ์ต๋์ฐ๋ ์ถ์ )
โ ๋จธ์ ๋ฌ๋ ๊ธฐ๋ฐ์ ์ธ๊ณผ์ถ๋ก ๋ฐฉ๋ฒ๋ค์ ์ ์ฐํ๊ฒ ์๋์ ์ผ๋ก ๋ชจํ์ ์ค์ ํ๊ธฐ ๋๋ฌธ์ ์ฐ๊ตฌ์์ ๋ชจํ ์ค์ ์ค๋ฅ๋ก ์ธํด์ ๋ฐ์ํ ์ ์๋ ํธ์๋ฅผ ์ค์ผ ์ ์๋ค. ์ด๋ฌํ ์ฅ์ ์ด ์ฃผ๋ชฉ๋ฐ์ผ๋ฉด์ ๋จธ์ ๋ฌ๋ ์ธ๊ณผ์ถ๋ก ๋ฐฉ๋ฒ์ ํ์ฉํด ์ฒ์นํจ๊ณผ๋ฅผ ๋ถ์ํ๋ ค๋ ์ฐ๊ตฌ๋ค๋ ์ต๊ทผ ํ๋ฐํ ์งํ๋๊ณ ์๋ค.
โ [Theoretical background] โ
โ ๋ชจ์์ ๋ฐฉ๋ฒ๊ณผ ๋ฌ๋ฆฌ ๋จธ์ ๋ฌ๋ ๋ฐฉ๋ฒ๋ค์ Treatment model ๊ณผ Outcome model ์ ํจ์์ ๊ด๊ณ๋ฅผ ๋งค์ฐ ์ ์ฐํ๊ฒ ์๋์ ์ผ๋ก ์ค์ ํ๋ค. ์ธ๊ณผ์ถ๋ก ์ ์ํ ๋จธ์ ๋ฌ๋ ๋ฐฉ๋ฒ๋ค์ ๋จธ์ ๋ฌ๋ ๋ฐฉ๋ฒ์ ์ด์ฉํด ๊ฒฐ๊ณผ ๋ชจํ ๋๋ ์ฒ์น๋ชจํ์ ์ค์ ํ๋ค.
โ Treatment model : ์ฒ์น๋ณ์๊ฐ ์ข ์๋ณ์์ธ ๋ชจํ์ผ๋ก, ๊ฐ๋ น ๊ต๋ด ๋์๋ฆฌํ๋ ์ฐธ์ฌ ์ฌ๋ถ๋ฅผ ์ข ์๋ณ์๋ก ํ๋ ๋ชจํ์ ๋ ์ฌ๋ฆด ์ ์๋ค.
โช ๊ณต๋ณ์ธ์ ์กฐ๊ฑด์ ์ฒ์นํ๊ท e(x) = E[Zi | Xi] ์ผ๋ก ์ถ์ ๋๋ค.
โ Outcome model : ๊ฒฐ๊ณผ๋ณ์๊ฐ ์ข ์๋ณ์์ธ ๋ชจํ์ผ๋ก, ๊ฐ๋ น ํ์ ๋ฅ๋ ฅ์ ์ข ์๋ณ์๋ก ํ๋ ๋ชจํ์ ๋ ์ฌ๋ฆด ์ ์๋ค.
โช ๊ณต๋ณ์ธ๊ณผ ์ฒ์น๋ณ์์ ์กฐ๊ฑด์ ์ข ์ํ๊ท m(x,z) = E[Yi | Xi, Zi] ํน์ ๊ณต๋ณ์ธ๋ง์
์กฐ๊ฑด์ ์ข ์ํ๊ท m(x) = E[Yi | Xi] ๋ก ์ถ์ ๋๋ค.
โ BART๋ ๋ฒ ์ด์ง์ ๊ฐ๋ฒ ํ๊ท๋๋ฌด ๊ธฐ๋ฒ์ ์ฌ์ฉํ์ฌ Outcome model ์ ์ถ์ ํ๊ณ , ์ผ๋ฐ์ ์ผ๋ก Outcome model ๋ง์ผ๋ก CATE ๋ฅผ ๊ณ์ฐํ๋ค.
โ TMLE๋ ์ํผ๋ฌ๋๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ ์์๋ธ ํ์ต ์๊ณ ๋ฆฌ์ฆ์ ์ฌ์ฉํด Outcome model ๋ฐ Treatment model ์ ์ถ์ ํ๊ณ , Treatment ์์ธก ๊ฐ์ ์ด์ฉํ ๋ณ์๋ฅผ Outcome model ์ ์ถ๊ฐ์ ์ธ ๊ณต๋ณ์ธ์ผ๋ก ํฌ์ ํ์ฌ Treatment effect ๋ฅผ ๊ณ์ฐํ๋ค.
โ ์ธ๊ณผ ํฌ๋ ์คํธ๋ Random forest ๊ธฐ๋ฒ์ ์ฌ์ฉํ์ฌ Outcome model ๋ฐ Treatment model ์ ์ถ์ ํ๊ณ , Weighted Linear regression ์ ๊ทผ๋ฒ์ ํตํด CATE ๋ฅผ ๊ณ์ฐํ๋ค.
์ธ๊ณผ ํฌ๋ ์คํธ๋ ๋๋ค ํฌ๋ ์คํธ ์๊ณ ๋ฆฌ์ฆ์ ์์ ํ์ฌ Outcome ๋ฐ Treatment ๋ฅผ ์์ธกํ๊ณ , ์ถ์ ๋ ์์ธก๊ฐ์ ๋ฐํ์ผ๋ก CATE ์ ATE ๋ฅผ ๊ณ์ฐํ๋ค. CATE ๋ฅผ ๊ณ์ฐํ๊ธฐ ์ํด์, ์ธ๊ณผ ํฌ๋ ์คํธ๋ ๊ฐ์ค ์ ํ ํ๊ท ์ ๊ทผ๋ฒ์ ์ฌ์ฉํ๊ณ , ๊ธฐ์กด ๋ณ์๋ค์์ ์์ธก๋ ๊ฐ์ ๋บ ์์ฐจ ๋ณ์๋ค์ ์ด์ฉํ๋ค. Prediction on Outcome ๊ณผ Treatment Estimation ์ ML ์์ ํํ ์ฌ์ฉ๋๋ OOB leave-one-out ๋ฐฉ๋ฒ์ผ๋ก ์ถ์ ๋๋ค. ์ด๋ ํน์ i ๋ฅผ ์ ์ธํ์ฌ ๋ชจํ์ ์ค์ ํ ํ, ์ถ์ ๋ ๋ชจํ์ผ๋ก ํน์ i ์ ๋ํ ์์ธก์น๋ฅผ ๊ณ์ฐํ๋ ๋ฐฉ๋ฒ์ด๋ค. ์๋ ์์ ๋ฐ๋ผ Individual CATE τ(x) ๋ฅผ ๊ณ์ฐํ๋ค.
โช αi(x) : ํน์ i ๊ฐ CATE ๋ฅผ ๊ณ์ฐํ๋๋ฐ ๋ฏธ์น๋ ๊ณตํ๋ 0~1 ์ฌ์ด์ ๊ฐ
โช - i : leave one out ๋ฐฉ๋ฒ์ ๋ปํจ
โช m(X), e(X) : Athey ๊ฐ ์ ์ํ Honest Random forest ๋ฅผ ํตํด ๊ฐ์ด ์ถ์ ๋๋ค. Honesty ๋ ์ธ๊ณผ ํฌ๋ ์คํธ์ ์ค์ํ ํน์ฑ์ผ๋ก, Tree ํน์ฑ ์ค ํ๋๋ผ๊ณ ๋ณผ ์ ์๋๋ฐ, Tree ๋ชจํ์ ์ค์ ํ๋๋ฐ ์ฌ์ฉ๋ ์๋ฃ๋ Tree ์ ๊ฐ Leaf ์์ Treatment effect ๋ฅผ ๊ณ์ฐํ๋ ๋ฐ๋ ์ฌ์ฉ๋์ง ์๋๋ค๋ ๊ฒ์ ์๋ฏธํ๋ค.
โช ATE ๋ Individual CATE ๋ฅผ ํ๊ท ํ์ฌ ๊ณ์ฐํ๋ค.
โป OOB : ์ฃผ๋ก ๋๋ค ํฌ๋ ์คํธ์ ๊ฐ์ ์์๋ธ ํ์ต ๊ธฐ๋ฒ์์ ์ฌ์ฉ๋๋ ๊ต์ฐจ ๊ฒ์ฆ ๋ฐฉ๋ฒ ์ค ํ๋์ ๋๋ค. ์ด ๋ฐฉ๋ฒ์ ๋ชจ๋ธ์ ํ๋ จํ ๋ ์ผ๋ถ ์ํ์ ์ ์ธํ๊ณ ํ ์คํธํ๋ ๊ฒ์ ์๋ฏธํฉ๋๋ค. ์ด๋ฅผ ํตํด ๊ฐ ์ํ์ด ํ๋ จ์ ์ผ๋ง๋ ๊ธฐ์ฌํ๋์ง๋ฅผ ํ๊ฐํ ์ ์์ต๋๋ค. ๊ฐ ๋ฐ์ดํฐ ํฌ์ธํธ๊ฐ ๋ชจ๋ธ์ ์ผ๋ง๋ ์ค์ํ์ง๋ฅผ ํ๊ฐํ ์ ์์ต๋๋ค.
โ [Methods] โ
โ Variable Definition : ์กฐ์ฌ์์ ๊ธฐ์ค ์ง๋ 1๋ ๋์ ๋์๋ฆฌ์ ํ ๋ฒ์ด๋ผ๋ ์ฐธ์ฌํ ๊ฒฝ์ฐ์๋ ์ฐธ์ฌ์ง๋จ (์ฒ์น์ง๋จ) ์ผ๋ก, ์ฐธ์ฌํ์ง ์์ ๊ฒฝ์ฐ์๋ ๋น์ฐธ์ฌ์ง๋จ (ํต์ ์ง๋จ) ์ผ๋ก ๊ตฌ๋ถํ์๋ค. ๊ฒฐ๊ณผ๋ณ์์ธ ํ์ ๋ฅ๋ ฅ์ ๋ฆฌ์ปคํธ ์ฒ๋๋ฅผ ๊ธฐ์ค์ผ๋ก ์ ์๋ก ์ธก์ ๋์๋ค. ๊ณต๋ณ์ธ์ผ๋ก๋ ์ฑ๋ณ, ํ์ ํน์ฑ, ์ ์ํน์ , ์ฌํํน์ฑ, ๋ถ๋ชจํน์ฑ, ํ๊ตํน์ฑ ๋ฑ์ ํฌ์ ํด ํต์ ํ์๋ค.
โ Program : R ํ๋ก๊ทธ๋จ ํจํค์ง grf ๋ฅผ ์ฌ์ฉํ์๋ค. causal_forest ํจ์์ ์ฒ์น๋ณ์, ๊ฒฐ๊ณผ๋ณ์, ๊ณต๋ณ์ธ์ ํฌ์ ํด Individual/Conditional Treatment effect ์ถ์ ์น๋ฅผ ์ฐ์ถํ์๋ค. ๊ทธ๋ฆฌ๊ณ ํจ์ best_linear_projection ์ ์ฌ์ฉํด Individual/Conditional Treatment effect ์ถ์ ์น๋ฅผ ๋ฐํ์ผ๋ก ATE (ํ๊ท ์ฒ์นํจ๊ณผ) ์ ํ์๋ค์ ํน์ฑ (์ฑ๋ณ, ๋๋๊ด๊ณ, ๊ต์ฌ๊ด๊ณ) ์ ๋ฐ๋ฅธ ์ฐจ๋ณ์ ์ฒ์นํจ๊ณผ๋ฅผ ๋ถ์ํ์๋ค.
โ [Results] โ
โ ATE
โช 2.891 : ๊ณต๋ณ์ธ ํต์ ์ , ์ฒ์น์ง๋จ๊ณผ ํต์ ์ง๋จ์ ํ์ ๋ฅ๋ ฅ ์ ์ ์ฐจ์ด
โช 0.069 : ๊ณต๋ณ์ธ ํต์ ํ, ์ฒ์น์ง๋จ๊ณผ ํต์ ์ง๋จ์ ํ์ ๋ฅ๋ ฅ ์ ์ ์ฐจ์ด
โ Individual CATE
โช ์ ์ : ATE
โ Heterogeneous treatment effects
โช ํต๊ณ์ ์ผ๋ก ์ ์ํ ์ฐจ๋ณ์ ์ฒ์นํจ๊ณผ๋ ๋ฐ๊ฒฌ๋์ง ์์๋ค.
โช ๋นจ๊ฐ์ : ํ๊ท ๊ฐ . ์ฑ๋ณ์ ๋ฐ๋ผ ์ฒ์นํจ๊ณผ ๋ถํฌ์ ํฐ ์ฐจ์ด๊ฐ ๋ํ๋์ง ์์
โช ๋๋์์ ๊ด๊ณ, ๊ต์ฌ์์ ๊ด๊ณ์ ๋ฐ๋ฅธ ๊ฐ ์กฐ๊ฑด์์์ ์ฒ์นํจ๊ณผ ํ๊ท ๊ฐ (tau) ํฌ๊ธฐ๊ฐ ํด์๋ก ๋ ์ง์ ์์ผ๋ก ํํ๋จ. ์ฒ์นํจ๊ณผ๊ฐ ๋๋ ทํ๊ฒ ๋ค๋ฅธ ํจํด์ ๋ณด์ด์ง๋ ์์
'2๏ธโฃ Study > ๐ ๋ ผ๋ฌธ์ฝ๊ธฐ' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[DiD, Matching] Popularity or Proximity (0) | 2023.07.02 |
---|---|
Graph Clustering with Graph Neural Networks (2020) (1) | 2022.12.23 |
DeepWalk (1) | 2022.11.03 |
์ฑ ๋ฆฌ๋ทฐ ๋ถ์์ ๊ดํ ๋ ผ๋ฌธ ์ ๋ฆฌ โข (0) | 2022.06.16 |
์ฑ ๋ฆฌ๋ทฐ ๋ถ์์ ๊ดํ ๋ ผ๋ฌธ ์ ๋ฆฌ โก (0) | 2022.06.15 |
๋๊ธ