๋ณธ๋ฌธ ๋ฐ”๋กœ๊ฐ€๊ธฐ
1๏ธโƒฃ AI•DS/๐ŸฅŽ Casual inference

[Causal ML] Causal inference ๊ณ ๋ ค๋Œ€ ์‚ฐ๊ณต ์„ธ๋ฏธ๋‚˜ ๋‚ด์šฉ์ •๋ฆฌ

by isdawell 2023. 5. 7.
728x90

 

•  ๋ณธ๋ฌธ ๋‚ด์šฉ์— ๋Œ€ํ•œ ์ถœ์ฒ˜ 

 

 

 

โ‘  ์ƒ๊ด€๊ด€๊ณ„์™€ ์ธ๊ณผ๊ด€๊ณ„ 


 

โ—ฏ ์ƒ๊ด€๊ด€๊ณ„์™€ ์ธ๊ณผ๊ด€๊ณ„ 

 

•  ์ƒ๊ด€๊ด€๊ณ„ : ํ†ต๊ณ„์  ๋ณ€์ˆ˜์™€ ๋‹ค๋ฅธ ๋ณ€์ˆ˜๋“ค์ด covariance (๊ณต๋ณ€) ํ•˜๋Š” ๊ด€๊ณ„ โ‡จ ์˜ˆ์ธก ๋ชฉ์  

•  ์ธ๊ณผ๊ด€๊ณ„ : ์„ ํ–‰ํ•˜๋Š” ํ•œ ๋ณ€์ˆ˜๊ฐ€ ํ›„ํ–‰ํ•˜๋Š” ๋‹ค๋ฅธ ๋ณ€์ˆ˜์˜ ์›์ธ์ด ๋˜๊ณ  ์žˆ๋‹ค๊ณ  ๋ฏฟ์–ด์ง€๋Š” ๊ด€๊ณ„ โ‡จ ์›์ธ์„ค๋ช… ๋ชฉ์  

•  AI ๋Š” ๋ฐ์ดํ„ฐ์˜ ์ƒ๊ด€๊ด€๊ณ„ ํŒจํ„ด์„ ํ•™์Šตํ•œ๋‹ค. ์™ธ๋ถ€ ํ™˜๊ฒฝ์— ๋”ฐ๋ฅธ ๋ฐ์ดํ„ฐ์˜ ๋ณ€ํ™”๋‚˜ ํŒจํ„ด ๋ณ€ํ™”๊ฐ€ ์ ์€ ๋ถ„์•ผ์—์„œ๋Š” ์ƒ๊ด€๊ด€๊ณ„๋ฅผ ํ•™์Šตํ•˜๋Š” ๊ฒƒ๋งŒ์œผ๋กœ๋„ ์„ฑ๋Šฅ์ด ๋›ฐ์–ด๋‚˜๋‹ค (NLP, vision, collaboration filtering) 

•  ๊ทธ๋Ÿฌ๋‚˜ ์™œ ๊ทธ๋Ÿฌํ•œ ๊ฒฐ๊ณผ๊ฐ€ ๋‚˜์™”๋Š”์ง€์— ๋Œ€ํ•ด์„œ๋Š” ์„ค๋ช…ํ•˜์ง€ ๋ชปํ•œ๋‹ค. 

 

 

โ—ฏ ์˜ˆ์‹œ 

 

•  ๊ตฌ๋…๊ฐฑ์‹ ์—ฌ๋ถ€๋ฅผ ์˜ˆ์ธกํ•˜๋Š” ๋ชจ๋ธ๋ง์„ ์ง„ํ–‰ํ•œ ํ›„ SHAP ๊ธฐ๋ฐ˜์˜ ๋ณ€์ˆ˜ ์ค‘์š”๋„๋ฅผ ๊ทธ๋ ค๋ณธ ๊ทธ๋ฆผ์€ ์•„๋ž˜์™€ ๊ฐ™๋‹ค. ๊ด‘๊ณ ์ง€์ถœ, ๋ฒ„๊ทธ ๋ฆฌํฌํŠธ, ๊ตฌ๋…ํ• ์ธ์ด ์˜ˆ์ธก์— ์ค‘์š”ํ•œ ๋ณ€์ˆ˜๋กœ ๋‚˜์™”๋‹ค. 

 

 

 

 

•  ๊ทธ๋Ÿฌ๋‚˜ EconML ์„ ํ™œ์šฉํ•ด์„œ ์ธ๊ณผ๊ด€๊ณ„๋ฅผ ์‚ดํŽด๋ณธ ๊ฒฐ๊ณผ, ๊ตฌ๋… ํ• ์ธ๊ณผ๋Š” ์Œ์˜ ์ƒ๊ด€๊ด€๊ณ„์˜€์ง€๋งŒ ์–‘์˜ ์ธ๊ณผ๊ด€๊ณ„๋ฅผ ๊ฐ€์ง„ ๊ฒƒ์œผ๋กœ ๋‚˜ํƒ€๋‚ฌ๊ณ , Sales Calls ๊ฐ€ ์˜คํžˆ๋ ค ๊ตฌ๋…๊ฐฑ์‹ ๊ณผ ๊ด€๋ จํ•˜์˜ ์–‘์˜ ์ธ๊ณผ๊ด€๊ณ„๋ฅผ ๊ฐ€์ง€๊ณ  ์žˆ์Œ์„ ๋ฐœ๊ฒฌํ–ˆ๋‹ค. 

 

 

 

 

 

โ‘ก ์ธ๊ณผ๊ด€๊ณ„ ๋ถ„์„ ๋ฐฉ๋ฒ• 


 

1. Randomization: AB test, MAB 
2. Causal graphical models (Bayesian network) 
3. Potential outcome: ATE, CATE 

 

 

 

 

 

โ—ฏ  Randomization 

 

โ‘ด A/B test

 

•  Randomized clinical test ๋ฌด์ž‘์œ„ ์ž„์ƒ์‹œํ—˜ โ‡จ A/B test ๋ผ๊ณ ๋„ ๋ถˆ๋ฆผ 

•  ์ธก์ •ํ•˜๊ณ ์ž ํ•˜๋Š” ๋ณ€์ˆ˜ ์ด์™ธ์—๋Š” ๋ชจ๋“  ๊ฒƒ๋“ค์„ ์ตœ๋Œ€ํ•œ ๊ณ ์ •ํ•˜์—ฌ ํ™•์ธํ•  ๋ณ€์ˆ˜๋งŒ ๋ณ€๊ฒฝํ•˜๋ฉด์„œ ์‹คํ—˜ํ•˜๋Š” ๋ฐฉ๋ฒ•  โ‡จ ์‹คํ—˜๊ธฐ๋ฐ˜ 

•  ๋ฌด์ž‘์œ„ ๋ฐฐ์ •์œผ๋กœ ํ‰๊ท ์ ์ธ ํšจ๊ณผ ์ธก์ •์ด ๊ฐ€๋Šฅ 

 

A/B test ์˜ˆ์‹œ

 

 

•  ๋ฌด์ž‘์œ„ ์ž„์ƒ์‹œํ—˜์˜ ๊ฒฐ๊ณผ๋ฅผ ํ•ด์„ํ•  ๋•Œ์—๋Š” ํ‘œ๋ฉด์ ์ธ ๊ฒฐ๊ณผ ๋ฟ ์•„๋‹ˆ๋ผ, ํ†ต๊ณ„์ ์œผ๋กœ๋„ ์œ ์˜ํ•œ์ง€ ํ™•์ธํ•˜๋Š” ๊ณผ์ •์ด ํ•„์š”ํ•˜๋‹ค !

 

 

 

 

 

โ‘ต Multi-Armed Bandit (MAB) 

 

•  Exploration ํƒ์ƒ‰ (์ƒˆ๋กœ์šด ์ •๋ณด๋ฅผ ์ฐพ์•„๋‚ด๊ธฐ ์œ„ํ•ด ํƒ์ƒ‰) : A๊ฐ€ ๋” ์ข‹์„ ๊ฒƒ์ด๋ผ๋Š” ๊ฒƒ์„ ์•Œ๊ณ  ์žˆ์–ด๋„ B๋ฅผ test ํ•˜๋ฉด์„œ ๋ชจ๋“  Bandit machine ์„ ๊ณ„์† ๋‹น๊ธด๋‹ค - ์˜ˆ์ƒ๋Œ€๋กœ A๊ฐ€ ์ข‹์•˜๋‹ค. ์–ด์ฐจํ”ผ A๊ฐ€ ์ข‹์•˜๊ธฐ ๋•Œ๋ฌธ์— B๋ฅผ ์ˆ˜ํ–‰ํ•˜๋Š” ๋น„์šฉ์ด ๋ฐœ์ƒ๋˜์—ˆ๋‹ค. 

•  Exploitation ํ™œ์šฉ (๊ทธ๋™์•ˆ์˜ ์ •๋ณด๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ์ตœ์ ์˜ ๊ฒฐ์ •์„ ๋‚ด๋ฆผ) : ๋ชจ๋“  Bandit machine ๋ฅผ ํ•œ ๋‘๋ฒˆ๋งŒ ๋‹น๊ฒจ๋ณด๊ณ  ๊ฐ€์žฅ ์ˆ˜์ต๋ฅ ์ด ๋†’์€ ๋จธ์‹ ์„ ์„ ํƒํ•œ๋‹ค - ์‹ ๋ขฐ์„ฑ ๋ฌธ์ œ - ๋งŒ์•ฝ ํ…Œ์ŠคํŠธ๋ฅผ ์˜ค๋ž˜ํ•œ๋‹ค๋ฉด ์–ด๋–ค ๊ฒฐ๊ณผ๊ฐ€ ๋‚˜์™”์„๊นŒ 

•  A/B test ๋Š” Exploration-Exploitation Tradeoff ๊ฐ€ ์กด์žฌํ•œ๋‹ค โ‡จ MAB ๋Š” ๊ฐ•ํ™”ํ•™์Šต ๊ธฐ๋ฐ˜์œผ๋กœ ํƒ์ƒ‰๊ณผ ํ™œ์šฉ์„ ์ตœ์ ํ™” ํ•˜์—ฌ ์ˆ˜์ต๋ฅ ์„ ๊ทน๋Œ€ํ™” ํ•œ๋‹ค. 

 

 

 

•  MAB ์•Œ๊ณ ๋ฆฌ์ฆ˜: Greedy, Epsilon Greedy, Upper Confidence Bound 

 

 

โ†ช  Greedy : ํ•œ ๋ฒˆ์”ฉ ํ•ด๋ณด๊ณ  Reward ๊ฐ€ ๊ฐ€์žฅ ์ข‹์€ ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ์„ ํƒ 

โ†ช  Epsilon Greedy : ε ์˜ ํ™•๋ฅ ๋กœ ๋žœ๋คํ•˜๊ฒŒ action ์„ ์„ ํƒ, 1 - ε ํ™•๋ฅ ๋กœ๋Š” greedy ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ์ˆ˜ํ–‰ 

โ†ช  UCB : ํ˜„์žฌ ์‹œ์ ๊นŒ์ง€ ํ–‰๋™ a๋ฅผ ํ•œ ํšŸ์ˆ˜ Nt(a) ๋ฅผ ์ •์˜ํ•˜์—ฌ, ๋ถ„๋ชจ์— ์ด๋ฅผ ๋„ฃ์–ด ํƒํ—˜ํ•˜์ง€ ์•Š์€ ํ–‰๋™์— ๊ฐ€์ค‘์น˜๋ฅผ ๋ถ€์—ฌํ•œ๋‹ค. 

 

 

 

 

ABtest, MAB

 

 

 

โ—ฏ  Causal Graphical models = Bayesian network 

 

•  ์ธ๊ณผ ๊ทธ๋ž˜ํ”„ ๋ชจํ˜• : Directed Acyclic Graphs (DAG) 

•  Randomization ์˜ ๊ฒฝ์šฐ์—๋Š” ํ‰๊ท ์ ์ธ ์ธ๊ณผํšจ๊ณผ๋งŒ ํ™•์ธ์ด ๊ฐ€๋Šฅํ•˜๋‹ค. ์–ด๋–ค ์‚ฌ๋žŒ๋“ค์—๊ฒŒ ๋” ํšจ๊ณผ์ ์ธ์ง€ ์„ธ๋ถ€์ ์ธ ์ •๋ณด์˜ ํ™•์ธ์ด ์–ด๋ ต๋‹ค. 

•  ์ธ๊ณผ ๊ทธ๋ž˜ํ”„ ๋ชจํ˜•์€ ์ธ๊ณผ๊ด€๊ณ„๋ฅผ DAG ๋ผ๋Š” ๊ทธ๋ž˜ํ”„๋กœ ํ‘œํ˜„ํ•˜๋Š” ๋ฐฉ์‹์œผ๋กœ, ๋ช…ํ™•ํ•œ ์ธ๊ณผ๊ด€๊ณ„ ํŒŒ์•…์ด ๊ฐ€๋Šฅํ•˜๋‹ค. 

 

•  ๋ณ€์ˆ˜๋“ค์˜ ๊ฒฐํ•ฉํ™•๋ฅ ๋ถ„ํฌ๋ฅผ DAG ๋กœ ๋‚˜ํƒ€๋‚ธ ๋ชจํ˜•์œผ๋กœ, ๋”ฅ๋Ÿฌ๋‹๊ณผ ๋‹ฌ๋ฆฌ ์กฐ๊ฑด๋ถ€ ํ™•๋ฅ ์ด ํˆฌ๋ช…ํ•˜๊ฒŒ ๊ณต๊ฐœ๋˜๋ฏ€๋กœ white-box model ์ด๋ผ ํ•  ์ˆ˜ ์žˆ๋‹ค. 

 

 

 

์˜ค๋ฅธ์ชฝ ๊ฒฐํ•ฉํ™•๋ฅ ๋ถ„ํฌ ์˜ˆ์‹œ ์ฐธ๊ณ 

 

 

 

 

 

โ—ฏ  Potential Outcome

 

•  ์ธ๊ณผ๊ด€๊ณ„๋Š” ๋ชจ๋“  ๊ฒฐ๊ณผ๋ฅผ ๊ด€์ธกํ•  ์ˆ˜ ์—†๋Š” ํ•œ๊ณ„๊ฐ€ ์กด์žฌ (ํ˜„์‹ค์—์„œ๋Š” ์‹œ๊ฐ„์„ ๋˜๋Œ๋ฆฌ๊ธฐ๊ฐ€ ๋ถˆ๊ฐ€๋Šฅ) 

•  ๊ด€์ธก๋˜์ง€ ์•Š์€ ๊ฐ€์ƒ์˜ ๊ฒฐ๊ณผ Counterfactual ๋ฅผ ๊ณ ๋ คํ•ด์„œ ์ฒ˜๋ฆฌํšจ๊ณผ๋ฅผ ๊ณ„์‚ฐํ•˜๋Š” ๋ฐฉ์‹ 

 

•  Treatment Effect ์ฒ˜๋ฆฌํšจ๊ณผ : τ = Y(1) - Y(0) : (๋Œ€ํ•™์›์„ ์ง„ํ•™ํ•œ ์‚ฌ๋žŒ์˜ ๊ณ„์•ฝ์—ฐ๋ด‰) - (๋Œ€ํ•™์›์„ ์ง„ํ•™ํ•˜์ง€ ์•Š์€ ์‚ฌ๋žŒ์˜ ๊ณ„์•ฝ์—ฐ๋ด‰) 

 

•  ๋™์‹œ์— ๊ด€์ธก์ด ๋ถˆ๊ฐ€๋Šฅํ•˜๋ฏ€๋กœ, Counterfactual ๋ฅผ ๋จธ์‹ ๋Ÿฌ๋‹์œผ๋กœ ์˜ˆ์ธกํ•ด ์ฑ„์›Œ๋„ฃ๊ณ , ๊ฐœ์ธ์— ๋Œ€ํ•œ ํšจ๊ณผ๋ฅผ ์ธก์ •ํ•˜๋Š” ๋Œ€์‹  ๋ชจ๋“  ์‚ฌ๋žŒ์˜ ํšจ๊ณผ๋ฅผ ๋น„๊ตํ•˜๊ต ํ‰๊ท ์„ ๊ตฌํ•ด๋ณด์ž : ATE (average treatment effect) 

 

 

•  CATE :  conditional ATE : ๊ต๋ž€๋ณ€์ˆ˜๋ฅผ ๊ณ ๋ คํ•˜์—ฌ ์กฐ๊ฑด๋ถ€ ํ™•๋ฅ ๋กœ causal effect ๋ฅผ ๊ณ„์‚ฐํ•œ๋‹ค. 

 

 

โ†ช P(Y|T)  vs  P(Y|T,S)P(S) 

 

 

 

•  ์ •๋ฆฌ 

 

 

 

 

  Machine learning Based 

 

โ†ช  ๋จธ์‹ ๋Ÿฌ๋‹ ๋ฐฉ๋ฒ•์„ ๊ธฐ๋ฐ˜์œผ๋กœ CATE ๋ฅผ ์ถ”์ •ํ•˜๋Š” ๋ฐฉ๋ฒ• ์ค‘ ํ•˜๋‚˜ : Meta learners 

 

โ†ช T-learner : control ๊ณผ treatment ๊ฐ๊ฐ์„ ๋‹ค๋ฅธ ๋ชจํ˜•์œผ๋กœ ํ•™์Šต์‹œ์ผœ ์ด๋“ค์˜ ์ฐจ์ด๋กœ CATE ์ถ”์ • 

 

 

โ†ช S-learner : Y๋ฅผ ๋ฐ˜์‘๋ณ€์ˆ˜, ์ฒ˜๋ฆฌ์—ฌ๋ถ€ W๋ฅผ ์„ค๋ช…๋ณ€์ˆ˜๋กœ ์„ค์ •ํ•ด ๋‹จ์ผํ•œ ๋ชจํ˜• M ์„ ํ•™์Šตํ•œ๋‹ค. W=1 ์ผ๋•Œ ์ถ”์ •๊ฐ’์—์„œ W=0 ์ผ๋•Œ ์ถ”์ •๊ฐ’์˜ ์ฐจ์ด๋กœ CATE ์ถ”์ • 

 

 

โ†ช X-learner : T-learner ์ฒ˜๋Ÿผ ํ•™์Šตํ•œ ๋’ค, ๋ชจ๋ธ์˜ ์˜ˆ์ธก๊ฐ’์„ ๋‹ค์‹œ Counterfactual ๋กœ ์‚ฌ์šฉํ•ด ์ฐจ์ด๋ฅผ ํ•™์Šตํ•œ๋‹ค. CATE0, CATE1์ด ๋งŒ๋“ค์–ด์ง€๊ณ  ์ด๋ฅผ ๊ฐ€์ค‘ํ‰๊ท ํ•˜์—ฌ final CATE ๋ฅผ ๋งŒ๋“ ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ๋‘ ์ง‘๋‹จ ๊ฐ„ ๋ฐ์ดํ„ฐ ์–‘์˜ ์ฐจ์ด๋ฅผ ํ•ด๊ฒฐํ•œ๋‹ค. 

 

 

 

 

  Neural Net Based

 

โ†ช  NN ๊ธฐ๋ฐ˜์˜ CATE ์ถ”์ •๋ฐฉ๋ฒ• 

 

 

 

โ†ช  Representation layer ๋Š” ๊ณต์œ ํ•˜๋ฉด์„œ, control/treatment ์ง‘๋‹จ์˜ ๊ฒฐ๊ณผ๋ฅผ ๋‚˜๋ˆ„์–ด ์˜ˆ์ธกํ•œ๋‹ค. 

 

 

 

 

 

 

728x90

๋Œ“๊ธ€