๋ณธ๋ฌธ ๋ฐ”๋กœ๊ฐ€๊ธฐ
1๏ธโƒฃ AI•DS/๐ŸฅŽ Casual inference

์ธ๊ณผ์ถ”๋ก ์˜ ๋ฐ์ดํ„ฐ ๊ณผํ•™ - ์ธ๊ณผ์ถ”๋ก ์˜ ์–ด๋ ค์›€๊ณผ ์ธ๊ณผ์ถ”๋ก  ์ „๋žต

by isdawell 2023. 4. 20.
728x90

์ฐธ๊ณ ์˜์ƒ : Bootcamp 1-2. ์ธ๊ณผ์ถ”๋ก ์˜ ์–ด๋ ค์›€๊ณผ ์ธ๊ณผ์ถ”๋ก  ์ „๋žต 

 

 

 

1. Challenges in causal inference 


 

•  ์ƒ๊ด€๊ด€๊ณ„๋Š” ์ธ๊ณผ๊ด€๊ณ„๋ฅผ ์˜๋ฏธํ•˜์ง€ ์•Š๋Š”๋‹ค. 

 

 

โ—ฏ Ex1. ์ตœ์ €์ž„๊ธˆ๊ณผ ๊ณ ์šฉ๋ฅ  

 

    •  ์ธ๊ณผ์ถ”๋ก ์„ ์ ์šฉํ•˜๊ธฐ ๋งค์šฐ ์–ด๋ ค์šด ์ฃผ์ œ์ด๊ณ  ๊ฐ‘๋ก ์„๋ฐ•์ด ๊ณ„์† ์ด์–ด์ง€๋Š” ์ฃผ์ œ 

    •  ์ตœ์ €์ž„๊ธˆ์— ๋Œ€ํ•œ ์ž์—ฐ์‹คํ—˜ ์—ฐ๊ตฌ 

    •  ์ธ๊ณผ์ถ”๋ก  ์—ฐ๊ตฌ์˜ ์•ฝ์  : external validity and transportability ๋‹ค๋ฅธ ์ƒํ™ฉ์œผ๋กœ์˜ ์ ์šฉ 

 

 

 

 

 

โ—ฏ  Ex2. ์ถ”์ฒœ์‹œ์Šคํ…œ 

 

 ์•Œ๊ณ ๋ฆฌ์ฆ˜์˜ ์„ฑ๊ณผ๋ฅผ ๋†’์ด๋Š” ๊ฒƒ๋ฟ๋งŒ ์•„๋‹ˆ๋ผ, ์ด๋Ÿฌํ•œ ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ๋„์ž…ํ–ˆ์„ ๋•Œ ์‹ค์งˆ์ ์ธ ์ œํ’ˆ ํŒ๋งค ์ฆ๊ฐ€๋กœ ์ด์–ด์กŒ๋Š”๊ฐ€๊ฐ€ ๋” ์ค‘์š”ํ•  ๊ฒƒ

  ์ถ”์ฒœ์‹œ์Šคํ…œ์„ ๊ฐœ๋ฐœํ•˜๋Š” ๊ฑด ์•Œ๊ณ ๋ฆฌ์ฆ˜์ ์ธ ๋ฌธ์ œ์ง€๋งŒ, ์ด๋Ÿฌํ•œ ์ถ”์ฒœ์‹œ์Šคํ…œ์„ ๋„์ž…ํ• ์ง€ ๋ง์ง€๋ฅผ ๊ฒฐ์ •ํ•˜๋Š” ๊ฒƒ์€ ์ธ๊ณผ์ถ”๋ก  ๋ฌธ์ œ๊ฐ€ ๋  ์ˆ˜ ์žˆ๋‹ค. 

•  ์‚ฌ์šฉ์ž A๊ฐ€ ์‚ฌ์šฉ์ž B์™€ ํŠน์„ฑ์ด ๋น„์Šทํ•˜๊ธฐ ๋•Œ๋ฌธ์— ์ƒ์ˆ˜๋ฅผ B์— ์ถ”์ฒœํ•ด ์ค„ ์ˆ˜ ์žˆ๋‹ค. ์ถ”์ฒœ ์ดํ›„์—, ์‚ฌ์šฉ์ž B๊ฐ€ ์ƒ์ˆ˜๋ฅผ ๊ตฌ๋งคํ–ˆ๋‹ค๋ฉด, ์ด๋Š” ์ถ”์ฒœ์‹œ์Šคํ…œ์˜ ์ธ๊ณผ์ ์ธ ํšจ๊ณผ๊ฐ€ ๋งž์„๊นŒ? ์ถ”์ฒœ์‹œ์Šคํ…œ ๋•Œ๋ฌธ์— ํ•ด๋‹น ๋ฌผํ’ˆ์„ ๊ตฌ๋งคํ•œ ๊ฒŒ ๋งž์„๊นŒ? โ‡จ ๊ทธ๋ ‡๊ฒŒ ์‰ฝ์ง€๋งŒ์€ ์•Š์€ ๋ฌธ์ œ! 

 

 

•   Homophily, correlation : ์ถ”์ฒœ์‹œ์Šคํ…œ์ด ์ถ”์ฒœํ•ด์ฃผ์ง€ ์•Š์•˜์–ด๋„ ๋‚ด ๊ณ ์œ ์˜ ์ทจํ–ฅ/ํŠน์„ฑ์— ์˜ํ•ด ํ•ด๋‹น ์ œํ’ˆ์„ ๊ตฌ๋งคํ–ˆ์„ ๊ฒƒ โ‡จ ์ธ๊ณผ๊ด€๊ณ„๊ฐ€ ์•„๋‹Œ ์ƒ๊ด€๊ด€๊ณ„๋กœ ํ•ด์„ ๊ฐ€๋Šฅ 

•  peer effect, causation : ์นœ๊ตฌ์˜ ์•ˆ๋ชฉ์„ ๋ฏฟ๊ณ  (ํ˜น์€ ์ข‹์•„ํ•˜๋Š” ์ธํ”Œ๋ฃจ์–ธ์„œ๊ฐ€ ๊ตฌ๋งคํ•˜๋Š” ๊ฒƒ์€ ๋ฌด์กฐ๊ฑด ๋”ฐ๋ผ์‚ฌ๋Š”) ๊ตฌ๋งคํ•˜๋Š” ๊ฒฝ์šฐ๋Š” โ‡จ ์ธ๊ณผ์ ์ธ ํšจ๊ณผ๊ฐ€ ๋ถ„๋ช…ํ•จ 

 

⇒ ์ถ”์ฒœ์‹œ์Šคํ…œ์„ ํ†ตํ•œ ๊ตฌ๋งค๋Š” correlation ์œผ๋กœ ๋ณผ ์ˆ˜๋„ ์žˆ๊ณ  causation ์œผ๋กœ๋„ ๋ณผ ์ˆ˜ ์žˆ๋‹ค. 

 

 

 

•  ๋„ทํ”Œ๋ฆญ์Šค์—์„œ ์ง„ํ–‰ํ–ˆ๋˜ ์‹คํ—˜ : ํ•˜์šฐ์Šค์˜ค๋ธŒ์นด๋“œ์™€ ์œ ์‚ฌํ•œ ์ฝ˜ํ…์ธ ๋ฅผ ์ถ”์ฒœํ•ด์ฃผ๋Š” ํ•˜๋‹จ ๋ชฉ๋ก์ด ์žˆ๊ณ , ํ•˜์šฐ์Šค์˜ค๋ธŒ์นด๋“œ์™€ ์œ ์‚ฌ์„ฑ์€ ์ข€ ๋–จ์–ด์ง€์ง€๋งŒ ๋Œ€์ค‘์ ์œผ๋กœ ์ธ๊ธฐ์žˆ๋Š” ์ฝ˜ํ…์ธ ๋ฅผ ์ถ”์ฒœํ•ด์ฃผ๋Š” ์ƒ๋‹จ ๋ชฉ๋ก์ด ์žˆ์„ ๋•Œ, ์•Œ๊ณ ๋ฆฌ์ฆ˜์˜ ์„ฑ๋Šฅ์€ ์•„๋ž˜ ๊ฒƒ์ด ๋” ๋†’๊ฒŒ ๋‚˜์™”์ง€๋งŒ ์‹ค์ œ ์†Œ๋น„์ž๋“ค์—๊ฒŒ ์ ์šฉํ–ˆ์„ ๋•Œ๋Š” ์œ„์˜ ๋ชฉ๋ก์ด ์„ ํƒ๋  ํ™•๋ฅ ์ด ๋†’์•˜๋‹ค. 

 

•  ์ข‹์€ ์„ฑ๋Šฅ์„ ๊ฐ€์ง„ ์ถ”์ฒœ์‹œ์Šคํ…œ์„ ๊ฐœ๋ฐœํ•œ๋Š” ๊ฒƒ๋„ ์ค‘์š”ํ•˜์ง€๋งŒ, ํ•ด๋‹น ์ถ”์ฒœ์‹œ์Šคํ…œ์„ ๋„์ž…ํ–ˆ์„ ๋•Œ, ๋น„์ฆˆ๋‹ˆ์Šค ์„ฑ๊ณผ๊ฐ€ ์žˆ๋Š”์ง€๋ฅผ ์ธ๊ณผ์ถ”๋ก ์ ์œผ๋กœ ์‚ดํŽด๋ณด๋Š” ๊ฒƒ ๋˜ํ•œ ์ค‘์š”ํ•˜๋‹ค. 

 

 

•  ๋”ฐ๋ผ์„œ ๋„ทํ”Œ๋ฆญ์Šค๋Š” ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ๋„์ž…ํ•˜๊ธฐ ์ „์—, ํ•ญ์ƒ A/B test ๋ฅผ ํ†ตํ•ด ์ธ๊ณผ์ ์ธ ํšจ๊ณผ๋ฅผ ์ถ”๋ก ํ•œ๋‹ค. ๋Œ€๋ถ€๋ถ„์˜ IT ๊ธฐ์—…๋“ค์€ ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ๋„์ž…ํ•˜๊ธฐ ์ „์— A/B test ๋ฅผ ๋งŽ์ด ํ•œ๋‹ค. ์‚ฌํšŒ๊ณผํ•™ ๋ถ„์•ผ ๋ฟ ์•„๋‹ˆ๋ผ IT ๋“ฑ์˜ ๋‹ค์–‘ํ•œ ๋ถ„์•ผ์—์„œ ์ธ๊ณผ์ถ”๋ก ์ด ๋งŽ์ด ํ™œ์šฉ๋˜๊ณ  ์žˆ๋‹ค. 

 

 

 

โ—ฏ  Ex3. ๋ฐ˜๋ ค๋™๋ฌผ๊ณผ ์šฐ์šธ์ฆ

 

•  ๋ฐ˜๋ ค๋™๋ฌผ์„ ํ‚ค์šฐ๋Š” ์‚ฌ๋žŒ๋“ค์˜ ์šฐ์šธ์ฆ์ด ๋” ๋†’๊ฒŒ ๋‚˜์™”์—ˆ์Œ โ‡จ ์ž˜๋ชป๋œ ํ•ด์„์ด ๋  ์ˆ˜ ์žˆ๋‹ค. 

•  ์„ฑํ–ฅ์ด ๋น„์Šทํ•œ ์‚ฌ๋žŒ๋“ค๋ผ๋ฆฌ ๊ทธ๋ฃนํ™”๋ฅผ ํ•ด์„œ ๊ทธ ์•ˆ์—์„œ ๋ฐ˜๋ ค๋™๋ฌผ ์œ ๋ฌด๋ฅผ ์‚ดํŽด๋ดค์„ ๋•, ๊ฒฐ๊ณผ ํ•ด์„์ด ๋ฐ˜๋ ค๋™๋ฌผ์„ ํ‚ค์šฐ๋ฉด ์šฐ์šธ๊ฐ์ด ๋‚ฎ์•„์ง€๋Š” ๊ฒƒ์œผ๋กœ ํƒ€๋‹นํ–ˆ๋‹ค. 

•  ์ด์ฒ˜๋Ÿผ ์–ด๋– ํ•œ ๊ฐ€์ •์„ ๋„์ž…ํ•  ๊ฒƒ์ธ์ง€, ์–ด๋– ํ•œ ๋ถ„์„ ๋ฐฉ๋ฒ•๋ก ์„ ์‚ฌ์šฉํ•  ๊ฒƒ์ธ์ง€์— ๋”ฐ๋ผ ๊ฒฐ๊ณผํ•ด์„์ด ๋’ค๋ฐ”๋€” ์ˆ˜ ์žˆ๋‹ค. 

 

 

 

 

โ—ฏ  Ex4. Treatment effectiveness 

 

•  Casual inference ์— ๋Œ€ํ•œ framework ์™€ causal model ์€ ๋งค์šฐ ์ค‘์š”ํ•˜๋‹ค. ์–ด๋– ํ•œ ๊ฐ€์ •์„ ๋„์ž…ํ•˜๋Š”์ง€, ์–ด๋– ํ•œ ๋ถ„์„๋ฐฉ๋ฒ•์„ ์‚ฌ์šฉํ•˜๋Š”์ง€์— ๋”ฐ๋ผ ๊ฒฐ๊ณผ ํ•ด์„์ด ๋’ค๋ฐ”๋€” ์ˆ˜ ์žˆ๋‹ค. 

 

 

 

 

 

โ—ฏ  Ex5. Effectiveness of Paid Search Ads 

 

•  ํ‚ค์›Œ๋“œ ๊ด‘๊ณ ๋ฅผ ํ• ๊นŒ๋ง๊นŒ : ์œ ๋ฃŒ ๊ฒ€์ƒ‰์„ ํƒ€๊ณ  ์˜ค๋Š” ์‹ ๊ทœ ๊ณ ๊ฐ์˜ ๋น„์œจ๊ณผ ๊ตฌ๋งค ๋น„์œจ์„ ์‚ดํŽด๋ณด๊ธฐ โ‡จ ๊ทธ๋Ÿฌ๋‚˜ ๊ทธ๋ ‡๊ฒŒ ์‰ฝ๊ฒŒ ๋‹ตํ•  ์ˆ˜ ์žˆ๋Š” ๋ฌธ์ œ๋Š” ์•„๋‹ˆ๋‹ค. 

 

 

•  ์‹œ๋‚˜๋ฆฌ์˜ค1์ฒ˜๋Ÿผ ๊ธฐ์—…์€ ๊ธฐ์กด ๊ณ ๊ฐ๋“ค์€ ๊ทธ๋Œ€๋กœ ์œ ์ง€๋˜๋ฉด์„œ ๊ณ ๊ฐ์ด ์•„๋‹ˆ์—ˆ๋˜ ์‚ฌ๋žŒ๋“ค์€ ๊ด‘๊ณ ๋ฅผ ๋ณด๊ณ  ์œ ์ž…๋˜์ง€ ์•Š์•˜์„๊นŒ ๊ธฐ๋Œ€ํ•จ

 

•  ๊ทธ๋Ÿฌ๋‚˜ ๊ธฐ์กด ๊ณ ๊ฐ๋“ค์ด ์–ด์จ‹๋“  ๊ด‘๊ณ ๋งํฌ๊ฐ€ ๋” ์ƒ์œ„๋‹จ์— ์žˆ์œผ๋‹ˆ๊นŒ ์ž์—ฐ์Šค๋Ÿฝ๊ฒŒ ๊ทธ ์œ„์— ์žˆ๋Š” ๊ด‘๊ณ ๋ฅผ ํด๋ฆญํ•˜๊ณ  ๋“ค์–ด์˜ฌ ์ˆ˜ ์žˆ์Œ. ์ด๋Ÿฐ ๊ฒฝ์šฐ์—๋Š”, ์˜ˆ์‚ฐ์„ ๋งŽ์ด ํˆฌ์žํ•ด๋„ ์‹ ๊ทœ๊ณ ๊ฐ์„ ์œ ์น˜ํ•˜์ง€ ๋ชปํ•˜๊ฒŒ ๋จ 

 

โ‡จ ๊ทธ๋Ÿฌ๋‚˜ ์ด๋Ÿฌํ•œ ๋‘ ์‹œ๋‚˜๋ฆฌ์˜ค๋ฅผ ๋ฐ์ดํ„ฐ ์ƒ์—์„œ๋Š” ์ „ํ˜€ ๊ตฌ๋ถ„ํ•  ์ˆ˜ ์—†๋‹ค. 

 

 

 

โ—ฏ  Ex5. ์‚ฌ์—… ๋‹ค๊ฐํ™” 

 

•  ๊ธฐ์—…์—์„œ ๋งค์šฐ ์ค‘์š”ํ•œ ์˜์‚ฌ๊ฒฐ์ • 

•  ์ดˆ๊ธฐ์—๋Š” ์‚ฌ์—… ๋‹ค๊ฐํ™”๊ฐ€ ๊ธฐ์—…๊ฐ€์น˜์™€ ์Œ์˜ ์ƒ๊ด€์„ฑ์„ ๊ฐ€์ง„๋‹ค๋Š” ์—ฐ๊ตฌ ๊ฒฐ๊ณผ๊ฐ€ ๋Œ€๋ถ€๋ถ„์ด์—ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ์ตœ๊ทผ ๋“ค์–ด์„œ ๋ฐ์ดํ„ฐ ๋ถ„์„ ๋ฐฉ๋ฒ•๋ก ๋“ค์ด ๊ฐœ์„ ๋˜๋ฉด์„œ, ๋‹ค์‹œ ๋ถ„์„์„ ํ•ด๋ณด๋‹ˆ, ์ธ๊ณผ๊ด€๊ณ„ ๋ถ„์„ ๊ฒฐ๊ณผ ์ „ํ˜€ ๊ด€๋ จ์ด ์—†๊ฑฐ๋‚˜ ์˜คํžˆ๋ ค ์•ผ์˜ ์ƒ๊ด€์„ฑ์„ ๋ณด์ž„์„ ํ™•์ธํ–ˆ๋‹ค. 

•  ์œ„๊ธฐ๋ฅผ ๋งž์ดํ•œ ๊ธฐ์—…๋“ค์ด ์‚ฐ์—… ๋‹ค๊ฐํ™”๋ฅผ ํ•˜๋Š” ๊ฒฝ์šฐ๊ฐ€ ๋งŽ๊ธฐ ๋•Œ๋ฌธ์— ์ดˆ๊ธฐ์— ๊ทธ๋Ÿฐ ๊ฒฐ๊ณผ๊ฐ€ ๋‚˜์˜จ๊ฒƒ์ด๋‹ค. (๋ฐฉํ–ฅ์„ฑ์ด ๋ฐ˜๋Œ€๋กœ ๋œ ๊ฒƒ). ์ด๋Ÿฐ ์š”์ธ๋“ค์„ ์ œ์™ธํ•˜๊ณ  ์ˆœ์ˆ˜ํ•œ ์ธ๊ณผ๊ด€๊ณ„๋ฅผ ๋ถ„์„ํ•ด์•ผ ํ•œ๋‹ค. 

 

 

 

 

 

2. What is Causal inference 


 

•  ๋ฐ์ดํ„ฐ๋ถ„์„ ๋ฐฉ๋ฒ•๋ก  

 

 

 

•  ์ด์„ธ์ƒ ๋ชจ๋“  ๊ฒƒ์€ ๋‚ด์ƒ์ ์ด๋‹ค. Endogenous ๊ฐ€ ์ธ๊ณผ์ถ”๋ก ์— ์žˆ์–ด์„œ ๊ฐ€์žฅ ์ค‘์š”ํ•œ ๊ฐ€์ •์ด๊ณ  ๊ทผ๋ณธ์ ์ธ ์–ด๋ ค์›€์ด๋‹ค. 

 

 

 

•  ๊ด€์‹ฌ์žˆ๋Š” ์›์ธ๋ณ€์ˆ˜ ์ด์™ธ์—๋„, ๊ฒฐ๊ณผ์— ์˜ํ–ฅ์„ ๋ฏธ์น˜๋Š” ๊ต๋ž€ ์š”์ธ๋“ค์ด ์„œ๋กœ ๋‚ด์ƒ์ ์œผ๋กœ ์–ฝํ˜€์žˆ์–ด์„œ, ์ด๋ฅผ ๋ฐํžˆ๊ธฐ๊ฐ€ ๋งค์šฐ ์–ด๋ ต๋‹ค. ๋”ฐ๋ผ์„œ ์ด๋Ÿฌํ•œ ๋‚ด์ƒ์„ฑ์„ ํ•ด๊ฒฐํ•˜๋Š” ๊ฒƒ (์ œ๊ฑฐํ•˜๋Š” ๊ฒƒ)์ด ์ธ๊ณผ์ถ”๋ก ์ด๋ผ๊ณ ๋„ ๋ณผ ์ˆ˜ ์žˆ๋‹ค. 

 

 

โ†ช ๋ฐ์ดํ„ฐ ์ƒ์„ฑ ๊ณผ์ •์— ๋Œ€ํ•ด์„œ, selection process ๋ฅผ ์–ด๋–ป๊ฒŒ ๋ฐ›์•˜๋Š”์ง€๋Š” ํŒŒ์•…ํ•˜๊ธฐ ์–ด๋ ค์›€ : ์—ฌ๋Ÿฌํ•œ confounder ์š”์ธ๋“ค์ด ์กด์žฌํ•œ๋‹ค. ๋‚ด์ƒ์ ์ธ ์š”์ธ๋“ค์„ ํŒŒ์•…ํ•˜๊ธฐ ์–ด๋ ต๋‹ค. 

 

 

 

•  ์ธ๊ณผ์ถ”๋ก  ๋ถ„์„์€ Data generation process ๋ฅผ ์ดํ•ดํ•˜๊ณ , ๋ชจ๋ธ๋งํ•˜๊ณ , ๋ถ„์„ํ•˜๋Š” ๊ฒƒ์ด๋‹ค. 

 

 

โ†ช ์ฒซ๋ฒˆ์งธ๋กœ ์ƒ๊ฐํ•ด๋ณผ ์ˆ˜ ์žˆ๋Š” ์ ‘๊ทผ์€, data generation ์„ ์•Œ ์ˆ˜ ์žˆ๋Š” research design ์„ ํ™œ์šฉํ•˜๋Š” ๊ฒƒ์ด๋‹ค. ๊ฐ€์žฅ ์‰ฝ๊ฒŒ ์ƒ๊ฐํ•ด๋ณผ ์ˆ˜ ์žˆ๋Š” ๊ฒƒ์€ ์—ฐ๊ตฌ์ž๊ฐ€ ์ง์ ‘ ๋””์ž์ธ ํ•ด๋ณด๋Š” ๊ฒƒ! (์‹คํ—˜ ์ƒํ™ฉ์„ ์‹คํ—˜์ž๊ฐ€ ์™„๋ฒฝํžˆ ํ†ต์ œ - randomized controlled trial : ๊ทธ๋Ÿฌ๋‚˜ ํ˜„์‹ค์—์„œ๋Š” ์ด๋Ÿฌํ•œ ์™„์ „ํ•œ ํ†ต์ œ๊ฐ€ ์–ด๋ ค์›€), (์ž์—ฐ์‹คํ—˜/์ค€์‹คํ—˜ - ์—ฐ๊ตฌ์ž๊ฐ€ ํ†ต์ œํ•˜๊ธด ํ•˜๋Š”๋ฐ, ์ œ์•ฝ์กฐ๊ฑด์ด ์กฐ๊ธˆ ๋” ์ ์€ ๊ฒฝ์šฐ), (LATE - ๊ฐ€์ƒ์˜ ์—ฐ๊ตฌ ๋””์ž์ธ) 

 

โ†ช Research design ์„ ํ†ตํ•ด์„œ selection ๊ณผ์ •์ด๋‚˜ data generation ๊ณผ์ •์„ ํ†ต์ œํ•œ๋‹ค : selection model, causal graph 

 

 

 

•  ์—ฌ๋Ÿฌ๊ฐ€์ง€ ํ˜•ํƒœ๋ฅผ ๋„๋Š” ๋‚ด์ƒ์„ฑ 

 

 

 

 

 

 

 

 

728x90

๋Œ“๊ธ€