๋ณธ๋ฌธ ๋ฐ”๋กœ๊ฐ€๊ธฐ
1๏ธโƒฃ AI•DS/๐ŸฅŽ Casual inference

๋Œ€์ฒด๋กœ ํ•ด๋กญ์ง€ ์•Š์€ ๊ณ„๋Ÿ‰๊ฒฝ์ œํ•™ ์ •๋ฆฌ - Part1

by isdawell 2023. 4. 11.
728x90

 

 

๐Ÿ‘€ ๊ณ„๋Ÿ‰๊ฒฝ์ œํ•™ ๊ฐœ์ธ ๊ณต๋ถ€์šฉ ํฌ์ŠคํŠธ ๊ธ€ ์ž…๋‹ˆ๋‹ค. 

 

 

 

 

 

Part1. ์ค€๋น„๋‹จ๊ณ„ 


 

โ‘  ์žฅ.  ์งˆ๋ฌธ์— ๋Œ€ํ•œ ์งˆ๋ฌธ

 

•  ๊ด€์‹ฌ์˜ ๋Œ€์ƒ์ด ๋˜๋Š” ๊ด€๊ณ„ (relationship of interest) : ๊ณผ์—ฐ ๋ฌด์—‡์ด ๊ด€์‹ฌ์˜ ๋Œ€์ƒ์ด ๋˜๋Š” ์ธ๊ณผ๊ด€๊ณ„์ธ๊ฐ€ 

•  ์ด์ƒ์ ์ธ ์‹คํ—˜ (ideal experiment) : ๊ด€์‹ฌ์˜ ๋Œ€์ƒ์ด ๋˜๋Š” ์ธ๊ณผํšจ๊ณผ๋ฅผ ๋„์ถœํ•˜๊ธฐ ์œ„ํ•ด ๊ฐ€์žฅ ์ด์ƒ์ ์œผ๋กœ ์‚ฌ์šฉ๋  ์ˆ˜ ์žˆ๋Š” ์‹คํ—˜ 

•  ์‹๋ณ„์ „๋žต (identification strategy) : ์—ฐ๊ตฌ์ž๊ฐ€ ๊ด€์ธก์ž๋ฃŒ (์ฆ‰, ๋ฌด์ž‘์œ„ ์‹คํ—˜์„ ํ†ตํ•˜์ง€ ์•Š๊ณ  ๋งŒ๋“ค์–ด์ง„ ์ž๋ฃŒ) ๋ฅผ ์‚ฌ์šฉํ•ด ์ง„์งœ ์‹คํ—˜์— ๊ทผ์‚ฌํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ์„ค๋ช…ํ•˜๊ธฐ ์œ„ํ•ด ์‹๋ณ„ ์ „๋žต์ด๋ผ๋Š” ์šฉ์–ด๋ฅผ ์‚ฌ์šฉํ–ˆ๋‹ค. 

•  ์ถ”๋ก ๋ฐฉ๋ฒ• (the mode of inference) : ์–ด๋–ค ํ†ต๊ณ„์  ์ถ”๋ก  ๋ฐฉ์‹์ธ๊ฐ€ 

 

 

 

โ‘ก ์žฅ.  ์ด์ƒ์ ์ธ ์‹คํ—˜ 

 

•  ๊ฐ€์žฅ ์‹ ๋ขฐํ• ๋งŒํ•˜๊ณ  ์˜ํ–ฅ๋ ฅ ์žˆ๋Š” ์—ฐ๊ตฌ ๋””์ž์ธ์€ ๋ฌด์ž‘์œ„ ๋ฐฐ์ •์„ ์‚ฌ์šฉํ•œ๋‹ค. 

 

a. ์„ ํƒํŽธ์˜ ๋ฌธ์ œ 

 

•  ํ‰๊ท  ์ธ๊ณผํšจ๊ณผ (average causal effect

•  ์„ ํƒ ํŽธ์˜ selection bias : ๋Œ€๋ถ€๋ถ„์˜ ์‹ค์ฆ๊ฒฝ์ œํ•™์˜ ์—ฐ๊ตฌ๋ชฉํ‘œ๋Š” ์„ ํƒํŽธ์˜๋ฅผ ์ œ๊ฑฐํ•ด, ๋ณ€์ˆ˜์˜ ์ธ๊ณผํšจ๊ณผ์— ๋Œ€ํ•ด ๋ฌด์—‡์ธ๊ฐ€ ์˜๋ฏธ์žˆ๋Š” ๋ง์„ ํ•˜๋Š” ๊ฒƒ์ด๋‹ค. 

 

b. ๋ฌด์ž‘์œ„ ๋ฐฐ์ •์€ ์„ ํƒํŽธ์˜ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•œ๋‹ค. 

 

•  ๋ฌด์ž‘์œ„ ๋ฐฐ์ •์„ ํ†ตํ•ด ์„ ํƒํŽธ์˜๋ฅผ ์ œ๊ฑฐํ•  ์ˆ˜ ์žˆ๋‹ค. 

•  ์ฒซ๋ฒˆ์งธ ์งˆ๋ฌธ : ๋ฌด์ž‘์œ„ ๋ฐฐ์ •์„ ํ†ตํ•ด, ์‹คํ—˜ ์ฐธ๊ฐ€์ž๋“ค์˜ ์—ฌ๋Ÿฌ ํŠน์„ฑ๋“ค์ด ์ƒ์ดํ•œ ์ฒ˜์น˜์ง‘๋‹จ๋“ค ๊ฐ„์— ์ ์ ˆํžˆ ๊ท ํ˜•์„ ์ด๋ฃฐ ์ˆ˜ ์žˆ๋Š”๊ฐ€ โ‡จ ๋ณดํ†ต pretreatment outcome (์ฒ˜์น˜ ์ „ ์„ฑ๊ณผ) ๋˜๋Š” ์—ฌ๋Ÿฌ ์„ค๋ช…๋ณ€์ˆ˜๋“ค์„ ์ฒ˜์น˜์ง‘๋‹จ๋“ค ๊ฐ„์— ๋น„๊ตํ•œ๋‹ค. 

•  ์ฒ˜์น˜์ง‘๋‹จ ๊ฐ„์˜ ์ฐจ์ด๋Š” ํ‰๊ท ์ธ๊ณผํšจ๊ณผ๋ฅผ ํฌ์ฐฉํ•ด๋‚ธ๋‹ค. 

•  ์šฐ๋ฆฌ๋Š” ๋‹ค๋ฅธ ์š”์†Œ๋“ค์ด ๊ท ํ˜•์„ ์ด๋ฃฌ ์ƒํƒœ์—์„œ ๊ด€์‹ฌ๋ณ€์ˆ˜๋งŒ์ด ๋ณ€๋™ํ•จ์œผ๋กœ์จ ๋ฌด์ž‘์œ„ ์‹คํ—˜๊ณผ ์œ ์‚ฌํ•œ ์ƒํ™ฉ์„ ๋งŒ๋“ค์–ด๋‚ด๋Š” ์ž์—ฐ์‹คํ—˜ (natural experiments) ๋˜๋Š” ์ค€์‹คํ—˜ (quasi-experiments) ๋ฅผ ๋ฐœ๊ฒฌํ•˜๊ธธ ํฌ๋งํ•œ๋‹ค. 

 

 

c.  ์‹คํ—˜์ž๋ฃŒ์— ๋Œ€ํ•œ ํšŒ๊ท€๋ถ„์„ 

 

•  ํšŒ๊ท€๋ถ„์„์€ ์ธ๊ณผ๊ด€๊ณ„์— ๋Œ€ํ•œ ์˜๋ฌธ๋“ค์„ ์—ฐ๊ตฌํ•˜๋Š”๋ฐ ์“ฐ์ด๋Š” ์œ ์šฉํ•œ ๋„๊ตฌ์ด๋‹ค. 

•  ์„ ํƒํŽธ์˜๋Š” ํšŒ๊ท€์‹์˜ ์˜ค์ฐจํ•ญ๊ณผ ์„ค๋ช…๋ณ€์ˆ˜๊ฐ„์˜ ์ƒ๊ด€๊ด€๊ณ„์— ํ•ด๋‹นํ•œ๋‹ค. 

•  ์ข…์†๋ณ€์ˆ˜๋ฅผ Yi, ์„ค๋ช…๋ณ€์ˆ˜๋ฅผ Di (์ฒ˜์น˜์—ฌ๋ถ€) ๋กœ ์„ค์ •ํ•œ ํšŒ๊ท€๋ถ„์„์€ ์šฐ๋ฆฌ๊ฐ€ ๊ด€์‹ฌ์„ ๊ฐ–๋Š” ์ธ๊ณผํšจ๊ณผ(์ฒ˜์น˜ํšจ๊ณผ)์ธ ρ ๋ฅผ ์ถ”์ •ํ•ด์ค€๋‹ค. 

 

 

 

D. ์ˆ˜์‹ ๋ฐ ์„ค๋ช… ์ •๋ฆฌ 

 

โ—ฏ ์ž ์žฌ์  ๊ฒฐ๊ณผ 

    • Y1i : Di = 1 ๋ณ‘์›์— ๊ฐ”์„ ๊ฒฝ์šฐ์˜ ๊ฑด๊ฐ•์ƒํƒœ 

    • Y0i : Di = 0 ๋ณ‘์›์— ๊ฐ€์ง€ ์•Š์•˜์„ ๊ฒฝ์šฐ์˜ ๊ฑด๊ฐ•์ƒํƒœ

    • Yi = Y0i + (Y1i - Y0i)Di 

 

 

โ—ฏ ์•Œ๊ณ ์‹ถ์€ ๊ฒƒ : 'Yi1 - Yi0' = ๊ฐœ์ธ i ๊ฐ€ ๋ณ‘์›์— ๊ฐ€๋Š” ์„ ํƒ → ๋ณ‘์› ์ž…์›์ด ํ•œ ๊ฐœ์ธ์—๊ฒŒ ๋ฏธ์น˜๋Š” ์ธ๊ณผํšจ๊ณผ. ์ผ๋ฐ˜์ ์œผ๋กœ Y1i ์™€ Y0i ๊ฐ€ ๊ฐ๊ฐ์˜ ํ™•๋ฅ ๋ถ„ํฌ๊ฐ€ ์กด์žฌํ•  ์ˆ˜ ์žˆ๊ณ  ๊ทธ์— ๋”ฐ๋ผ ์ฒ˜์น˜ํšจ๊ณผ๊ฐ€ ์‚ฌ๋žŒ๋“ค๋งˆ๋‹ค ๋‹ค๋ฅผ ์ˆ˜ ์žˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ํ•œ ๊ฐœ์ธ์— ๋Œ€ํ•ด ์ž ์žฌ์  ๊ฒฐ๊ณผ ๋‘ ๊ฐ€์ง€๋ฅผ ๋™์‹œ์— ๊ด€์ธกํ•˜๊ธด ์–ด๋ ต๊ธฐ์— ๋ณ‘์›์— ์ž…์›ํ•œ ์‚ฌ๋žŒ๋“ค๊ณผ ์ž…์›ํ•˜์ง€ ์•Š์€ ์‚ฌ๋žŒ๋“ค์˜ ํ‰๊ท  ๊ฑด๊ฐ•์ƒํƒœ๋ฅผ ๋น„๊ตํ•จ์œผ๋กœ์จ ์ž…์›์˜ ํšจ๊ณผ๋ฅผ ์ฐพ์•„์•ผ๋งŒ ํ•œ๋‹ค. 

 

 

 

โ—ฏ E[Yi | Di=1] - E[Yi | Di=0] = E[Y1i | Di=1] - E[Y0i | Di=1] + E[Y0i | Di=1] - E[Y0i | Di = 0]

 

•    E[Yi | Di=1] - E[Yi | Di=0] : ํ‰๊ท  ๊ฑด๊ฐ•์ƒํƒœ์˜ ๊ด€์ธก๋œ ์ฐจ์ด 

   E[Y1i | Di=1] - E[Y0i | Di=1] : ์ฒ˜์น˜์ž์— ๋Œ€ํ•œ ํ‰๊ท  ์ฒ˜์น˜ํšจ๊ณผ = ๋ณ‘์› ์ž…์›์ด ์‹ค์ œ๋กœ ์ž…์›ํ–ˆ๋˜ ์‚ฌ๋žŒ๋“ค์—๊ฒŒ ๋ฏธ์น˜๋Š” ํ‰๊ท  ์ธ๊ณผํšจ๊ณผ 

   E[Y0i | Di=1] - E[Y0i | Di = 0] : ์„ ํƒํŽธ์˜ = ์‹ค์ œ ์ž…์›ํ•œ ์‚ฌ๋žŒ๋“ค๊ณผ ์‹ค์ œ ์ž…์›ํ•˜์ง€ ์•Š์€ ์‚ฌ๋žŒ๋“ค ์‚ฌ์ด์— ์กด์žฌํ•˜๋Š” Y0i ์˜ ํ‰๊ท  ๊ฐ’์˜ ์ฐจ์ด์ด๋‹ค. ์•„ํ”ˆ์‚ฌ๋žŒ์€ ๊ฑด๊ฐ•ํ•œ ์‚ฌ๋žŒ๋ณด๋‹ค ๋ณ‘์›์น˜๋ฃŒ๋ฅผ ๋ฐ›์„ ๊ฐ€๋Šฅ์„ฑ์ด ๋†’์œผ๋ฏ€๋กœ ์‹ค์ œ ์ž…์›ํ•œ ์‚ฌ๋žŒ๋“ค์€ ์ž…์›ํ•˜์ง€ ์•Š์€ ์‚ฌ๋žŒ์— ๋น„ํ•ด Y0i ๊ฐ’์ด ๋‚ฎ๋‹ค. ์ฆ‰, ์Œ์˜ ์„ ํƒํŽธ์˜๊ฐ€ ๋ฐœ์ƒํ•œ๋‹ค. 

•   Di ๊ฐ€ ๋ฌด์ž‘์œ„ ๋ฐฐ์ •๋จ์œผ๋กœ์จ ์„ ํƒํŽธ์˜๋ฅผ ์ œ๊ฑฐํ•  ์ˆ˜ ์žˆ๋‹ค. 

 

 

 

โ—ฏ Yi = α +ρDi + Xi'γ + ηi

 

โ‡จ Yi : ๊ด€์‹ฌ๋ณ€์ˆ˜ ex. ์‹œํ—˜ ์„ฑ์ 

โ‡จ ρ: ์ธ๊ณผํšจ๊ณผ 

โ‡จ Di : ์ฒ˜์น˜๋ณ€์ˆ˜ 

โ‡จ Xi : ์„ค๋ช…๋ณ€์ˆ˜ (ํ†ต์ œ๋ณ€์ˆ˜) 

โ‡จ ηi : Y0i ์˜ ํ™•๋ฅ ์ ์ธ ๋ถ€๋ถ„ 

 

•   ๊ผญ ๊ทธ๋Ÿดํ•„์š”๋Š” ์—†์œผ๋‚˜, Xi ๊ฐ€ ํ†ต์ œ๋˜๋ฉด ๊ด€์‹ฌ๋Œ€์ƒ์˜ ์ธ๊ณผํšจ๊ณผ์— ๋Œ€ํ•œ ๋ณด๋‹ค ์ •ํ™•ํ•œ ์ถ”์ •์น˜๋ฅผ ๊ตฌํ•  ์ˆ˜ ์žˆ๋‹ค. 

•   ํ†ต์ œ๋ณ€์ˆ˜ Xi ๊ฐ€ Di ์™€๋Š” ์ƒ๊ด€๊ด€๊ณ„๋ฅผ ๊ฐ–์ง€ ์•Š๋Š”๋‹ค๊ณ  ํ•˜๋”๋ผ๋„, Xi ์— ํฌํ•จ๋œ ๋ณ€์ˆ˜๋“ค์€ Yi ์— ์ƒ๋‹นํ•œ ์„ค๋ช…๋ ฅ์„ ๊ฐ–๋Š”๋‹ค. ๋”ฐ๋ผ์„œ ์ด ํ†ต์ œ๋ณ€์ˆ˜๋“ค์ด ํšŒ๊ท€ ๋ชจํ˜•์— ํฌํ•จ๋˜๋ฉด ์ž”์ฐจ์˜ ๋ถ„์‚ฐ์ด ์ค„์–ด๋“ค๊ณ  ๊ทธ ๊ฒฐ๊ณผ๋กœ ํšŒ๊ท€๋ชจํ˜•์˜ ์ถ”์ •์น˜๋“ค์˜ ํ‘œ์ค€์˜ค์ฐจ๊ฐ€ ๊ฐ์†Œํ•œ๋‹ค. ๋งˆ์ฐฌ๊ฐ€์ง€๋กœ ρ ์— ๋Œ€ํ•œ ์ถ”์ •์น˜์˜ ํ‘œ์ค€์˜ค์ฐจ๋„ ์ค„์–ด๋“ ๋‹ค. 

 

 

 

 

 

 

 

 

 

728x90

๋Œ“๊ธ€