๋ณธ๋ฌธ ๋ฐ”๋กœ๊ฐ€๊ธฐ
1๏ธโƒฃ AI•DS/๐ŸฅŽ Casual inference

์ธ๊ณผ์ถ”๋ก ์˜ ๋ฐ์ดํ„ฐ ๊ณผํ•™ - ๋””์ž์ธ ๊ธฐ๋ฐ˜์˜ ์ธ๊ณผ์ถ”๋ก ์—์„œ์˜ ์ธ๊ณผ ๊ทธ๋ž˜ํ”„ ํ™œ์šฉ

by isdawell 2023. 5. 1.
728x90

์ฐธ๊ณ ์˜์ƒ : Bootcamp 5-2. ๋””์ž์ธ ๊ธฐ๋ฐ˜์˜ ์ธ๊ณผ์ถ”๋ก ์—์„œ์˜ ์ธ๊ณผ๊ทธ๋ž˜ํ”„ ํ™œ์šฉ 

 

 

 

 

 

1. Structure-based Research design 


 

โ—ฏ  ์™œ Research design ์„ ์„ค๊ณ„ํ•˜๋Š” ๊ฒƒ์ด ์ค‘์š”ํ•œ๊ฐ€ 

 

•  ๊ฐฑ๋…„๊ธฐ ํ˜ธ๋ฅด๋ชฌ ์น˜๋ฃŒ๊ฐ€ ์ž๊ถ์•”์„ ์œ ๋ฐœํ•˜๋Š” ๊ฒƒ์— ๋Œ€ํ•œ ์ธ๊ณผ์ถ”๋ก  

 

 

•  ์—ฐ๊ตฌ์ž๋“ค์€ ๊ธฐ์กด์˜ ์—ฐ๊ตฌ๊ฒฐ๊ณผ์— ๋Œ€ํ•ด ์ด์˜๋ฅผ ์ œ๊ธฐ 

โ†ช ์˜ˆ์ผ๋Œ€ํ•™๊ต ์—ฐ๊ตฌ : ํ˜ธ๋ฅด๋ชฌ ์น˜๋ฃŒ์•ฝ์ด ์ž๊ถ์ถœํ˜ˆ์„ ์•ผ๊ธฐํ•˜๊ณ , ๋”ฐ๋ผ์„œ ์ถœํ˜ˆ์ด ์žˆ์œผ๋ฉด ๊ฒ€์‚ฌ๋ฅผ ๋ฐ›๋Š” ๊ฒฝ์šฐ๊ฐ€ ๋งŽ๊ธฐ ๋•Œ๋ฌธ์— ์ž ๋ณตํ•ด์žˆ๋˜ ์ž๊ถ์•”์„ ๋ฐœ๊ฒฌํ•  ๊ฐ€๋Šฅ์„ฑ์ด ๋†’๋‹ค. ์ฆ‰, ํ˜ธ๋ฅด๋ชฌ ์น˜๋ฃŒ๊ฐ€ ์ž๊ถ์•”์„ ์œ ๋ฐœํ•˜๋Š” ๊ฒƒ์ด ์•„๋‹ˆ๊ณ , ์ถœํ˜ˆ์ด ๋ฐœ์ƒํ•˜์—ฌ ๊ฒ€์‚ฌ๋ฅผ ๋ฐ›์•„๋ณด๋‹ˆ ์ž ๋ณตํ–ˆ๋˜ ์ž๊ถ์•”์„ ๋ฐœ๊ฒฌํ–ˆ๋‹ค๋Š” ์ฃผ์žฅ์ธ ๊ฒƒ์ด๋‹ค. 

 

•  ์ž๊ถ์ถœํ˜ˆ์ด๋ผ๋Š” ์š”์ธ์„ ํ†ต์ œํ•จ์œผ๋กœ์จ ์ด๋Ÿฌํ•œ ํšจ๊ณผ๋ฅผ ๋ฐฐ์ œํ•˜๊ณ  ์‹ค์ œ ํ˜ธ๋ฅด๋ชฌ ์น˜๋ฃŒ๊ฐ€ ์ž๊ถ์•” ์œ ๋ฐœ์— ๋Œ€ํ•œ ์ธ๊ณผ๊ด€๊ณ„๋ฅผ ์ถ”์ •ํ•  ์ˆ˜ ์žˆ๋‹ค๊ณ  ์ด์•ผ๊ธฐ ํ•œ๋‹ค → ๊ทธ๋Ÿฌ๋‚˜ ๋‹ค๋ฅธ ์—ฐ๊ตฌ์ž๋“ค์ด ๋ฐ˜๋ฐ•์„ ์ œ๊ธฐ 

โ†ช ํ•˜๋ฒ„๋“œ ๋ฐ ๋ณด์Šคํ„ด ๋Œ€ํ•™ ์—ฐ๊ตฌ : ํ˜ธ๋ฅด๋ชฌ ์น˜๋ฃŒ์— ๋Œ€ํ•œ ๋ฌด์ž‘์œ„ ์‹คํ—˜์ด ๊ฐ€์žฅ ํ™•์‹คํ•œ ์—ฐ๊ตฌ ๋ฐฉ๋ฒ•์ด๊ธด ํ•˜์ง€๋งŒ, ์•” ๋ฐœ๋ณ‘ ํ™•๋ฅ ์„ ๊ฒ€์ฆํ•˜๊ธฐ ์œ„ํ•œ ์‹คํ—˜์€ ์œค๋ฆฌ์ ์œผ๋กœ ๋ฌธ์ œ๊ฐ€ ๋  ์ˆ˜ ๋ฐ–์— ์—†๋‹ค. ๋ฌด์ž‘์œ„ ์‹คํ—˜ ์—†์ด ์ธ๊ณผ๊ด€๊ณ„๋ฅผ ์ถ”๋ก ํ•˜๊ธฐ ์œ„ํ•ด์„  ์ ์ ˆํ•œ ์—ฐ๊ตฌ ๋””์ž์ธ์„ ๊ณ ์•ˆํ•ด์•ผ ํ•œ๋‹ค. 

 

 

๐Ÿ‘‰ Causal structure , Causal Design ์ด ๋งค์šฐ ์ค‘์š”ํ•˜๋‹ค. 

 

 

 

 

 

โ—ฏ  Effect of estrogen and uterine cancer ์— ๋Œ€ํ•œ ์„œ๋กœ ๋‹ค๋ฅธ causal diagram ๊ณผ research design 

 

•  ์ผ๋ฐ˜์ ์œผ๋กœ ์˜ˆ์ƒํ•˜๋Š” ์ธ๊ณผ๊ด€๊ณ„ 

 

 

•  ์˜ˆ์ผ๋Œ€ํ•™๊ต ์ฃผ์žฅ : ํ˜ธ๋ฅด๋ชฌ ์น˜๋ฃŒ์ œ๋กœ ์•ˆํ•œ ์ž๊ถ์ถœํ˜ˆ์ด ์ž๊ถ์•” ์ง„๋‹จ์„ ์œ ๋ฐœํ•˜๋Š” Noncausal association ์ด ์ƒ๊ธด ๊ฒƒ์ด๋‹ค. 

 

 

๋”ฐ๋ผ์„œ ์•„๋ž˜์™€ ๊ฐ™์ด ์ž๊ถ์ถœํ˜ˆ ์š”์ธ์„ ํ†ต์ œํ•˜๋Š” ๊ฒƒ๋งŒ์œผ๋กœ๋„ ํ˜ธ๋ฅด๋ชฌ์ œ์™€ ์•” ์ง„๋‹จ์˜ ์ธ๊ณผ์ ์ธ ํšจ๊ณผ๋ฅผ ์‚ดํŽด๋ณผ ์ˆ˜ ์žˆ๋‹ค. 

 

 

 

•  ํ•˜๋ฒ„๋“œ ๋ฐ ๋ณด์Šคํ„ด ๋Œ€ํ•™๊ต ์‚ฌ๋žŒ๋“ค์˜ ๋ฐ˜๋ฐ• : ์ž๊ถ์•” ๋ฐœ๋ณ‘ ๋˜ํ•œ ์ž๊ถ ์ถœํ˜ˆ์„ ์œ ๋ฐœํ•  ์ˆ˜ ์žˆ๊ธฐ ๋•Œ๋ฌธ์—, ์ถœํ˜ˆ์„ ํ†ต์ œํ•˜๋”๋ผ๋„ ์ธ๊ณผํšจ๊ณผ๋ฅผ ์–ป์–ด๋‚ด๊ธฐ๋Š” ์–ด๋ ต๋‹ค. 

 

 

์ž๊ถ์ถœํ˜ˆ ์—ฌ๋ถ€๋ฅผ ํ†ต์ œํ•˜๊ฒŒ ๋˜๋ฉด, backdoor path ๋Š” block ๋  ์ˆ˜ ์žˆ์ง€๋งŒ ์—ฌ์„ฑ ํ˜ธ๋ฅด๋ชฌ๊ณผ ์ž๊ถ์•” ๋ฐœ๋ณ‘์˜ collider ์—ญํ• ์„ ํ•˜๋Š” ์ž๊ถ์ถœํ˜ˆ์€ conditioning ํ•˜๋ฉด path ๊ฐ€ ์˜คํžˆ๋ ค ์—ด๋ฆฌ๊ฒŒ ๋œ๋‹ค. 

 

 

์•„๋ž˜์™€ ๊ฐ™์ด ๋˜ ๋‹ค๋ฅธ path (ํ˜ธ๋ฅด๋ชฌ-์ถœํ˜ˆ-์ž๊ถ์•”-์ง„๋‹จ) ๊ฐ€ ์—ด๋ฆฌ๊ฒŒ ๋  ์ˆ˜ ์žˆ๋‹ค. 

 

 

•  ๋”ฐ๋ผ์„œ ๋ณ€์ˆ˜ ์ž์ฒด๋ฅผ ํ†ต์ œํ•˜๊ธฐ ๋ณด๋‹จ, ์—ฐ๊ตฌ ๋””์ž์ธ์„ ํ†ตํ•ด์„œ ์—ฌ์„ฑ ํ˜ธ๋ฅด๋ชฌ์ด ์ž๊ถ์ถœํ˜ˆ์— ๋ฏธ์น˜๋Š” ํšจ๊ณผ๋ฅผ ์—ฐ๊ฒฐ๊ณ ๋ฆฌ๋ฅผ ๋Š์–ด๋ฒ„๋ฆฌ๋Š”๊ฒŒ ๋Œ€์•ˆ์ด ๋  ์ˆ˜ ์žˆ๋‹ค. 

 

 

 

 

 

 

 

 

 

2. Design of Control variables / Conditioning strategies 


 

โ—ฏ  Design 

 

 

•  selection on observable strategies ์˜ ์ฃผ์š” ๊ฐ€์ • : ๊ด€์ฐฐ ๊ฐ€๋Šฅํ•œ ๋ณ€์ˆ˜๋“ค๋กœ selection bias ๋ฅผ ๋ชจ๋‘ ์„ค๋ช…ํ•  ์ˆ˜ ์žˆ๋‹ค๊ณ  ๊ฐ€์ • โ‡จ  causal graph ๊ฐ€ ์ด๋Ÿฌํ•œ ์ธก๋ฉด์—์„œ ๋งค์šฐ ์œ ์šฉํ•  ์ˆ˜ ์žˆ๋‹ค. 

 

•  causal graph ๋ฅผ ํ†ตํ•ด ํ†ต์ œ๋ณ€์ˆ˜์— ๋Œ€ํ•œ ๋””์ž์ธ, conditioning ์ „๋žต์„ ์„ธ์›Œ ์ธ๊ณผ์ถ”๋ก ์˜ ์ˆ˜์ค€์„ ๋†’์ผ ์ˆ˜ ์žˆ๋‹ค. 

 

 

 

โ—ฏ  ๋ชจ๋“  control variable ์„ ์‚ฌ์šฉํ•˜๋Š”๊ฒŒ ๊ฐ€์žฅ best ํ•œ ๋ฐฉ๋ฒ•์€ ์•„๋‹ˆ๋‹ค. 

 

•  SOD : ์—ผ๋ถ„์„ญ์ทจ (์›์ธ๋ณ€์ˆ˜) , SBP : ํ˜ˆ์•• (๊ฒฐ๊ณผ๋ณ€์ˆ˜) 

•  AGE (๋‚˜์ด) : confounder, pre-treatment variable

•  PRO (๋‹จ๋ฐฑ์งˆ) : collider, post-treatment variable 

•  ์•„๋ž˜์˜ ๊ตฌ์กฐ ํ•˜์—์„œ ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ๋ฐ์ดํ„ฐ๋ฅผ ์ƒ์„ฑํ•ด์„œ ๋ถ„์„  

•  True effect = 2 : ์‹œ๋ฎฌ๋ ˆ์ด์…˜์—์„œ์˜ regression coefficient ๊ฐ€ 2์— ๊ฐ€๊นŒ์›Œ์•ผ์ง€ ์‹ค์ œ ๊ฒฐ๊ณผ์— ๊ฐ€๊นŒ์šด ๊ฒƒ 

 

 

 

โ‡จ ์–ด๋–ค ๋ถ€๋ถ„์„ ํ†ต์ œํ•˜๋Š๋ƒ์— ๋”ฐ๋ผ ํšŒ๊ท€๋ถ„์„ ๊ฒฐ๊ณผ๊ฐ€ ์–ด๋–ป๊ฒŒ ๋‹ฌ๋ผ์ง€๋Š”์ง€ ์‚ดํŽด๋ด„ 

 

 

โ†ช Model1 : ํ†ต์ œํ•˜์ง€ ์•Š์€ ์ƒํƒœ์—์„œ๋Š” ๊ฒฐ๊ณผ๊ฐ€ true causal effect ๋ณด๋‹ค over-estimate ๋˜๊ณ  ์žˆ๋‹ค. 

โ†ช Model2 : confounder ๋ฅผ conditioning ํ–ˆ์„ ๋•Œ, true causal effect ์— ๊ฐ€๊น๊ฒŒ ๊ณ„์ˆ˜๊ฐ€ ์ถ”์ •๋จ์„ ๋ณผ ์ˆ˜ ์žˆ๋‹ค. 

โ†ช Model3 : collider ์˜ ๊ฒฝ์šฐ๋Š”, conditioning ์„ ํ•˜๋ฉด path ๊ฐ€ ์—ด๋ฆฌ๊ธฐ ๋•Œ๋ฌธ์— ํšŒ๊ท€๋ถ„์„ ๊ฒฐ๊ณผ๊ฐ€ ์•ž์„  ๋ชจ๋ธ๋ณด๋‹ค ์™„์ „ํžˆ ์ •๋ฐ˜๋Œ€์˜ ๋ชจ์Šต์„ ๋„๊ณ  ์žˆ์Œ์„ ๋ณผ ์ˆ˜ ์žˆ๋‹ค. ํšŒ๊ท€๋ถ„์„์—์„œ ๋ชจ๋“  ๋ณ€์ˆ˜๋ฅผ control ํ•˜๋Š”๊ฒŒ ๋Šฅ์‚ฌ๋Š” ์•„๋‹ˆ๋‹ค!

 

 

causal graph ๋ฅผ ์ ๊ทน์ ์œผ๋กœ ํ™œ์šฉํ•ด ์œ ์šฉํ•œ control ๋ณ€์ˆ˜๋ฅผ ์ ์ ˆํžˆ ์‚ฌ์šฉํ•˜๋Š” ๊ฒƒ์ด ์ค‘์š”ํ•˜๋‹ค.

 

 

Backdoor path ๋ฅผ ์•ผ๊ธฐํ•˜๋Š” Confounder ๋“ค์€ ๋ชจ๋‘ control ํ•˜๋Š” ๊ฒƒ์ด ์ข‹๋‹ค. ๋ฐ˜๋ฉด์— ํŠน์ˆ˜ํ•œ ๊ฒฝ์šฐ๋ฅผ ์ œ์™ธํ•˜๊ณค causal path ์˜ ์ค‘๊ฐ„์— ์žˆ๋Š” mediator ๋Š” ํ†ต์ œํ•˜๋ฉด ์•ˆ๋œ๋‹ค. ๊ทธ๋ฆฌ๊ณ  collider (post-treatment) ์˜ ๊ฒฝ์šฐ๋Š” conditioning ์„ ํ•˜๋ฉด ์˜คํžˆ๋ ค backdoor path ๊ฐ€ ์ƒ๊ธฐ๊ธฐ ๋•Œ๋ฌธ์— control ํ•˜๋ฉด ์•ˆ๋œ๋‹ค. 

 

 

 

 

3. Communicating identification assumption 


 

โ—ฏ  Identification assumption : ์ธ๊ณผ์ถ”๋ก ์— ํ•„์š”ํ•œ ๊ฐ€์ •๋“ค 

 

•  ํ†ต๊ณ„์ ์ธ test ์˜ ์˜์—ญ์ด๋ผ๊ธฐ ๋ณด๋‹จ, ์ด๋ก ์ ์ธ ์ •๋‹น์„ฑ์˜ ์˜์—ญ์ด๋‹ค. ๊ฐ€์žฅ ๋Œ€ํ‘œ์ ์ธ ๊ฒƒ์ด ๋„๊ตฌ๋ณ€์ˆ˜์ด๋‹ค. 

 

โ†ช ๋„๊ตฌ๋ณ€์ˆ˜์˜ ๊ฐ€์ • : (1) IV ๊ฐ€ treatment group ์„ ์„ค๋ช…ํ•  ์ˆ˜ ์žˆ์–ด์•ผ ํ•œ๋‹ค, (2) IV ๊ฐ€ ๊ฒฐ๊ณผ๋ณ€์ˆ˜์— ์˜ํ–ฅ์„ ์ฃผ๋Š” unobserved factor ์™€ ๊ด€๊ณ„์žˆ๋Š” error term ๊ณผ ์ƒ๊ด€์ด ์—†์–ด์•ผ ํ•œ๋‹ค โ‡จ ์ฒซ๋ฒˆ์งธ ๊ฐ€์ •์€ ํ†ต๊ณ„์ ์œผ๋กœ ๊ฒ€์ฆํ•  ์ˆ˜ ์žˆ์ง€๋งŒ ๋‘๋ฒˆ์งธ ๊ฐ€์ •์€ ํ†ต๊ณ„์ ์œผ๋กœ ๊ฒ€์ฆํ•ด๋‚ด๊ธฐ ์‰ฝ์ง€ ์•Š๋‹ค. 

 

 

 

•  ํ†ต๊ณ„์ ์ธ ๊ฐ€์ •์˜ ๊ตฌ๋ถ„ 

 

โ‘  Violation of Exclusion restriction : ๋„๊ตฌ๋ณ€์ˆ˜๊ฐ€ ์‹ค์ œ๋กœ ๊ฒฐ๊ณผ๋ณ€์ˆ˜์— ์˜ํ–ฅ์„ ๋ฏธ์ณ์•ผ ๋˜๋Š”๋ฐ, treatment variable ์„ ํ†ตํ•ด์„œ๋งŒ ๊ฒฐ๊ณผ๋ณ€์ˆ˜์— ์˜ํ–ฅ์„ ๋ฏธ์ณ์•ผ ํ•œ๋‹ค. 

 

โ‘ก Violation of Exogeneity of IV : ๋„๊ตฌ๋ณ€์ˆ˜๊ฐ€ ๊ฒฐ๊ณผ๋ณ€์ˆ˜์ธ y์— ์•„๋ฌด๋Ÿฐ ๊ด€๊ณ„๊ฐ€ ์—†์–ด์•ผ ํ•œ๋‹ค. ์ฆ‰, confounder ๊ฐ€ ์—†์–ด์•ผ ํ•œ๋‹ค. 

 

 → 1๋ฒˆ, 2๋ฒˆ ๋ชจ๋‘ ํ†ต๊ณ„์ ์œผ๋กœ error term ๊ณผ ๊ด€๊ณ„๊ฐ€ ์—†์–ด์•ผ ํ•œ๋‹ค๋Š” ๋‚ด์šฉ์œผ๋กœ ์˜๋ฏธํ•˜๋Š”๋ฐ”๋Š” ๋™์ผํ•˜์ง€๋งŒ, ๊ทธ๋ž˜ํ”„๋ฅผ ํ™œ์šฉํ•ด์„œ condtition ์„ ๋‹ค๋ฅด๊ฒŒ ํ‘œํ˜„ํ•  ์ˆ˜ ์žˆ๋‹ค. 

 

 

  

 

 

 

 

4. Transportability : From RCTs to Observational studies 


 

•  ์‹คํ—˜์ ์ธ ์ ‘๊ทผ๋ฐฉ๋ฒ•์„ ํ†ตํ•œ ์ธ๊ณผ์ถ”๋ก ์„ ํ•˜๊ณ ์ž ํ•˜๋Š” ๋ฐฉ๋ฒ• 

•  ํŠน์ • ์ง‘๋‹จ, ์ƒํ™ฉ์—์„œ์˜ ์ธ๊ณผ์ถ”๋ก ์€ ๋‹ค๋ฅธ ์ƒํ™ฉ์ด๋‚˜ ์ง‘๋‹จ์— ์ ์šฉ๋˜์ง€ ์•Š์„ ์ˆ˜ ์žˆ๋‹ค 

 

•  Transportability : RCT ๋‚˜ causal inference ์˜ ๊ฒฐ๊ณผ๋ฅผ ๋‹ค๋ฅธ ์ง‘๋‹จ์— ์ ์šฉํ•  ์ˆ˜ ์žˆ๋Š”์ง€์˜ ์—ฌ๋ถ€ 

 

 

•  ์‹คํ—˜์—์„œ์˜ ๊ฒฐ๊ณผ๋‚˜ causal experiment ์˜ ๊ฒฐ๊ณผ๋ฅผ ๋‹ค๋ฅธ setting ์— ์ ์šฉํ•˜๋Š” ๊ฒƒ์€ ํฐ ์ž ์žฌ์„ฑ์ด ์žˆ๋‹ค. 

 

 

 

 

 

728x90

๋Œ“๊ธ€