์ฐธ๊ณ ์์ : Bootcamp 5-4. Transporting
• Transporting Causal effects across populations using structural causal modeling: the example of work-from-home productivity
• ์ฐ๊ตฌ๋๊ธฐ : ์ธ๊ณผ๊ด๊ณ ์ถ๋ก ์ ์ํด์ ๊ฐ์ฅ ํ๋นํ๋ค๊ณ ์ฌ๊ฒจ์ง๋ ๋ฐฉ๋ฒ์ RCT ๋ฅผ ์ด์ฉํ ์ถ๋ก ์ด๋ค. ๊ด์ฌ์๋ ๋ถ๋ถ์ด ์ธ๊ณผํจ๊ณผ๋ผ๋ฉด, ์ธ๋ถ ์์ธ๋ค์ ํต์ ํจ์ผ๋ก์จ ์ถ๋ก ์ ํ๋น์ฑ์ ์ป์ ์ ์๋ค. ๊ทธ๋ฌ๋ ์คํ์ ๊ฒฐ๊ณผ๋ฅผ ๋ ๋ค๋ฅธ ์ธํ ์ ์ ์ฉํ์ ๋ ๊ทธ๊ฒ์ด ๋ฌด์กฐ๊ฑด ํ๋นํ์ง ์๋ค. ๊ทธ๋ฌ๋ ์ฐ๊ตฌ์๋ค์ ์ฐ๊ตฌ ๊ฒฐ๊ณผ๋ฅผ ์ข ๋ general ํ๊ฒ ์ฌ์ฉํ๊ณ ์ถ์ดํ๋ค.
1. Motivation: types of external validity (์ธ์ ํ๋น์ฑ)
โฏ Statistical generalization
• Sample → Population
โฏ Replicability
• ํ๋์ ์คํ์ ์ฌ๋ฌ ํ๊ฒฝ์์ ๋ฐ๋ณตํด์ ์ํ → ์ป์ด์ง๋ ๊ฒฐ๊ณผ๋ฅผ ์ข ํฉํด ์ฐ๊ตฌ๊ฒฐ๊ณผ๊ฐ general ํ๊ฒ ์ ์ฉ๋จ์ ๋ณด์ฌ์ค โจ ๊ทธ๋ฌ๋ RCT ๋ ๋น์ฉ์ด ๋ง์ด๋ค๊ณ ๋๋ก๋ ์ค๋ฆฌ์ ์ธ ๋ฌธ์ ๊ฐ ๋ฐ์ํ ์๋ ์์
โฏ Transportability
• ํ๋์ ๋ชจ์ง๋จ์์ ์คํ์ ํตํด ์ป์ ์ธ๊ณผํจ๊ณผ๋ฅผ ์ด์ฉํด์, ์คํ์ด ๊ฐ๋ฅํ์ง ์์ ํน์ ๊ด์ธก ๋ฐ์ดํฐ๋ง ์ด์ฉ๊ฐ๋ฅํ ๋ ๋ค๋ฅธ ๋ชจ์ง๋จ์์์ ๋์ผํ ์ธ๊ณผํจ๊ณผ๋ฅผ ์ถ์ ํ๋ ๋ฐฉ๋ฒ์ด๋ค.
• Source population, Target Population ์ด๋ ๊ฒ ๋ ๊ฐ์ ๋ชจ์ง๋จ์ด ์ ์๋์ด์ผ ํ๋ค.
• source population ์์ ์ป์ด์ง๋ ๊ฒฐ๊ณผ๋ ๋ฐ๋์ ์คํ์ผ๋ก ์ธํ ๊ฒฐ๊ณผ์ผ ๊ฒ = transportability ์ ํ์ฉํ ์ธ๊ณผํจ๊ณผ๊ฐ ๋ฐ๋์ ํ๋นํด์ผ ํ๋ค.
• Target population ๋ ๊ด์ฌ์์ด ํ๋ ์ธ๊ณผํจ๊ณผ๋ฅผ ์๋กญ๊ฒ test ํด๋ณด๊ณ ์ถ์ ์ง๋จ์ผ๋ก, target population ๊ณผ ๊ด๋ จํด์ ์ป์ ์ ์๋ ๋ฐ์ดํฐ๋ ์ค์ง ๊ด์ธก ๋ฐ์ดํฐ์ด๋ค.
→ ์ธ๊ณผ์ถ๋ก ์ด ๊ฐ๋ฅํ ์ง๋จ์ผ๋ก๋ถํฐ ์ธ๊ณผ์ถ๋ก ์ด ๋ถ๊ฐ๋ฅํ ์ง๋จ์ ๊ฐ๋ฅํ๊ฒ ๋ง๋๋ ๊ฒ์ด Transportability ์ ํต์ฌ!
2. Transportability
โฏ Causal diagrams
• causal diagram ์ ํตํด์ ๊ด์ฌ์๋ ์ธ๊ณผํจ๊ณผ๋ฅผ ์ถ์ ํ๊ณ ์ฌ๋ฌ ๊ฐ์ ๋ค์ ํ์ธํด ๋ณผ ์ ์๋ ๊ธฐ์ค์ ์ ๊ณตํ๋ค.
• (A) : Z ๋ fork node, (B) : W๋ chain node, (C) : Z๋ Collider node
โฏ D-separation
• fork node Z : confounding ํจ๊ณผ๊ฐ ์๊ธฐ ๋๋ฌธ์ block ํจ์ผ๋ก์จ ์ ๊ฑฐํ๋ค.
• collider node Z : ์ด๋ฏธ ๊ฒฝ๋ก๊ฐ ๋ซํ์๊ธฐ ๋๋ฌธ์ ์๋ฌด๋ฐ ์กฐ์น๋ฅผ ์ทจํ์ง ์์๋ ๋๋ค. ์คํ๋ ค conditioning ํ๊ฒ ๋๋ฉด confounding ์ด ์๊ธด๋ค.
• Principles
โฏ Selection diagrams
• Special variable S
โช ๋ ์ข ๋ฅ์ ๋ชจ์ง๋จ์ ์ฌ์ฉํ๋ค. ๋ ๋ชจ์ง๋จ์ด ๊ณตํต์ causal structure ๋ฅผ ๊ณต์ ํ๊ณ ์๋ค๋ ์ ์ ๊ฐ ํ์ํด์ ๋ฑ์ฅํ ๊ฐ๋ ์ด๋ค.
โช ์ง๋จ์ด ๋ค๋ฅด๊ธฐ ๋๋ฌธ์ ๋ฐ์ํ๋ ์ฐจ์ด๋ฅผ ์ธ์งํ๊ณ ์๊ณ , ์ด ์ฐจ์ด๋ฅผ ๊ทธ๋ํ๋ก ํํํด์ผ ํ๊ธฐ ๋๋ฌธ์ S๋ฅผ ์ฌ์ฉํ์ฌ ๊ทธ ์ฐจ์ด๋ฅผ ํํํ๋ค.
โช EX. Z : ์๋์์ค, source : ๋ฏธ๊ตญ, target : ๋คํ โจ ๋ฏธ๊ตญ๊ณผ ๋คํ์ ์๋์์ค ์ฐจ์ด๋ฅผ S ๋ก ํํ
โช source ๋ผ๋ฉด ์๋ฌธ์ s ๋ฅผ ๊ฐ์ง๊ณ , target ์ด๋ผ๋ฉด s* ํ์๋ฅผ ๊ฐ๋๋ค.
• Target causal effect : P(Y | do(X), S = s*)
โช ์ฌ๋ฌ Rule ๋ค์ ์ ์ฉํด์ do operator ๋ฅผ S=s* ๋ก๋ถํฐ ๋ถ๋ฆฌํด๋ผ ์ ์๋ค๋ฉด ์ธ๊ณผ๊ด๊ณ๋ฅผ transport ํ ์ ์๋ค.
โฏ Objective
ํ์ค๋ฌธ์ ์ ์ด๋ป๊ฒ transportability ์ด๋ก ์ ์ ์ฉํ ์ง
3. Example : ์ฌํ๊ทผ๋ฌด๊ฐ ๊ฐ์ธ์ ์์ฐ์ฑ์ ๋ฏธ์น๋ ์ํฅ
โฏ Example
• X : ์ฌํ๊ทผ๋ฌด, Y : ์์ฐ์ฑ
• ์ฌํ๊ทผ๋ฌด์ ๋ํ ๊ฐ์ธ์ ์ ํธ๋์, ์ค์ ์ฌํ๊ทผ๋ฌด๋ฅผ ํ๋์ง์ ์ฌ๋ถ๋ฅผ ๋ถ๋ฆฌํ์ฌ, Self-selection ๋ฌธ์ ์ Eligibility ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ณ ์ ํ๋ค.
• ๋ ๊ฐ์ ๋ชจ์ง๋จ์ ๊ตฌ์ฑ : ์ค๊ตญ์ ์ฃผ์ ์ฌํ์ฌ์ ์ฝ์ผํฐ ์ง์๋ค์ ๋ํ RCT ์ฐ๊ตฌ, ๋ฏธ๊ตญ์ ๋ ธ๋๊ฐ๋ฅ์ธ๊ตฌ ๋ฐ์ดํฐ
• Source population ์ ๊ตฌ์ฑ : ์ค๊ตญ Bloom ์ฐ๊ตฌ์์์, ํด๋น ์ฃผ์ ์ ๋ํด RCT ๋ฅผ ์ํํ๋ฉด์ ์ด๋ค ํ๋ก์ธ์ค๋ฅผ ํตํด sample ์ ์ป๋์ง์ ๋ํด ์์ธํ๊ฒ ์์ฑํ๊ณ ๊ทธ์ ๊ด๋ จ๋ ๋ฐ์ดํฐ๋ฅผ ์ ๋ถ ๊ณต๊ฐํ๋ค. ์ง์๋ค์ด ์๋ฐ์ ์ผ๋ก ์คํ์ ์ฐธ์ฌํ๊ธฐ ๋๋ฌธ์, ๊ทธ๋ค์ productivity ๊ฐ ๋์ ๊ฒ์ด๋ผ๋ ๋ถ๋ถ๋ ๊ณ ๋ คํ๋ค.
โช ์คํ์ ์ฐธ์ฌํ๊ธฐ์ ์ถฉ๋ถํ ์๊ฒฉ์๊ฑด์ ๊ฐ์ก์ง๋ง, ์ ์ ์คํ์๋ ์ง์ํ์ง ์์ 190๋ช ์ ์ง์๋ค์ ์ 2์ control group ์ผ๋ก ๊ตฌ์ฑ, ์คํ์ ์ง์ํ ์ง์ ์ค 131๋ช ์ ์ง์์ด treatment ๋ฅผ ๋ฐ์ group, ์คํ์ ์ง์์ ํ์ง๋ง treatment ๋ฅผ ๋ฐ์ง ๋ชปํ 118๋ช ์ ์ง์์ด control group ์ด ๋๋ค.
• Target population ์ ๊ตฌ์ฑ : ์๋ ๋ฐ์ดํฐ๋ observational data ๋ก ์ฌํ๊ทผ๋ฌด๋ฅผ ํ๋ ์ฌ๋๊ณผ ํ์ง ์์ ์ฌ๋์ ์ธ๊ตฌํต๊ณํ์ ํน์ฑ์ ๋ํ๋ด๊ณ ์๋ค.
• ๊ฐ group ์์์ ๊ฒฐ๊ณผ
โฏ Proposed six-step procedure for transportability
• transportability ๋ฅผ ์ด์ฉํด์ target ์ง๋จ์ causal effect ๊ฐ์ ์ถ์ ํด๋ณด์
• (1)~(3) : causal diagram ์ ๊ฒฐ๊ณผ๋ก ์ป๊ธฐ ์ํ ๋จ๊ณ
โช (1) ๊ด์ฌ์์ดํ๋ ํ์๊ณผ ๊ด๋ จ๋ ๋ณ์๋ค์ ํ์ธ : ํ์๊ณผ ๊ด๋ จ๋ ๋ฌธํ์๋ฃ๋ค์ ๊ฒํ , causal knowledge ์ป๊ธฐ. ์ฌํ๊ทผ๋ฌด ์์ฐ์ฑ ์์ ์ ๊ฒฝ์ฐ์๋ ๊ต์ก ์์ค์ด๋ ๊ฒฐํผ ์ฌ๋ถ ๋ฑ์ด ์ถ์ ํ๋๋ฐ confounding ํจ๊ณผ๋ก ์๋ ค์ ธ ์๋ค. ๋ฐ๋ผ์ ์ด๋ค์ ๋ณ์๋ก ์ผ๋ํด๋๊ณ ๋ค์ ๋จ๊ณ๋ก ๋์ด๊ฐ๋ค.
โช (2) ๋ช ์ํด๋ ๋ณ์๋ค ์ฌ์ด์ ๊ด๊ณ๋ฅผ ๋ถ๋ช ํ ํจ : ๋ณ์๋ค์ ์ธ๊ณผ๊ด๊ณ๋ฅผ ๊ฐ์ง ์ ์๊ณ , confounding ํจ๊ณผ๊ฐ ์์ ์ ์๋ค.
โช (3) ๋ชจ๋ ์ฌ์ค๋ค์ ์ข ํฉํด causal diagram ์ ๋ง๋ ๋ค.
• (4)~(5) : target ์ง๋จ์์ causal effect ์ ์๋ณ์ด ๊ฐ๋ฅํ์ง ํ๋จํ๊ณ , ๊ฐ๋ฅํ๋ค๋ฉด transport formula ๋ฅผ ์ ๋ํ๊ฒ ๋๋ค. ์๋ณ๊ฐ๋ฅํ์ง ์์ ๊ฒฝ์ฐ์๋, ์ธ๊ณผ๊ด๊ณ ์ถ์ ์ด ๋ณ๋์ ์กฐ์น ์์ด๋ ๋ถ๊ฐ๋ฅํ๋ค.
• (6) : ์ธ๊ณผ๊ด๊ณ ํจ๊ณผ๋ฅผ ์ถ์ ํ๋ค. ๋ฐ์ดํฐ ์์ค์ ์ต์ํ ํด์ผ ํจ์ ์ฃผ์ํด์ผ ํ๋ค.
4. ๊ฐ ๋จ๊ณ ์์ธํ ์ดํด๋ณด๊ธฐ
โฏ Causal diagram ์ ๋ง๋๋ ๋ฐฉ๋ฒ
• X : ์ฌํ๊ทผ๋ฌด ์ ํธ๋, Y : ์์ฐ์ฑ, Z : ์ฌํ๊ทผ๋ฌด๋ฅผ ์ค์ ๋ก ํ๋์ง ์ฌ๋ถ, W : confounding ์ ์ํฅ์ ๋ฏธ์น ์ ์๋ covariates (์ธ๊ตฌํต๊ณํ์ ๋ณ์๋ค)
• s : ์ด๋ค ์ง๋จ์ด ํ์ฌ ๊ณ ๋ ค๋๊ณ ์๋์ง ๋ํ๋ด๊ณ ์๋ ์งํ. s ๋ ์ค๊ตญ, s* ๋ ๋ฏธ๊ตญ (target ์ง๋จ)์ ์๋ฏธํ๋ค. s๋ก๋ถํฐ ๋์ค๋ outgoing ํ์ดํ๊ฐ ์๋ค๋ฉด, ํฌ์ธํ ํ๊ณ ์๋ ๋ณ์์ ๋ถํฌ๊ฐ ์ง๋จ๋ณ๋ก ์ฐจ์ด๋ฅผ ๋ณด์ด๊ณ ์์์ ์๋ฏธํ๋ค. ๊ฐ๋ น s ๊ฐ W๋ฅผ ํฌ์ธํธํ๊ณ ์๋๋ฐ, ์ด๋ W์ ๋ถํฌ๊ฐ source ์ง๋จ๊ณผ target ์ง๋จ ์ฌ์ด์ ์ฐจ์ด๊ฐ ์กด์ฌํจ์ ์๋ฏธํ๋ค.
• ๋ชจ๋ ์ธ๊ณผ๊ด๊ณ๋ ์ค์ ์ผ๋ก ํ์๋๊ณ , ๊ด์ธก๋์ง ์์ ๋ณ์๋ก ์ธํ confounding ํจ๊ณผ๊ฐ ์๋ค๊ณ ์๊ฐ๋ ๋๋ ์ ์ ์ผ๋ก ํ์ํ๋ค.
โฏ ๋์์ ์ธ ์๋๋ฆฌ์ค๋ค๊ณผ ๋น๊ตํ๋ฉฐ robustness ํ๋ณด
• ์ฌ๋ฌ ๋ชจ๋ธ์ ๋์์ ๊ณ ๋ คํ๋ฉด์ robustness ๋ฅผ ํ๋ณดํ๋ค.
• ์ด๋ป๊ฒ causal diagram ์ ๋ง๋๋๋๊ฐ ์ค์ํ๋ค.
โฏ Choosing the right causal diagram
• ๋ชจ๋ธ์์ ๋ณด์ด๋ ์กฐ๊ฑด๋ถ ๋ ๋ฆฝ์ด, ์ค์ ๋ก ๋ฐ์ดํฐ์์ ๋ํ๋๋ ์กฐ๊ฑด๋ถ ๋ ๋ฆฝ๊ณผ ๋งค์นํ๋ค๋ฉด, ๊ทธ ๋ชจ๋ธ์ ์ค์ง์ ์ผ๋ก ์ ์ฆํ ์ ์๋ค๊ณ ์ ์ํ๋ค.
• diagram ์ ์ ๊ตํ๊ฒ ๋ง๋๋ ๋ฐฉ๋ฒ๋ค : ์ด๋ก ๊ธฐ๋ฐ ๋ฐ ๋ฐ์ดํฐ๊ธฐ๋ฐ์ ์ ๊ทผ, causal discovery algorithms ๋ฑ
โฏ Transport formula ์ ๋
โฏ Data mapping of fusion
• ํด๋ฌ์คํฐ๋ง์ ํ์ฉํด์ ๋น์ทํ ์ง๋จ์ ๋ฌถ์๋ค. ์ด๋ ๊ฒ ํจ์ผ๋ก์จ ์์ ์ง๋จ์ด 0์ธ ๊ฒฝ์ฐ๋ฅผ ์ ๊ฑฐํ๊ณ ์ ํ๋ค.
โฏ ๊ฒฐ๊ณผ
'1๏ธโฃ AIโขDS > ๐ฅ Casual inference' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[Causal ML] Causal inference ๊ณ ๋ ค๋ ์ฐ๊ณต ์ธ๋ฏธ๋ ๋ด์ฉ์ ๋ฆฌ (0) | 2023.05.07 |
---|---|
[Causal ML] ๊ฐ์ฐ์๋ฃ ์ ๋ฆฌ (0) | 2023.05.06 |
์ธ๊ณผ์ถ๋ก ์ ๋ฐ์ดํฐ ๊ณผํ - ๊ตฌ์กฐ์ ์ธ๊ณผ๋ชจํ (1) | 2023.05.01 |
์ธ๊ณผ์ถ๋ก ์ ๋ฐ์ดํฐ ๊ณผํ - ๋์์ธ ๊ธฐ๋ฐ์ ์ธ๊ณผ์ถ๋ก ์์์ ์ธ๊ณผ ๊ทธ๋ํ ํ์ฉ (0) | 2023.05.01 |
์ธ๊ณผ์ถ๋ก ์ ๋ฐ์ดํฐ ๊ณผํ - ์ธ๊ณผ๊ทธ๋ํ (0) | 2023.04.28 |
๋๊ธ