์ธ๊ณผ์ถ๋ก ์ ๋ฐ์ดํฐ ๊ณผํ - ML for Causal inference : ์ธ๊ณผ์ถ๋ก ๊ธฐ๋ฐ์ ์์ธก ๋ชจ๋ธ๋ง ํ๊ฐ
๐ ์ธ๊ณผ์ถ๋ก ๊ฐ์ธ ๊ณต๋ถ์ฉ ํฌ์คํธ ๊ธ์ ๋๋ค. ์ถ์ฒ๋ ์ฒจ๋ถํ ๋งํฌ๋ฅผ ์ฐธ๊ณ ํด์ฃผ์ธ์!
โ Evaluating Recommendation algorithms in Netflix
• ์ค์ ๋ก ์ฐ์ ํ์ฅ์์ ์๊ณ ๋ฆฌ์ฆ์ ๋ํ Evaluation ์ด A/B test ๋ก ์ด๋ฃจ์ด์ง๊ณ ์๋ค.
• Test set ์์์ ํจ๊ณผ๊ฐ ์ค์ ๋น์ฆ๋์ค ํ์ฅ์ ์ ์ฉํ์ ๋๊น์ง ๊ทธ๋๋ก ๋ํ๋๋ ค๋ฉด, ์ฌ๋๋ค์ด ์๋ก์ด ์๊ณ ๋ฆฌ์ฆ์ ๋ํด ์ด์ ๊ณผ ๋์ผํ ํ๋์์์ผ๋ก ๋์ํ ๊ฒ์ด๋ผ๋ ๊ฐ์ ์ด ๋ง์กฑ๋์ด์ผ ํ๋๋ฐ, ์ค์ ๋ก๋ ๊ทธ๋ ์ง ์๋ค. ๋ฐ๋ผ์ Test set ์์ ์ข์ ์ฑ๋ฅ์ ๋ณด์๋ค ํ๋๋ผ๋, ์ค์ ๋ก๋ performance ๊ฐ ๋์ค์ง ์์ ์ ์๋ค. ๋ฐ๋ผ์ ๊ณผ๊ฑฐ ๋ฐ์ดํฐ์์ ofline experiment ๋ฅผ ํ ํ์, ๊ณผ๊ฑฐ์ ์๊ณ ๋ฆฌ์ฆ๊ณผ ์๋ก์ด ์๊ณ ๋ฆฌ์ฆ ์ฌ์ด์ A/B test ๋ฅผ ์งํํ์ฌ ์๊ณ ๋ฆฌ์ฆ ํจ๊ณผ๋ฅผ ๊ฒ์ฆํด์ผ ํ๋ค. ์ด๋ ๊ฒ ํจ๊ณผ๊ฐ ๊ฒ์ฆ๋ ํ์ ์ค์ ์๋น์ค์ ์ ์ฉํ๋ค.
โก Predictive models are also subject to selection bias
• ๋ง์ ๊ฒฝ์ฐ ์์ธก๋ชจ๋ธ๋ selection bias ๋ก๋ถํฐ ์์ ๋กญ์ง ์๋ค.
• ํ์ค์์ ๋ง์ ๋ฐ์ดํฐ๋ค์ ์ ํ๋ outcome ๋ง ๊ด์ฐฐํ ์ ์๋ ๊ฒฝ์ฐ๊ฐ ๋๋ค์๋ค = selection label
โฏ ex. ์ฌ๋ฒ์จ ์์ธก
โช ํ์ฌ์ ์ํด jail ๋ ์ฌ๋๋ค์ ๋ํด์๋ ์ ์ด์ ์ฌ๋ฒ์จ์ ๋ํ ๊ด์ธก์ด ๋ถ๊ฐ๋ฅํ๋ค. release ๋ ์ฌ๋๋ค์ ๋์์ผ๋ก๋ง ์ฌ๋ฒ์ ํ๋์ง์ ๋ํด ์ดํด๋ณผ ์ ์๋ selective labels ๋ฐ์ดํฐ๋ง ํ์ฉ์ด ๊ฐ๋ฅํ๋ค.
โช Bias ๋ฅผ ์์ ๋ ๊ฐ์ฅ ์ข์ ๋ฐฉ๋ฒ์ ์ผ๋จ ์๊ณ ๋ฆฌ์ฆ์ ๋๋คํ๊ฒ ๋ฒ์ ๋ณ๋ก ์ ์ฉํด๋ณด๊ณ ํ์ฌ์ ํ๋จ๊ณผ ์๊ณ ๋ฆฌ์ฆ์ ํ๋จ์ ๋น๊ตํด๋ณด๋ ๊ฒ์ธ๋ฐ, ์ด๋ ์์ง ๊ฒ์ฆ๋์ง ์์ ์๊ณ ๋ฆฌ์ฆ์ ์ค์ ์ ์ฉํ๋ ์ธก๋ฉด์์ ๋น์ค๋ฆฌ์ ์ผ ์ ๋ฐ์ ์๋ค. ๋ฐ๋ผ์ ํ ์ ์๋ ๋ฐฉ๋ฒ์ ์ฃผ์ด์ง ๋ฐ์ดํฐ๋ฅผ ํ์ฉํ๋ ๊ฒ ๋ฟ์ด๋ค. ์๊ณ ๋ฆฌ์ฆ์์๋ ์๋ฎฌ๋ ์ด์ ์ ํตํด ์์ธกํ๋๋ฐ, ์ด ๋ํ ํ์ฌ์ ํ๊ฒฐ๊ณผ ์ง์ ์ ์ผ๋ก ๋น๊ตํ๊ธฐ๋ ์ด๋ ต๋ค. ๋๋ถ๋ถ ์๊ณ ๋ฆฌ์ฆ์ ํจ๊ณผ๊ฐ ํฌ๋ค๊ณ ๋์ฌ ์ ๋ฐ์ ์๋ค.
โช ํ์ฌ๋ค์ ์ฑํฅ์ ๋ฐ๋ผ ์๋ฐฉ๋ฅ ์ด ๋ฌ๋ผ์ง๋ค๋ ๊ฒ์ ๋ฐ๊ฒฌํ์๊ณ , ์ข ๋ ์๊ฒฉํ์ง ์์ ํ์ฌ๊ฐ ์๋ฐฉํ ๋น์จ์ 55% ์์ 5%๋ง ์๊ณ ๋ฆฌ์ฆ ์์ธก์ ์ ์ฉํด๋ด
• ์๊ณ ๋ฆฌ์ฆ์ ๊ฐ๋ฐํ ๋, ์ปดํจํฐ ์์์ test set ์ ๋ํด ํ๊ฐํ๋ ๊ฒ๋ ์ค์ํ์ง๋ง, ๊ทธ๊ฒ์ ๋์ด์ ํ์ค ๋ฌธ์ ์ ์ ์ฉํ๊ณ , ํ์ค ์ํฉ์์ ์ฑ๋ฅ์ ํ๊ฐํ๋๋ฐ ์์ด์ selective labels ๋ฌธ์ ๊ฐ ๋ฐ์ํ ์ ์๊ณ ๊ทธ๋ ๊ธฐ ๋๋ฌธ์ ์ด๋ฌํ predictive modeling ์ ์์ด์๋ causal modeling ๊ด์ ์ด ํ์ํ๋ค. Research design ์ด predictive modeling ์์๋ ์ค์ํ๋ค.