인과추론의 데이터 과학 - ML for Causal inference : 인과추론 기반의 예측 모델링 평가

isdawell 2023. 6. 21. 17:22

728x90

👀 인과추론 개인 공부용 포스트 글입니다. 출처는 첨부한 링크를 참고해주세요!

① Evaluating Recommendation algorithms in Netflix

• 실제로 산업 현장에선 알고리즘에 대한 Evaluation 이 A/B test 로 이루어지고 있다.

• Test set 에서의 효과가 실제 비즈니스 현장에 적용했을 때까지 그대로 나타나려면, 사람들이 새로운 알고리즘에 대해 이전과 동일한 행동양상으로 대응할 것이라는 가정이 만족되어야 하는데, 실제로는 그렇지 않다. 따라서 Test set 에서 좋은 성능을 보였다 하더라도, 실제로는 performance 가 나오지 않을 수 있다. 따라서 과거 데이터에서 ofline experiment 를 한 후에, 과거의 알고리즘과 새로운 알고리즘 사이의 A/B test 를 진행하여 알고리즘 효과를 검증해야 한다. 이렇게 효과가 검증된 후에 실제 서비스에 적용한다.

② Predictive models are also subject to selection bias

• 많은 경우 예측모델도 selection bias 로부터 자유롭지 않다.

• 현실에서 많은 데이터들은 선택된 outcome 만 관찰할 수 있는 경우가 대다수다 = selection label

◯ ex. 재범율 예측

↪ 판사에 의해 jail 된 사람들에 대해서는 애초에 재범율에 대한 관측이 불가능하다. release 된 사람들을 대상으로만 재범을 했는지에 대해 살펴볼 수 있는 selective labels 데이터만 활용이 가능하다.

↪ Bias 를 없애는 가장 좋은 방법은 일단 알고리즘을 랜덤하게 법원 별로 적용해보고 판사의 판단과 알고리즘의 판단을 비교해보는 것인데, 이는 아직 검증되지 않은 알고리즘을 실제 적용하는 측면에서 비윤리적일 수 밖에 없다. 따라서 할 수 있는 방법은 주어진 데이터를 활용하는 것 뿐이다. 알고리즘에서는 시뮬레이션을 통해 예측하는데, 이 또한 판사의 판결과 직접적으로 비교하기는 어렵다. 대부분 알고리즘의 효과가 크다고 나올 수 밖에 없다.

↪ 판사들의 성향에 따라 석방률이 달라진다는 것을 발견하였고, 좀 더 엄격하지 않은 판사가 석방한 비율의 55% 에서 5%만 알고리즘 예측을 적용해봄

• 알고리즘을 개발할 때, 컴퓨터 상에서 test set 에 대해 평가하는 것도 중요하지만, 그것을 넘어서 현실 문제에 적용하고, 현실 상황에서 성능을 평가하는데 있어서 selective labels 문제가 발생할 수 있고 그렇기 때문에 이러한 predictive modeling 에 있어서도 causal modeling 관점이 필요하다. Research design 이 predictive modeling 에서도 중요하다.

728x90