본문 바로가기
3️⃣ Study at Univ/○ 논문읽기

[Causal Forest] 머신러닝 기반의 인과 포레스트 기법을 활용한 처치효과 검증: 교내 동아리활동 참여가 협업능력에 미치는 효과를 중심으로

by isdawell 2024. 1. 23.
728x90

 

 

●  [Research Topic]  ● 

 

 ∘  Causal Forest 기법을 활용해 처치효과를 검증 

 ∘  교내 동아리 활동 참여가 협업 능력에 미치는 효과 분석 : 동아리 활동이 협업능력에 미치는 평균 처치효과 (ATE) 를 추정함과 동시에 성별, 또래관계, 교사관계에 따라 동아리활동의 효과가 다르게 나타나는지 (Heterogeneous treatment effects) 도 탐색 

 

 

 

 

●  [Introduction]  ● 

 

⑴ 기존 연구 방식

 

 ∘  처치들에 대한 효과를 Randomized experiments 혹은 Observational data 를 이용해 검증하려는 노력이 이루어지고 있다. Randomized experiments 는 연구자가 처치 할당을 하기 때문에 참여자에 의한 Selection bias 가 발생하지 않는다.

 

그러나 Observational data를 사용하는 경우 연구자 이외의 다른 요소들로 인해 처치가 결정되므로 선택편의 문제가 발생한다. 이를 없애기 위한 여러 통계적 방법들이 사용되고 있으며, 그중 가장 많이 사용되는 것이 Propensity Score 다. 개개인이 처치를 받을 조건적 확률을 계산하는 방법이다. 이분형 처치변수라면 일반적으로 로지스틱 모형을 사용해 경향 점수를 추정한다. 

 

 

⑵ 머신러닝 도입이 필요한 이유

 

 ∘  연구자가 사전지식을 바탕으로 공변인들과 처치변수의 관계를 직접 모형에서 설정하고, 설정된 모형을 바탕으로 경향점수 및 처치효과를 추정한다. 그러나, 사전 지식만으로 변수들 간의 관계를 파악하기 어려운 경우가 많다. 사전연구가 많이 진행되지 않았거나, 표본의 특수성으로 사전 지식과 일치하지 않는다거나, 변수들이 고차항의 관계와 같이 복잡한 양상이라 결과를 예측하기 어렵다거나, 데이터가 방대해서 모든 변수들 간의 관계를 파악하기 어려운 경우 등이 있다.

 

또한 선형 회귀모형이나 로지스틱 회귀모형 같은 모수적 방법의 경우는 변수들간의 특정한 관계를 미리 가정하고서 모수를 추정하기 때문에, 함수적 관계 (ex. 공변인과 로짓 간의 선형관계) 가 적절할 때는 효과적인 추정이겠지만, 그렇지 않다면 데이터 특성에 따라 모형을 유연하게 적용하기에는 제약이 있다. 

 

이러한 상황에서 머신러닝 기법을 사용할 수 있다. 변수들간의 복잡한 관계를 데이터 기반의 알고리즘을 통해 유연하게 자동적으로 설정할 수 있는 장점이 있기 때문에, 연구자의 사전 지식이 충분하지 않은 경우, 불충분한 사전 지식으로 설정한 모형 결과에만 의존하는 것 보다는 데이터 기반의 머신러닝 방법들을 사용하면 보다 Robust 한 추정치를 산출할 수 있다. 

 

 

⑶  머신러닝 + 인과추론

 

 ∘  최근에 개발된 머신러닝 기반의 인과추론 방법들은 평균 처치효과 (ATE) 와 개별/조건적 평균 처치효과 (CATE) 를 추정하는데 목적이 있다. 

 

 ∘  Causal Forest, Bayes additive regression trees model (BART 베이지안 기법 회귀나무 모형), Targeted Maximum Likelihood estimation (TMLE 표적 최대우도 추정) 

 

 ∘  머신러닝 기반의 인과추론 방법들은 유연하게 자동적으로 모형을 설정하기 때문에 연구자의 모형 설정 오류로 인해서 발생할 수 있는 편의를 줄일 수 있다. 이러한 장점이 주목받으면서 머신러닝 인과추론 방법을 활용해 처치효과를 분석하려는 연구들도 최근 활발히 진행되고 있다. 

 

 

 

 

 

● [Theoretical background]  ● 

 

 ∘  모수적 방법과 달리 머신러닝 방법들은 Treatment model 과 Outcome model 의 함수적 관계를 매우 유연하게 자동적으로 설정한다. 인과추론을 위한 머신러닝 방법들은 머신러닝 방법을 이용해 결과 모형 또는 처치모형을 설정한다. 

 

 ∘  Treatment model : 처치변수가 종속변수인 모형으로, 가령 교내 동아리활동 참여 여부를 종속변수로 하는 모형을 떠올릴 수 있다. 

   ↪   공변인의 조건적 처치평균 e(x) = E[Zi | Xi] 으로 추정된다. 

 

 ∘  Outcome model : 결과변수가 종속변수인 모형으로, 가령 협업능력을 종속변수로 하는 모형을 떠올릴 수 있다. 

   ↪  공변인과 처치변수의 조건적 종속평균 m(x,z) = E[Yi | Xi, Zi] 혹은 공변인만의 

        조건적 종속평균 m(x) = E[Yi | Xi] 로 추정된다. 

 

 ∘  BART는 베이지안 가법 회귀나무 기법을 사용하여 Outcome model 을 추정하고, 일반적으로 Outcome model 만으로 CATE 를 계산한다. 

 

 ∘  TMLE는 슈퍼러너를 기반으로 한 앙상블 학습 알고리즘을 사용해 Outcome model 및 Treatment model 을 추정하고, Treatment 예측 값을 이용한 변수를 Outcome model 에 추가적인 공변인으로 투입하여 Treatment effect 를 계산한다. 

 

 ∘  인과 포레스트는 Random forest 기법을 사용하여 Outcome model 및 Treatment model 을 추정하고, Weighted Linear regression 접근법을 통해 CATE 를 계산한다. 

 

인과 포레스트는 랜덤 포레스트 알고리즘을 수정하여 Outcome 및 Treatment 를 예측하고, 추정된 예측값을 바탕으로 CATE 와 ATE 를 계산한다. CATE 를 계산하기 위해서, 인과 포레스트는 가중 선형 회귀 접근법을 사용하고, 기존 변수들에서 예측된 값을 뺀 잔차 변수들을 이용한다. Prediction on Outcome 과 Treatment Estimation 은 ML 에서 흔히 사용되는 OOB leave-one-out 방법으로 추정된다. 이는 특정 i 를 제외하여 모형을 설정한 후, 추정된 모형으로 특정 i 에 대한 예측치를 계산하는 방법이다. 아래 식에 따라 Individual CATE τ(x) 를 계산한다. 

 

 

↪   αi(x) : 특정 i 가 CATE 를 계산하는데 미치는 공헌도 0~1 사이의 값 

↪   - i : leave one out 방법을 뜻함 

↪   m(X), e(X) : Athey 가 제안한 Honest Random forest 를 통해 값이 추정된다. Honesty 란 인과 포레스트의 중요한 특성으로, Tree 특성 중 하나라고 볼 수 있는데, Tree 모형을 설정하는데 사용된 자료는 Tree 의 각 Leaf 에서 Treatment effect 를 계산하는 데는 사용되지 않는다는 것을 의미한다. 

↪   ATE 는 Individual CATE 를 평균하여 계산한다. 



※  OOB : 주로 랜덤 포레스트와 같은 앙상블 학습 기법에서 사용되는 교차 검증 방법 중 하나입니다. 이 방법은 모델을 훈련할 때 일부 샘플을 제외하고 테스트하는 것을 의미합니다. 이를 통해 각 샘플이 훈련에 얼마나 기여하는지를 평가할 수 있습니다. 각 데이터 포인트가 모델에 얼마나 중요한지를 평가할 수 있습니다. 



 

 

● [Methods] ● 

 

 ∘   Variable Definition : 조사시점 기준 지난 1년동안 동아리에 한 번이라도 참여한 경우에는 참여집단 (처치집단) 으로, 참여하지 않은 경우에는 비참여집단 (통제집단) 으로 구분하였다. 결과변수인 협업능력은 리커트 척도를 기준으로 점수로 측정되었다. 공변인으로는 성별, 학업특성, 정서특정, 사회특성, 부모특성, 학교특성 등을 투입해 통제하였다. 

 

 ∘  Program : R 프로그램 패키지 grf 를 사용하였다. causal_forest 함수에 처치변수, 결과변수, 공변인을 투입해 Individual/Conditional Treatment effect 추정치를 산출하였다. 그리고 함수 best_linear_projection 에 사용해 Individual/Conditional Treatment effect 추정치를 바탕으로 ATE (평균 처치효과) 와 학생들의 특성 (성별, 또래관계, 교사관계) 에 따른 차별적 처치효과를 분석하였다. 

 

 

 

 

 

●  [Results]  ● 

 

 ∘  ATE 

 

↪  2.891 : 공변인 통제 전, 처치집단과 통제집단의 협업능력 점수 차이 

↪  0.069 : 공변인 통제 후, 처치집단과 통제집단의 협업능력 점수 차이 

 

 

 ∘  Individual CATE

  ↪  점선 : ATE 

 

 

 

 ∘  Heterogeneous treatment effects 

 

 

↪  통계적으로 유의한 차별적 처치효과는 발견되지 않았다. 

 

 

 

  ↪  빨간점 : 평균값 . 성별에 따라 처치효과 분포에 큰 차이가 나타나지 않음

 

 

 

 

  ↪  또래와의 관계, 교사와의 관계에 따른 각 조건에서의 처치효과 평균값 (tau) 크기가 클수록 더 짙은 색으로 표현됨. 처치효과가 뚜렷하게 다른 패턴을 보이지는 않음

 

 

 

728x90

댓글