본문 바로가기
1️⃣ AI•DS/⚾ 계량경제•통계

계량경제학 스터디 Lecture 5. Instrumental variables

by isdawell 2023. 5. 15.
728x90

 

👀 계량경제학 개인 공부용 포스트 글입니다. 

 

 

⁕ Summary ⁕ 

1. IV estimation 은 identification challenges 를 해결하는 방법 중 하나이다. 
2. 좋은 IV 는 Relevance 조건과 Exclusion 조건을 만족한다. 
3. Relevant IV 는 institutional knowledge 와 economic theory 로부터 발견된다. 
4. Exclusion condition 은 test 될 수 없다. 이때는 economic argument 를 사용해서 뒷받침해야 한다. 
5. Weak IV, Multiple IV

 

 

 

 

 

 

 

 

1.  Motivation and Intuition 


 

①  Motivation 

 

 

•  위와 같을 때, βk 의 추정치는 consistent 하지 않다. xk 가 다른 모든 x 와 상관관계가 발생하지 않았을 때만 consistent estimate β 를 얻을 수 있다. 그러나 이러한 상황은 거의 불가능하다. 

 

 

 

②  Intuition 

 

•   도구변수는 이러한 문제에 대한 잠재적인 해결책을 제공한다. 

•   xk 가 good variation 이라면 u 와 상관관계가 없을 것이고, bad variation 이라면 u 와 상관관계가 있을 것이다. 

•  IV (z 라고 지칭) 는 xk 의 변동성을 설명하지만, y를 설명하진 않는 변수를 의미한다. 

 

 

 

 

 

2.   LATE, fist-stage and reduced form 


 

◯  Example 

 

estimating the effect of serving in the military on earnings

 

※ veteran 재향군인 (미국의 군대에서 복무한 경력이 있는 사람들 중 군복무를 마치고 현재는 민간인으로 생활하고 있는 사람들) → D (veteran status), Y (earnings) 

 

 

•  Bias : 건강한 사람들이 군대에 자원입대할 가능성이 높고, 더 높은 임금을 받을 가능성이 있다 (positive bias)

•  IV approach : 베트남 전쟁에서 미국은 군입대를 랜덤추첨으로 결정했다 ⇨ Let's use this random variation in military experience 

 

 

•  lottery 는 random assignment 에 해당한다. 그러므로 first-stage 는 causal relation 이 되고, reduced form 역시 causal relation 이 된다. Local Average treatment effect 또한 causal 을 만족한다. 

 

•  LATE = (Reduced form) / (first-stage)  : 도구변수에 의해 treatment 가 유도될 수 있는 상황에서의 causal effect 를 추정하므로 전체 ATE 는 아니기 때문에 local 이라는 것이 붙는다. 

 

 

•  ϕ 를 발견하는 방법 

 

↪  Z 를 0에서 1로 변화시킬 때, D는 Compliers 혹은 Defiers 로 변한다. 

 

 

↪  현실에서 Defiers 인 경우는 존재하지 않는다. 따라서 ϕ 는 Compliers (Z=1 이면 D=1, Z=0 이면 D=0) 인 경우만 반영한다. 

 

↪  Complier sample 만 다루기 때문에 "local" sample 만 다룬다고 말하며, 이때 treatment 는 engogeneity 문제에 대해 영향을 덜 받는다. 

 

 

 

 

3.   External vs Internal Validity 


 

◯  LATE and ATT

 

 

•  treated 는 compliers 와 always-takers 를 모두 포함하고 있기 때문에, compliers 만 고려하는 LATE 는 ATT 가 아니다. 만약 always-takers 가 없다면 LATE = ATT 가 되고, never-takers 가 없다면 LATE = ATU (average treatment on the untreated) 가 된다.

 

 

 

◯  External validity 

 

•  LATE 는 compliers 에 대한 변동성을 담고 있기 때문에 external validity 문제에 직면한다. 즉, 모집단이 동일하더라도, 다른 경우에 대해 평가를 적용하지 못하는 문제가 생긴다. 예를들어, 2개의 다른 binary instruments 는 동일한 모집단에서 다른 compliers group 을 이끌기 때문이다. Y 가 로그 소득이고, D는 대학을 갔는지 여부이고, Z 는 대학 근처에서 거주한 여부라고 한다면, 통근 시간에 대한 cost 를 고려한 compliers 라 볼 수 있고, 만약 Z가 장학금을 받았는지 여부에 대한 변수라 한다면, 장학금에 대한 cost 를 고려한 compliers 라고 볼 수 있다. 이는 서로 다른 subgroup 으로 서로 다른 effect 를 미칠 수 있다. 

 

•  IV 는 compliers 에 대한 인과효과를 측정하기 때문에, external validity 는 IV 의 한계점으로 지적된다. 

 

 

◯  Internal validity 

 

•  IV 가 옳게 동작한다면 internal validity 를 줄 수도 있다. 추정 전략이 causal effect 를 성공적으로 밝힐 때를 의미한다. 그러나 Internal validity 가 만족되었다고 해서 external validity 가 만족되는 것은 아니다. External validity 는 다른 시나리오에서도 해당 예측결과를 추정할 수 있을 때를 말한다. 

 

 

 

◯  예제 

 

•  IV 적용 전, OLS estimator 

 

β_OLS = E[yi | Di=1] - E[yi | Di=0] : -0.0205 

 

계산 과정 예

 

 

 

•  IV 적용 후, IV (2SLS) estimator 

 

 

↪ β_IV = -0.2336 을 어떻게 도출했을까 

 

Compliers 에 대한 수치만 단독으로 바로 보기가 어렵다. 

 

 

 

 

그러나 E[Y1i | Compliers] 와 E[Y0i | Compliers] 를 계산하는 것은 다소 복잡하다.

 

 

 

•  IV 는 compliers 의 subpopulation 에 대한 treatment causal effect 를 추정한다. complier 로부터 treatment 의 good variation 을 얻어내야 한다. IV, Z 는 compliers 의 treatment 를 랜덤하게 induce 한다. 

 

 

 

4.   Assumption 


 

①  Relevance

 

◯  Relevance condition 

 

 

•   xk 에 대해 하나의 도구변수 z가 있는 경우를 살펴보자. 만약 ϒ≠0 이라면 z는 relevance condition 을 만족한다고 볼 수 있다. 

•   relevance condition 은 LATE = ρ/ϕ 에서 ϕ 이 0이 아닌 것을 보장한다. 

•   z는 다른 모든 regressor 들의 영향을 분할한 후, 문제가 있는 regressor xk 를 설명하는 것과 관련이 있다. 

•   다른 모든 x와 z 에 대해 xk 를 회귀분석함으로써, z가 xk 를 설명하는지 확인하는 것을 통해 해당 가정을 검증해볼 수 있다. 나중에 이를 IV estimation 에서 'first stage' 라고 부른다. 

 

 

②  Exclusion

 

◯  Exclusion condition 

 

 

•  original model 이 위와 같을 때, z 는 cov(z,u) = 0 인 exclusion condition 을 만족시킨다. 

•  z는 error term u 와 상관관계가 없다. 

•  z 는 다른 x들을 conditioning 한 후에, y에 관련해서 설명력을 가지고 있지 않다. 

•  z는 오직 xk 의 영향을 통해서만 y를 설명할 수 있다. 

•  exclusion condition 의 경우는 test 를 할 수 없다. u 는 관측 불가능한 값이기 때문이다. 따라서 exclusion restriction 이 위배되지 않은 economic 한 주장을 찾아야 한다. 

 

 

 

5.   Implementation and Practical tips 


 

①  Implementation of IV : 2SLS 

 

◯  2SLS

 

•  2SLS 는 IV estimation 을 가능하게 한다. 

 

 

⑴ First stage : regress xk on other x's and z 

⑵ Second stage : take predicted xk from first stage, and use it in original model instead of xk 

 

 

↪  예측된 값은 xk 에서의  u 와 상관관계가 없는 요소로부터 도출된 good variation 을 표현한다.

 

 

•  LATE framework 에서 추가로 봐야할 가정이 있다. 바로 Monotonicity : [Di | Zi = 1] > [Di | Zi = 0] 로, defier condition 이 없다는 의미이다. 

 

 

 

 

②  Testing Exclusion Restriction

 

 

•  만약 ϒ=0 이라면 exclusion restiction 은 유지될 가능성이 높다. 다른 x들을 conditioning 한 후에 z는 y를 설명하지 않는다. 

•  그러나 cov(xk,u) ≠ 0 일 때, estimates 는 biased 된다. 이때 z의 계수는 z가 xk 와 correlated 되어있기 때문에 확실히 biased 되었다고 말할 수 있다. 

 

 

 

③  How to Find Instrumental Variables 

 

•  도구변수는 반드시 economic arguments 에 의해 정당화 되어야 한다. 

↪ Relevance 조건은 형식적으로 검증해보일 수 있으며, economic 한 주장 또한 보여주어야 한다. 

↪ 반면, Exclusion restriction 은 test 될 수 없다. 따라서 해당 가정은 logic (이론, 문헌..) 에 기반해야 한다. 

 

•  좋은 도구변수는 (1) Institutional knowledge 와 (2) Ideas about the processes determining the variable of interest (theory) 의 조합에서 온다

 

 

 

 

 

6.   Weak IV, Multiple IV, IV and RCT 


 

①  Weak Instruments Problem 

 

◯  weak IV

•  weak instrument : 문제가 되는 변수의 변동에 대해 IV 가 충분히 설명하지 못하는 경우 생기는 문제 

•  IV 가 weak 할 때, 샘플 개수가 적을 때 발생하는 estimator bias 가 커진다. 

 

finite sample bias of 2SLS

 

 

↪  도구변수가 많을수록 r^2 을 증가시키지만, weak 한 도구변수라 증가하는 정도가 크지 않다면, sample bias 가 여전히 클 수 있다. 

↪  낮은 explanatory power in first stage (r^2) 는 N이 크더라도 큰 bias 를 불러올 수 있다. 

 

 

◯  Detecting weak IV

 

•  Warning flags 

 

Large standard errors in IV estimates: instrument 와 문제가 되는 변수 사이의 covariance 가 낮을 때, Large SE 를 얻을 수 있다. 

 

Low F statistic from first stage : excluded IVs 에 대한 F통계량이 높다면 좋은 결과라 볼 수 있다. (10 이상이면 좋다고 볼 수 있음). 도구변수를 적용하고자 하는 하나 이상의 내생변수가 존재한다면, Cragg-Donald EV statistic 을 계산해볼 수 있다. 

 

 

 

 

 

 

②  Multiple IV's 

 

•  도구변수의 개수는 endogenous 한 변수의 수 이상이어야 한다. 

•  problematic regressor 보다 더 많은 수의 IV 에 대해 모델링을 적용해 볼 수도 있다. 

↪ m개의 instrument variable 이 있고, h 개의 problematic regressor 가 있을 때, m > h 인 상황 ⇨ overidentified model 이라고 부른다. 

 

•  Multiple IV 에서도 필요한 조건은 비슷하다 (exclusion restriction, Relevance condition) 

 

•  Multiple IV's 에 대해서 overidentification test 를 진행하여 IV 의 quality 에 대해 test 해보아야 한다. 

↪ 모든 IV 가 유효하다면, 어떤 IV 의 subset 에 대해서라도 추정치는 consistent 할 것이다. 

↪ 다른 subset 들에 대해 IV 추정치를 비교할 수 있다. 만약 결과가 비슷하다면, 해당 IV 들의 집합은 괜찮다고 볼 수 있다. 그러나 도구변수의 subset 에 대해서만 타당성을 가정하기 때문에, 하나의 도구변수가 타당한지 증명하는 test 는 불가능하다. 

 

•  IV 의 타당성을 informal 한 방법으로 확인해볼 수 있다. 

IV 가 non-problematic 한 다른 변수들 혹은 y와 상관관계가 없음을 보일 수 있다. 

economic argument 

 

 

 

 

③  LATE and Imperfect Compliance in RCT

 

•  RCT 에서 compliance 가 보장되지 않을 수 있다. 다른말로 하자면, treatment assignment Z 는 treatment received D 와 동일하지 않을 수 있다. 

 

•  Intention-to-treat (ITT) 효과는 treatment assignment 로부터의 결과의 차이를 의미한다. ITT 는 최종적으로 받은 treatment 가 아닌, 초기 배정 (initial assignment) 에 기반한다. 

 

 

④  More Practical Tips 

 

•  2SLS 는 STATA 같은 통계프로그램에서 돌리면 된다. 

•  first stage 에서는 오직 Linear OLS 만 돌려야 한다! 그래야 가정들을 만족시킬 수 있다. 

•  항상 first stage 에 대해 report 해야 한다. 

•  항상 reduced form 을 확인하자 

 

728x90

댓글