👀 계량경제학 개인 공부용 포스트 글입니다.
⁕ Summary ⁕
1. IV estimation 은 identification challenges 를 해결하는 방법 중 하나이다.
2. 좋은 IV 는 Relevance 조건과 Exclusion 조건을 만족한다.
3. Relevant IV 는 institutional knowledge 와 economic theory 로부터 발견된다.
4. Exclusion condition 은 test 될 수 없다. 이때는 economic argument 를 사용해서 뒷받침해야 한다.
5. Weak IV, Multiple IV
1. Motivation and Intuition
① Motivation
• 위와 같을 때, βk 의 추정치는 consistent 하지 않다. xk 가 다른 모든 x 와 상관관계가 발생하지 않았을 때만 consistent estimate β 를 얻을 수 있다. 그러나 이러한 상황은 거의 불가능하다.
② Intuition
• 도구변수는 이러한 문제에 대한 잠재적인 해결책을 제공한다.
• xk 가 good variation 이라면 u 와 상관관계가 없을 것이고, bad variation 이라면 u 와 상관관계가 있을 것이다.
• IV (z 라고 지칭) 는 xk 의 변동성을 설명하지만, y를 설명하진 않는 변수를 의미한다.
2. LATE, fist-stage and reduced form
◯ Example
※ veteran 재향군인 (미국의 군대에서 복무한 경력이 있는 사람들 중 군복무를 마치고 현재는 민간인으로 생활하고 있는 사람들) → D (veteran status), Y (earnings)
• Bias : 건강한 사람들이 군대에 자원입대할 가능성이 높고, 더 높은 임금을 받을 가능성이 있다 (positive bias)
• IV approach : 베트남 전쟁에서 미국은 군입대를 랜덤추첨으로 결정했다 ⇨ Let's use this random variation in military experience
• lottery 는 random assignment 에 해당한다. 그러므로 first-stage 는 causal relation 이 되고, reduced form 역시 causal relation 이 된다. Local Average treatment effect 또한 causal 을 만족한다.
• LATE = (Reduced form) / (first-stage) : 도구변수에 의해 treatment 가 유도될 수 있는 상황에서의 causal effect 를 추정하므로 전체 ATE 는 아니기 때문에 local 이라는 것이 붙는다.
• ϕ 를 발견하는 방법
↪ Z 를 0에서 1로 변화시킬 때, D는 Compliers 혹은 Defiers 로 변한다.
↪ 현실에서 Defiers 인 경우는 존재하지 않는다. 따라서 ϕ 는 Compliers (Z=1 이면 D=1, Z=0 이면 D=0) 인 경우만 반영한다.
↪ Complier sample 만 다루기 때문에 "local" sample 만 다룬다고 말하며, 이때 treatment 는 engogeneity 문제에 대해 영향을 덜 받는다.
3. External vs Internal Validity
◯ LATE and ATT
• treated 는 compliers 와 always-takers 를 모두 포함하고 있기 때문에, compliers 만 고려하는 LATE 는 ATT 가 아니다. 만약 always-takers 가 없다면 LATE = ATT 가 되고, never-takers 가 없다면 LATE = ATU (average treatment on the untreated) 가 된다.
◯ External validity
• LATE 는 compliers 에 대한 변동성을 담고 있기 때문에 external validity 문제에 직면한다. 즉, 모집단이 동일하더라도, 다른 경우에 대해 평가를 적용하지 못하는 문제가 생긴다. 예를들어, 2개의 다른 binary instruments 는 동일한 모집단에서 다른 compliers group 을 이끌기 때문이다. Y 가 로그 소득이고, D는 대학을 갔는지 여부이고, Z 는 대학 근처에서 거주한 여부라고 한다면, 통근 시간에 대한 cost 를 고려한 compliers 라 볼 수 있고, 만약 Z가 장학금을 받았는지 여부에 대한 변수라 한다면, 장학금에 대한 cost 를 고려한 compliers 라고 볼 수 있다. 이는 서로 다른 subgroup 으로 서로 다른 effect 를 미칠 수 있다.
• IV 는 compliers 에 대한 인과효과를 측정하기 때문에, external validity 는 IV 의 한계점으로 지적된다.
◯ Internal validity
• IV 가 옳게 동작한다면 internal validity 를 줄 수도 있다. 추정 전략이 causal effect 를 성공적으로 밝힐 때를 의미한다. 그러나 Internal validity 가 만족되었다고 해서 external validity 가 만족되는 것은 아니다. External validity 는 다른 시나리오에서도 해당 예측결과를 추정할 수 있을 때를 말한다.
◯ 예제
• IV 적용 전, OLS estimator
↪ β_OLS = E[yi | Di=1] - E[yi | Di=0] : -0.0205
• IV 적용 후, IV (2SLS) estimator
↪ β_IV = -0.2336 을 어떻게 도출했을까
Compliers 에 대한 수치만 단독으로 바로 보기가 어렵다.
그러나 E[Y1i | Compliers] 와 E[Y0i | Compliers] 를 계산하는 것은 다소 복잡하다.
• IV 는 compliers 의 subpopulation 에 대한 treatment causal effect 를 추정한다. complier 로부터 treatment 의 good variation 을 얻어내야 한다. IV, Z 는 compliers 의 treatment 를 랜덤하게 induce 한다.
4. Assumption
① Relevance
◯ Relevance condition
• xk 에 대해 하나의 도구변수 z가 있는 경우를 살펴보자. 만약 ϒ≠0 이라면 z는 relevance condition 을 만족한다고 볼 수 있다.
• relevance condition 은 LATE = ρ/ϕ 에서 ϕ 이 0이 아닌 것을 보장한다.
• z는 다른 모든 regressor 들의 영향을 분할한 후, 문제가 있는 regressor xk 를 설명하는 것과 관련이 있다.
• 다른 모든 x와 z 에 대해 xk 를 회귀분석함으로써, z가 xk 를 설명하는지 확인하는 것을 통해 해당 가정을 검증해볼 수 있다. 나중에 이를 IV estimation 에서 'first stage' 라고 부른다.
② Exclusion
◯ Exclusion condition
• original model 이 위와 같을 때, z 는 cov(z,u) = 0 인 exclusion condition 을 만족시킨다.
• z는 error term u 와 상관관계가 없다.
• z 는 다른 x들을 conditioning 한 후에, y에 관련해서 설명력을 가지고 있지 않다.
• z는 오직 xk 의 영향을 통해서만 y를 설명할 수 있다.
• exclusion condition 의 경우는 test 를 할 수 없다. u 는 관측 불가능한 값이기 때문이다. 따라서 exclusion restriction 이 위배되지 않은 economic 한 주장을 찾아야 한다.
5. Implementation and Practical tips
① Implementation of IV : 2SLS
◯ 2SLS
• 2SLS 는 IV estimation 을 가능하게 한다.
⑴ First stage : regress xk on other x's and z
⑵ Second stage : take predicted xk from first stage, and use it in original model instead of xk
↪ 예측된 값은 xk 에서의 u 와 상관관계가 없는 요소로부터 도출된 good variation 을 표현한다.
• LATE framework 에서 추가로 봐야할 가정이 있다. 바로 Monotonicity : [Di | Zi = 1] > [Di | Zi = 0] 로, defier condition 이 없다는 의미이다.
② Testing Exclusion Restriction
• 만약 ϒ=0 이라면 exclusion restiction 은 유지될 가능성이 높다. 다른 x들을 conditioning 한 후에 z는 y를 설명하지 않는다.
• 그러나 cov(xk,u) ≠ 0 일 때, estimates 는 biased 된다. 이때 z의 계수는 z가 xk 와 correlated 되어있기 때문에 확실히 biased 되었다고 말할 수 있다.
③ How to Find Instrumental Variables
• 도구변수는 반드시 economic arguments 에 의해 정당화 되어야 한다.
↪ Relevance 조건은 형식적으로 검증해보일 수 있으며, economic 한 주장 또한 보여주어야 한다.
↪ 반면, Exclusion restriction 은 test 될 수 없다. 따라서 해당 가정은 logic (이론, 문헌..) 에 기반해야 한다.
• 좋은 도구변수는 (1) Institutional knowledge 와 (2) Ideas about the processes determining the variable of interest (theory) 의 조합에서 온다
6. Weak IV, Multiple IV, IV and RCT
① Weak Instruments Problem
◯ weak IV
• weak instrument : 문제가 되는 변수의 변동에 대해 IV 가 충분히 설명하지 못하는 경우 생기는 문제
• IV 가 weak 할 때, 샘플 개수가 적을 때 발생하는 estimator bias 가 커진다.
↪ 도구변수가 많을수록 r^2 을 증가시키지만, weak 한 도구변수라 증가하는 정도가 크지 않다면, sample bias 가 여전히 클 수 있다.
↪ 낮은 explanatory power in first stage (r^2) 는 N이 크더라도 큰 bias 를 불러올 수 있다.
◯ Detecting weak IV
• Warning flags
⑴ Large standard errors in IV estimates: instrument 와 문제가 되는 변수 사이의 covariance 가 낮을 때, Large SE 를 얻을 수 있다.
⑵ Low F statistic from first stage : excluded IVs 에 대한 F통계량이 높다면 좋은 결과라 볼 수 있다. (10 이상이면 좋다고 볼 수 있음). 도구변수를 적용하고자 하는 하나 이상의 내생변수가 존재한다면, Cragg-Donald EV statistic 을 계산해볼 수 있다.
② Multiple IV's
• 도구변수의 개수는 endogenous 한 변수의 수 이상이어야 한다.
• problematic regressor 보다 더 많은 수의 IV 에 대해 모델링을 적용해 볼 수도 있다.
↪ m개의 instrument variable 이 있고, h 개의 problematic regressor 가 있을 때, m > h 인 상황 ⇨ overidentified model 이라고 부른다.
• Multiple IV 에서도 필요한 조건은 비슷하다 (exclusion restriction, Relevance condition)
• Multiple IV's 에 대해서 overidentification test 를 진행하여 IV 의 quality 에 대해 test 해보아야 한다.
↪ 모든 IV 가 유효하다면, 어떤 IV 의 subset 에 대해서라도 추정치는 consistent 할 것이다.
↪ 다른 subset 들에 대해 IV 추정치를 비교할 수 있다. 만약 결과가 비슷하다면, 해당 IV 들의 집합은 괜찮다고 볼 수 있다. 그러나 도구변수의 subset 에 대해서만 타당성을 가정하기 때문에, 하나의 도구변수가 타당한지 증명하는 test 는 불가능하다.
• IV 의 타당성을 informal 한 방법으로 확인해볼 수 있다.
↪ IV 가 non-problematic 한 다른 변수들 혹은 y와 상관관계가 없음을 보일 수 있다.
↪ economic argument
③ LATE and Imperfect Compliance in RCT
• RCT 에서 compliance 가 보장되지 않을 수 있다. 다른말로 하자면, treatment assignment Z 는 treatment received D 와 동일하지 않을 수 있다.
• Intention-to-treat (ITT) 효과는 treatment assignment 로부터의 결과의 차이를 의미한다. ITT 는 최종적으로 받은 treatment 가 아닌, 초기 배정 (initial assignment) 에 기반한다.
④ More Practical Tips
• 2SLS 는 STATA 같은 통계프로그램에서 돌리면 된다.
• first stage 에서는 오직 Linear OLS 만 돌려야 한다! 그래야 가정들을 만족시킬 수 있다.
• 항상 first stage 에 대해 report 해야 한다.
• 항상 reduced form 을 확인하자
'1️⃣ AI•DS > ⚾ 계량경제•통계' 카테고리의 다른 글
계량경제학 스터디 Lecture 6. Panel Data (1) | 2023.05.16 |
---|---|
계량경제학 강의_한치록_다중회귀 8장 (0) | 2023.05.16 |
계량경제학 강의_한치록_단순회귀 7장 (0) | 2023.05.15 |
계량경제학 스터디 Lecture 4. Causality (0) | 2023.05.14 |
계량경제학 강의_한치록_단순회귀 5장, 6장 (0) | 2023.05.13 |
댓글