본문 바로가기
1️⃣ AI•DS/⚾ 계량경제•통계

계량경제학 강의_한치록_내생적인 설명변수 15장

by isdawell 2023. 5. 24.
728x90

 

👀 계량경제학 개인 공부용 포스트 글입니다. 

 

 

 

 

 

 

15.  확률적인 설명변수 


 

①  확률적인 설명변수 

 

•  앞서 설명변수 표본값 고정의 가정을 도입해 OLS를 설명했지만, 실제로 많은 변수들은 통제된 상태에서 생성되지 않는다. 

•  현실에서 경제 데이터의 표본은 몇몇 인구학적 변수를 제외하면 통제된 방식으로 추출되지 않는 것이 보통이다. 

•  설명변수의 표본값들은 고정되지 않고 확률적이다. 

 

 

 

②  횡단면 자료에서 설명변수 확률성 

 

•  횡단면 자료에서는 관측치 간에 서로 독립이라 가정한다. 이러한 경우 설명변수 확률성의 종류는 다음과 같다. 

 

1. 설명변수들과 오차항은 확률적으로 독립 

2. 설명변수는 외생적 : E(ui | Xi) = 0 

3. 설명변수는 내생적 : E(Xi∙ui) ≠ 0 

 

 

⑴  설명변수와 오차항이 독립 

 

•  설명변수와 오차항이 독립이라면, 오차평균 0 가정과 동일분산 가정이 충족된다. 

•  이때 OLS 추정량은 비편향이며 분산은 설명변수 표본값 고정의 가정하에서 구한 분산과 동일하다.

•  E(ui | X) = E(ui) = 0 

•  또한 t 통계량은 t분포를 갖고, F 통계량은 F분포를 갖는다. 

 

 

⑵ 외생적 설명변수 

 

•  모든 i 에 대해 E(ui | Xi) = 0 이면 OLS 추정량이 X 조건부로 비편향이다. 그러나 X 조건부로 ui의 분산은 Xi 값에 의존할 수 있고 이때는 이분산성에 견고한 분산을 사용해야 한다. 

•  횡단면 자료의 경우 조건부 0평균 조건이 만족되면 설명변수가 외생적이라고 한다. 

 

⑶ 내생적 설명변수 : 설명변수와 오차가 correlated 되어 있다면 OLS 추정량은 비일관적이다. 이때 오차항과 상관된 설명변수들을 내생적이라고 표현하며, 이때 표본의 크기가 커도 OLS 추정값은 참값과 매우 다를 수 있다. 

 

 

 

③  시계열자료에서 설명변수의 확률성 

 

1. 설명변수들과 오차항은 확률적으로 독립

2. 설명변수는 엄밀히 외생적 : 모든 t에 대해 E(ut | X1,...,Xn) = 0 이면 OLS 추정량은 비편향 

3. 설명변수는 약하게 외생적 : 모든 t에 대해 E(ut | X1,...,Xt) = 0  : t 기까지 주어진 정보로부터 t기의 오차항에 대해 예측을 할 수 없을 때 약하게 외생적이라 한다. 

○ 엄밀한 외생성은 전체 기간의 설명변수로부터 오차항에 대해 예측을 할 수 없다는 것이고, 약한 외생성은 현재까지의 설명변수로부터 오차항에 대해 예측할 수 없다는 것을 의미한다. 

4. 설명변수는 동일 시기에 오차항과 비상관 : 각 t에서 E(Xt•ut) =  0 : OLS 가 일관성을 갖기 위한 최소한의 조건이다. 

5. 설명변수는 내생적  E(Xt•ut) ≠ 0 : OLS 추정량은 일관적이지 않으며 잘못된 정보를 제공한다. 

 

 

 

 

 

④  설명변수의 내생성 

 

•  설명변수를 내생적으로 만드는 요인 

 

⑴ 변수누락 

 

•  어떤 변수의 인과적 영향을 구할 때, 다른 변수를 통제하고자 하면 이 변수를 우변에 포함시켜야 한다. 만약 통제하지 않고 누락시킨다면, 오차항과 설명변수가 서로 관련될 수 있다. 

•  가령, 능력과 경력을 통제한 채 학력이 임금에 미치는 영향을 구하고자 한다면, 우변에 능력과 경력을 포함시켜야 한다. 개인별 능력을 관측하지 못해 누락시켜 회귀분석을 한다면 능력은 오차항의 일부를 구성하게 되고, 학력과 능력은 연관이 있기 때문에 오차항과 설명변수가 관련된다. 

 

 

⑵ 동시성 simultaneity

 

•  가격과 수요량의 관계를 나타내는 수요함수가 있다고 생각할 때, 가격은 외생적으로 주어지지 않는다. 가격은 수요와 공급 여건에 의해 동시에 결정된다. 즉, 시스템 내에서 결정되는 내생적인 변수가 된다. 

•  동시성과 연관된 것으로 역의 인과관계가 있다. 국가별 자료를 이용해 사회간접자본을 건설하는 것과 경제성장의 관계를 연구하는데 관심이 있다고 하자. 이때, 사회간접자본에 대한 투자는 생산의 과정으로 경제성장의 촉진을 불러올 것이다. 반면 사회간접자본에 대한 투자가 현재 경제상태에 의존한다면 이는 경제성장의 결과가 되는, 역의 인과관계가 된다. 

 

 

⑶ 설명변수의 측정오차 

 

•  설명변수 측정 시 오차가 존재할 때도 내생성이 발생할 수 있다. 

•  ex. 실제소득 = 항상소득 + 일시소득 

•  설명변수와 오차항이 서로 연관되면, OLS 추정을 할 대, 무엇이 설명변수 변화로 인한 것이고 무엇이 오차항의 변화로 인한 것인지 구별할 수 없게 된다. 

•  변수누락으로 인한 내생성은, 누락된 변수를 관측할 수 있다면 그냥 포함시키면 해결된다. 그러나 내생성을 야기하는 내생변수를 제대로 관측할 수 없거나 동시성으로 인하여 내생성이 있을 때에는 다른 해결책이 필요하다. 

 

 

 

 

 

⑤  설명변수 내생성 해결책 1 : 대리변수 proxy 

 

 

•  변수누락이 내생성의 원인일 때, 누락된 변수와 비슷한 변수를 찾아 우변에 포함시키는 방법을 적용할 때, '비슷한 변수' 를 대리변수(proxy) 라고 한다. 

 

•  EX. log(임금) = β0 + β1•학력 + β2•경력 + β3•근속연수 + β4•능력 + u

↪ E(u | 학력, 경력, 근속연수, 능력) =  0 

↪ 능력 변수는 임금에 양의 영향을 미칠 것이므로 β4 > 0 일 것이다. 능력은 학력, 경력, 근속연수와 상관될 수 있으므로 능력을 누락시키면 변수누락 문제로 추정량은 편향될 수 있다. 

하지만, 개개인의 능력을 정확히 반영한 변수를 찾긴 어렵다. 따라서 노동자들의 지능지수 IQ 자료를 대리변수로 활용한다고 해보자. 이때 IQ 는 능력을 정확히 측정하진 않기 때문에 다음과 같은 관계가 성립한다. 

 

▸  능력 = δ0 + δ1•IQ + v , (δ1>0) 

 

이를 통해 원래 모형을 다음과 같이 작성해 볼 수 있다. 

 

▸  log(임금) = β0 + β1•학력 + β2•경력 + β3•근속연수 + β4•( δ0 + δ1•IQ + v ) + u

 = (β0 + β4δ0) +  β1•학력 + β2•경력 + β3•근속연수 + β4δ1•IQ + (u + β4v) 

 

오차항은 (u + β4v) 가 된다. (학력, 경력, 근속연수, IQ) 설명변수들이 새로운 오차항과 무관하다면 새로운 방정식의 계수들은 일관되게 추정된다. 적어도 β1,β2,β3 는 일관되게 추정된다. β4는 δ1에 대한 정보가 없는 한 추정할 수 없다. 보통 δ0 = 0 , δ1 = 1 로 정의한다. 

학력, 경력, 근속연수는 모두 u에 대해 외생적이다. 학력, 경력, 근속연수가 능력 중 IQ 에 의해 결정되는 부분과만 상관되고 v와 무관하다면 u+β4v 와 무관하게 된다. 

 

오차항 v는 IQ와 연관될 수도 그렇지 않을 수도 있다. E(v|IQ) = 0 이라면 OLS 추정량은 일관적이라 볼 수 있고, 만약 E(v|능력) = 0 만 주어져 있다면 IQ 가 능력을 측정하긴 하되, 부정확하게 측정함을 의미한다. 

 

•  IQ 를 대리변수로 사용한 분석이 타당하려면, 능력 중 IQ에 의해 설명되지 않는 부분과 대리변수를 포함한 새 방정식 설명변수들의 관계가 중요하다. 그러나 실제 문제에서 대리변수를 이용한 회귀가 일관된 결과를 줄 조건이 성립하는지는 알 방법이 없다. 따라서 굳이 능력을 통제했다고 하지말고 IQ 를 통제했다고 기술하면 된다. 

 

 

 

 

⑥  설명변수 내생성 해결책 1 : 도구변수 

 

 

•  내생성의 원인이 동시성이거나 대리변수를 찾을 수 없으면, 도구변수를 활용해야 한다. 

•  Y = β0 + β1•X + u 를 고려할 때, 이 방정식에 원래는 포함되지 않은 변수 Z를 생각해보자. Z는 오직 X에 영향을 미침으로써만 Y에 영향을 미친다고 하면, 즉, X가 통제되면 Z의 변화는 Y에 평균적으로 영향을 미치지 않게 하는 변수가 바로 도구변수이다. 

 

•  가령 임금방정식 log(임금) = β0 + β1•학력 + β2•경력 + β3•근속연수 + u 가 있을 때, 여기서 능력 변수까지 통제하여 학력 효과를 보려고 할 때, 가령 성과급이 임금에 포함된다면 관측되지 않은 능력 변수는 u 에 포함되게 되고 우변 변수들이 오차항과 상관성을 갖는다. 이러한 내생성을 해결하기 위해, 도구변수로 '어머니의 교육수준' 변수를 고려해 볼 수 있다. "어머니의 교육수준" → "능력" → "임금" 

 

•  ⑴ 도구변수는 설명변수와 관련되어 있어야 하며 ⑵ 도구변수는 외생적, 즉 오차에 무관하다.

•  도구변수는 내생변수 내에서 오직 외생적인 부분과 상관될 수 있다. 

 

•  관련성, 외생성이라는 두 가지 조건을 충족시키는 도구변수가 존재하면, 설명변수가 내생적인 경우에도 회귀식의 계수들을 일관되게 추정할 수 있다. 

 

•  외생적 설명변수 x1 이 통제되었을 때, u 가 변화하지 않은 채 내생적 설명변수 x2가 변화한다는 것을 확신할 수 있다면 x2의 외생적 변화에 대응한 y 변화량을 구함으로써 x2가 y에 미친 인과적 영향을 계산할 수 있을 것이다. 그러나 x2의 변화 중, z2 (도구변수) 의 변화에 기인할 부분을 추출할 수 있다면, 이 변동분을 활용해 x의 인과적 영향을 추정해 볼 수 있다. 

 

•  z2 의 변화로 인한 x2 변화분을 추출하고, 이 x2 추출분의 변화가 y에 미치는 영향을 추정하는 것을 2단계 최소제곱법 (2SLS) 라고 한다. 설명변수를 도구변수에 회귀해 fitted value 를 구하고, y를 이 fitted value 에 회귀하면 된다. 

 

 

 

⑦ 반복평균의 법칙 (LIE) : E(η) = E(E(η|ξ)) 

 

 

 

 

 

728x90

댓글