본문 바로가기
1️⃣ AI•DS/⚾ 계량경제•통계

대체로 해롭지 않은 계량경제학 정리 - Part2 핵심 - 3장

by isdawell 2023. 6. 26.
728x90

 

 

👀 계량경제학 개인 공부용 포스트 글 입니다. 

 

 

 

 

 

3장. 이치에 맞는 회귀분석 구성 

 

 

①   회귀분석의 근본 원칙 


 

a. 서론 

 

•  처치집단과 통제집단 간의 차이를 추정하는 계산 방법으로서 회귀모형 

•  회귀분석에서는 설명변수들이 통제될 수도 혹은 통제되지 않을 수도 있다. 

•  무작위 배정의 도움이 없는 경우, 회귀분석의 추정치들은 인과관계로 해석될 수도 있고 그렇지 않을 수도 있다. 

•  어떤 조건 하에서 회귀분석의 결과가 인과관계로서 해석될까 

• 회귀 추정치들의 특성들에는 모집단 회귀함수 (population regression function) 와 조건부 기대함수 (conditional expectation function) 사이의 밀접한 관계와 회귀추정치의 표본분포가 포함되어 있다. 

 

 

b. 경제적 관계과 조건부 기대함수 

 

•  조건부 기대함수 conditional expectation function CEF : E(Yi | Xi) → Xi 의 함수 

•  CEF 를 보완하는 하나의 중요한 개념은 the law of iterated expectations 반복기댓값 법칙이다. 

   ↪ E[Yi] = E{E[Yi | Xi]} 

   ↪ 반복 기댓값 법칙에 의해 우리는 하나의 확률변수를 CEF 와 잔차라는 두 부분으로 분해할 수 있다. 

   ↪ Yi = E[Yi | Xi] + ϵi   :  Xi 에 의해 설명되는 CEF 부분과 Xi 의 모든 함수와 직교하는 (상관관계가 0인) 잔차 부분으로 분해될 수 있다. 

 

•  CEF 의 예측 특성 : CEF 는 Xi 가 주어졌을 때, Yi 의 MMSE (minimum MSE) 예측치이다. 

•  CEF 의 특성 : ANOVA 분산분석 정리 : V(Yi) = V( E(Yi | Xi) ) + E( V(Yi | Xi) ) 

 

 

C. 선형회귀모형과 CEF

 

•  회귀분석은 CEF 와 밀접하게 연결되어 있고 실증적 관계를 자연스럽게 요약해준다. 

•  모집단 잔차는 설명변수인 Xi 와 상관관계가 0이다. 오차항은 스스로 아무런 역할을 하지 못한다. β 가 주어져야만 오차항이 존재할 수 있고, 의미를 가질 수 있다. 

•  βk = Cov(Yi, x_ki) / V(x_ki) 

•  CEF 가 선형이라고 가정하면, 모집단 회귀함수가 CEF 이다. 

•  Xi 의 '모든' 함수들 중에서 CEF E[Yi | Xi] 가 Yi 에 대한 최적 에측치인것처럼 모집단 회귀함수는 선형함수들 중에서 우리가 구할 수 있는 최적 함수이다. 

•  CEF 가 종속변수의 최적 무제약 예측치인 것처럼, 회귀 모형은 종속변수에 대한 최적 선형 예측치를 제공한다. 

•  회귀모형의 CEF 정리를 재해석하면, 회귀계수들은 개인의 Yi 가 아니라, E[Yi | Xi] 를 종속변수로 사용하는 경우에도 구할 수 있다. 

 

 

d. 점근적 OLS 추론 

 

•  최소제곱 ordinary least squares : OLS 추정량 

•  대수의 법칙 : 표본 적률은 그에 대응하는 모집단 적률에 확률적으로 수렴한다. 충분히 큰 표본을 구성하는 방법을 통해, 표본 평균이 모집단 평균에 가까울 확률을 원하는 만큼 높게 만들 수 있다. 

•  중심극한정리 : 표본적률은 점근적으로 정규분포를 따른다. 

 

•  슬러츠키 정리 

 

•  연속사상 정리 :  확률극한은 연속함수에 그대로 적용된다. 

•  델타법 : 정규분포에 근사하는 벡터형 확률변수를 생각해볼 때, 연속적이면서 미분가능한 스칼라 함수 역시 점근적으로 정규분포를 따른다. 

•  점근표준오차를 "robust" 한 표준오차라고 부른다. 이 표준오차를 강건하다고 말하는 이유는 충분히 큰 표본에서 이 표준오차를 사용하면 자료와 모형에 관한 최소한의 가정만으로도 정확한 가설 검정과 신뢰구간 설정이 가능하기 때문이다. 

 

•  선형 확률모형 linear probability model LPM : 선형 확률모형은 노동시장 참가 여부와 같이 종속변수가 더미변수로서 0 또는 1의 값만을 갖는 회귀모형을 말한다. 필연적으로 LPM 의 잔차는 이분산성을 갖는다. 

 

•  고전적인 정규 회귀모형이라고 불리는 전통적인 방식에는 고정된 (비확률적) 설명번수, 선형 CEF, 오차의 정규분포, 그리고 등분산성을 가정한다. 

 

 

e. 포화된 모형, 주효과 및 기타 논의

 

•  saturated 포화된 , main effects 주효과 

•  포화된 회귀모형은 설명변수가 이산변수인 회귀모형이다. 이 모형에서는 설명변수가 취할 수 있는 모든 가능한 값들에 대해 각각 모수를  부여한다. 

  ex. 설명변수로서 근로자의 대학 졸업 여부를 표시하는 변수 하나만이 있는 모형에서 대학 졸업 여부라는 한 개의 더미변수와 상수만을 포함하고 있는 모형은 포화된 모형이다. 설명변수가 여러개의 값들을 취하더라도 포화된 모형을 만들 수 있다. 

•  포화된 회귀모형은 CEF 를 완벽하게 추정한다. CEF 는 모형을 포화시키는 데 사용한 더미변수들의 선형함수이기 때문이다. 

•  만약 두 개의 설명변수가 (대학졸업여부를 나타내는 더미변수, 성별을 나타내는 더미변수) 있다면, 이 모형은 두 개의 더미변수, 더미변수들 간의 곱 그리고 상수를 포함하는 경우에 포화된다. 더미변수들에 대한 계수들을 main effect 주효과 라고 하고 더미변수들의 곱을 interaction term 교차항 이라고 한다. 

•  포화된 모형을 가지고 먼저 분석을 시작하는 것이 자연스럽다. 포화모형은 CEF 의 근사치를 제공하기 때문이다. 

 

 

 

 

 

②   회귀모형과 인과관계 


 

•  어떤 경우에 회귀계수를 실험으로부터 도출되는 인과효과의 근사치라 생각할 수 있을까? 

 

 

a. 조건부 독립성 가정 

 

•  회귀분석의 결과가 인과적으로 해석되는 경우 ⇨ 근사하는 CEF 가 인과적으로 해석될 때 

 

•  조건부 독립성 가정 CIA (conditional independence assumption) : 회귀 추정치가 인과적으로 해석될 수 있도록 정당성을 제공하는 핵심 가정이다. 

↪  2개 이상의 확률변수가 특정 조건에서 서로 독립적이라는 것을 전제로 한다 : P(A,B | C) = P(A|C)*P(B|C) 

↪  고정될 필요가 있는 통제변수들을 우리가 사전에 알고 있거나 관측할 수 있다고 가정한다. 

 

 

출처 (설명이 매우 잘 되어있다) 

 

 

 

 

 

 

•  CIA 는 관측된 특성들 Xi 가 주여졌을 때, 즉 Xi 가 동일한 사람들 사이에서 선택편의가 사라진다고 가정한다 : {Y0i, Y1i} ⫫ ci | Xi 

↪  ci : 처치변수 

 

 

•  많은 무작위 실험에서는 CIA 가 충족된다. Xi 가 주어진 조건 하에서 si 가 무작위로 배정되기 때문이다. 

  EX. CIA 가 성립할 경우에는 동일한 Xi 를 갖니 사람들에 대해 학력수준별로 평균임금을 비교하는 것이 인과적 해석을 가능하게 한다. 

 

•  무조건부 평균효과는 모든 개체를 대상으로 평균적인 인과처리 효과를 나타내는 지표이다. 평균인과효과는 처리받은 그룹 내에서의 평균적인 인과효과를 나타내므로 서로 구별되는 상이한 개념이다. 무조건부 평균효과는 X에 고유한 인과효과들을 Xi 의 주변분포 (marginal distribution) 을 이용해 가중한 평균을 구함으로써 계산한다. 

 

•  matching estimator : 동일한 Xi 값을 가진 개인들의 집단을 학력별로 비교하여 학력별로 평균 임금의 차이를 계산한 후, 그 차이들의 평균값을 구한다. 

 

•  선형 인과모형 : Yi = α + ρ∙si + Xi'γ + vi 

  ↪ si : 처치 (multiple case) 

  ↪ Xi : 통제변수 

  ↪  ρ : 인과효과 

 

 

 

 

b. 누락변수 편의 공식 

 

•  omitted variable bias (OVB) 식은 서로 상이한 통제변수들을 갖는 모형에서 구한 회귀 추정치들 사이의 관계를 표현한다. 

•  누락된 변수와 관심대상 변수가 서로 상관관계를 갖지 않는 경우, 짧은 모형 (독립변수가 적은 단순한 회귀모형) 과 긴 모형 (많은 수의 독립변수가 포함된 회귀모형) 의 회귀계수들은 언제나 서로 같다. 

 

 

c. 부적절한 통제변수 

 

•  설명변수들을 통제하면 회귀 추정치를 인과적으로 해석할 수 있는 가능성이 높아진다. 그러나 설명변수가 많아진다고 항상 좋아지는 것은 아니다. 어떤 변수들은 부적절한 통제변수들이므로 회귀모형에 포함되어서는 안된다. 

 

 

 

 

 

③   이분산성과 비선형성 


•  CIA 가 성립할 때 선형 인과모형은 인과적 해석이 가능한 선형 CEF 를 도출한다. 

 

a. 회귀모형과 매칭 

 

matching 설명 블로그 

 

⇨ 처리 집단과 비처리 집단 중 한명씩 뽑아 비슷한 사람들을 매칭한다. 처리집단의 i 번째 데이터와 비처리 집단의 j 번째 데이터 간의 거리를 재서 ϵ 보다 작으면 (거리가 가까운 사람들끼리) 매칭된다. 이 pair 들에 대해 수치의 차이를 각각 구하고 평균을 취하면 Average treatment effect on the treated 를 구할 수 있게 된다. 

 

v

 

•  설명변수를 통제하기 위한 전략으로 matching 은 회귀모형과 마찬가지로 CIA 에 기반을 둔 추정방법이다. 

•  매칭은 각각의 설명변수 값에서 처치-통제 간 비교를 가능하게 하고 이렇게 구한 처치효과들을 가중평균하여 단일한 전체 평균 처치효과를 산출한다. 

 

•  회귀모형의 경우 추정식은 모집단 회귀계수 벡터이다. 매칭 추정식은 일반적으로 처치집단과 통제집단 사이의 차이를 설명변수들에 의해 정의된 셀들을 이용해 가중평균한 값이다 ⇨ 관심 대상이 되는 모수는 처치를 받은 사람들에 대한 평균 처치효과 E(Y1i - Y0i | Di = 1) 이다. 

                                          

•  E(Y1i - Y0i | Di = 1)

   ↪ 직업훈련을 받은 사람들의 평균 임금 E(Y1i | Di =1) → 관측 가능한 수치 

   ↪ 직업훈련을 받지 않았더라면 받게 될 가상적인 (counterfactual) 평균 임금 E(Y0i | Di=1) 간의 차이 

 

•  처치된 사람들에 대한 처치효과를 추정할 때, 매칭은 처치된 사람들 사이의 설명변수의 분포를 가중치로 사용해 각 설명변수 값에 고유한 평균 효과들의 가중 평균을 구한다. 

 

 

 

b. 성향점수를 이용해 설명변수를 통제하는 방법 

 

•  관심대상인 원인변수가 처치 더미변수인 경우, 회귀모형 대신에 매칭을 사용하는 추정 전략 "propensity score theorem" 을 제안하였다. 

 

•  propensity score = P(Xi) = E(Di | Xi) = P(Di=1 |  Xi) : 특정 개체가 치료군에 속할 확률, 다변량 설명변수 벡터 Xi (처치확률에 영향을 미치는 설명변수들만 통제하는 것으로 충분하다) 

 

 

 

•  p(xi) 를 구하는 방법 

   1) logit 이나 probit 같은 모수적 모형을 이용해 p(Xi) 를 추정한다 : 종속변수를 treatment 여부로 둔다. 

   2) 1단계에서 추정된 성향점수를 기준으로 매칭하여 처치효과의 추정치들을 계산한다. 

 

⇨ 관찰 가능한 통제변수로 treatment 받을 확률을 모두 설명할 수 있다는 가정 

 

 

 

c. 성향점수법과 회귀모형 

 

•  propensity score matching 은 E(Yi | Xi, Di) 추정으로부터 성향점수 P(Xi) = E(Di | Xi) 추저으로 전환시킨다. 

•  회귀모형을 이용해 추정하기 전에, 성향점수를 사용해 체계적으로 표본을 선택해야 한다고 제안하고 있다. 

 

 

 

 

 

728x90

댓글