본문 바로가기
1️⃣ AI•DS/⚾ 계량경제•통계

계량경제학 스터디 Lecture 2. Regression

by isdawell 2023. 5. 10.
728x90

 

👀 계량경제학 개인 공부용 포스트 글입니다. 

 

 

 

 

 

1.  Review and Motivation 


 

①  Review 

 

 

◯  ATT + selection bias 

 

•  difference between treat and control = avg. causal effect (ATT) + selection bias 

 

 

•  observed difference = causal effect 가 될 때 (= selection bias 를 무시할 수 있을 때) 

 

  treatment 가 outcome 에 독립일 때 : randomization 과 같이 결과에 관계없이 할당될 때 

 

 

 

◯  예시 

 

↪  E(y0i | Di) 

     ▸ Di=1 일 때 : (30/100)*1 + (70/100)*(-1) = -0.4 

     ▸ Di=0 일 때 : (70/100)*1 + (30/100)*(-1) = 0.4 

 

 

↪ 실제로는 아래와 같이 y0i | Di = 1 인 경우와 y1i | Di = 0 인경우를 관측할 수 없다.

 

 

따라서 가정한 true ATT 가 0.5일 때, 실제로 관측된 차이는 -0.3 이다. 그렇다면 왜 관측된 차이와 ATT 는 다르게 도출되었을까? 바로 selection bias 가 존재하기 때문이다. 

 

Counterfactual 와 control group 의 차이인 0.8 이 selection bias 에 해당한다. 

 

 

•  반면, randomization 을 적용한다면, 실험 데이터는 아래와 같이 구성할 수 있다. 

 

 

실제 데이터로 볼 수 있는 테이블은 아래와 같다. 

 

 

※ 실험에서 selection bias 는 directly 하게 test 할 수 없음을 기억하자. 

 

대신에, randomization 을 통해 treatment 와 control 이, treatment 조건을 제외하면 평균적으로 Cetris Paribus (all else being equal) 하다고 볼 수 있다. 만약 그렇다면, 처치집단과 통제집단의 차이는 treatment 로부터 기인하는 것이다. 

 

 

 

②  Outline 

 

 

 

 

 

 

 

 

2.  CEF and OLS 


 

◯  회귀식 

 

•  E(y|x) : expected value of y given x 

•  y 는 x 로 설명되는 부분인  E(y|x) 와, x 와 독립적으로 동작하는 e 부분으로 나눌 수 있다. 

 

 

 

 

◯  CEF : E(y|x) 

 

•  x 에 대한 함수 (이때 x는 꼭 단일한 변수일 필요는 없다. Kx1 크기의 벡터일 수 있다) 

•  x 가 D (treatment) 와 같이 이진변수라면, CEF 는 E(y|D=1), E(y|D=0) 2개의 값을 가질 수 있다. 

 

•  CEF 를 직관적으로 이해해보자면, 아래와 같이 어떤 x에 대해 y의 분포는 E(y|x) 에 모여져 있다.  

 

교육을 받은 기간과, 주당 로그 수익간의 관계

 

↪  x=4 일 때 y의 분포 : E(y|x=4),  x = 8 일 때 y의 분포 : E(y|x=8) ...

 

 

•  CEF 는 x와 y의 관계를 이해하는 방법일 뿐만 아니라, x 가 주어졌을 때, MSE 를 최소화 하는 가장 최고의 y의 예측값을 찾는 방법이기도 하다. 

 

 

 

 

  Linear Regression 

 

 

•  (y,x,u) : random variable

•  (y,x) : observable 

•  (u,β) : unobservable 

   ▸ u 는 x를 고려한 이후에 y 를 결정하는 모든 것을의미한다. 

   ▸ β를 추정하기 원한다 

 

 

•  β를 추정하는 방법 : Ordinary Least Squares OLS 는 MSE 를 최소화하는 b를 찾는다. 

 

•  first order condition E[x(y-βx)] = 0 을 사용하여 추정된 β 

 

 

 

 

  Linear Regression and CEF 

 

•  CEF 는 x가 주어졌을 때 y를 예측하는 best predictor 이다. 

 

•  βx 는 x가 주어졌을 때 y를 예측하는 best linear 이다. 

 

•  또한 βx는 E(y|x) 의 best linear approximation 이다 

 

•  CEF 가 nonlinear 하더라도, 회귀분석은 최선의 linear approximation 을 제공한다. 

 

 

 

 

 

 

 

3.  Regression and Causality 


 

①  Regression decompose 

 

 

FOC 

 

•  First order condition of a linear regression : 비용 함수를 파라미터로 미분하여 얻은 일차 미분값이 0이 되는 파라미터 값을 찾는 것 

 

  FOC 는 least-square 방법을 사용하여 x와 residual u 가 서로 상관관계가 없다는 것을 이끌어낸다. 

 

  y는 2개의 요소로 나눠볼 수 있다. 

   ▸ x로 설명 가능한 부분 : βx

   ▸ x와 상관없는 (uncorrelated) 부분 : u 

   ▸ x가 y를 어떻게 설명할 수 있는지는 회귀분석을 이해하는데 도움이 되지만, 이는 x와 y의 인과효과와 동일하진 않다. 

 

 

 

potential outcome framework 로 회귀분석 표현하기 

 

 

  ρ 는 selection bias 가 없을 때, treatment 의 인과효과를 측정한다. 

  FOC : E[ηD] = 0 이 E[η | D=1] = E[η | D=0] 을 의미하는 것일까, 즉 correlation 이 0이라는 것이 독립성을 의미하는 것일까 ⇨ correlation 이 없다는 것이 independence 를 보장하진 않는다. 

 

 

 

 

②  Causality 

 

 

◯ CEF

 

•  CEF 는 x가 변화할 때 평균적인 결과의 차이를 의미할 때, causal 하다고 볼 수 있다. 

•  가령 x가 a에서 b로 변화한다고 할 때, 아래와 같이 표현할 수 있고 

 

회귀식이 이러한 causality 를 보여줄 수 있는 경우는, y = βx + u 로 모델링했을 때 결과는 아래와 같고 

 

CEF 는, E(u|x=b) = E(u|x=a) 일때 a에서 b로 변하는 causal effect 라고 생각해볼 수 있다. 

 

•  회귀분석의 인과관계를 위해 E(u|x) = E(u) 라는 가정이 필요하다. 즉, u의 평균 (y에서 설명되지 않는 부분) 는 x와 독립이라는 의미이다. 이러한 가정을 Conditional mean independence (CMI) 조건부평균독립성 이라고도 부른다. 

↪  x 와 u 는 서로 independent 하다 

↪  x 와 u 는 서로 uncorrelated 하다. 

↪  E(u|x) = 0 

 

 

※ [Another 해석] CMI 가정은 종속변수와 독립변수 사이의 관계를 설명하는데 사용된다. CMI 가정은 종속 변수와 독립 변수 사이의 관계가 독립 변수와 제3 변수 사이의 관계에 의존하지 않는다는 가정이다. E(Y|X, Z) = E(Y|Z). 독립변수 X와 제 3의 변수 Z가 주어졌을 때, Y의 조건부 평균은 Z에만 의존하며 X에는 의존하지 않는다는 것을 의미한다. CMI 가정이 성립하면, X와 Y 사이의 관계를 분석할 때, Z의 영향을 제거할 수 있다. 

 

 

 

 

 

 

◯ EX 

 

•  재택근무 참여자들은 volunteering & eligibility 대상임을 기억해보면, CMI 를 만족하는 case 는 아니다. 

 

 

•  ηi 가 (β1•1(volunteer) + β21(eligible) + e) 이기 때문에 E[ηi | Di=1] ≠ E[ηi | Di=0] 인 것은 분명하다. 

 

•  그러나 treatment 는 randomly 하게 volunteering 과 eligibility 에 conditional 하게 배정된다. 따라서 Xi = (1(volunteer), 1(eligible)) 일때, Di ⊥ Yi|Xi 관계가 성립한다. 이는 E(ei | Di, Xi) = 0 을 만족한다. 이때 ei 는 Yi = α + ρDi + Xi'ϒ + ei 로부터 도출된 부분이다. 

 

•  CMI는 X 에 대해 조건적이기 때문에 인과성을 유지한다. 

•  특정한 covariate 에 대해 random treatment conditional 하면 selection-on-observable 이라 부른다. 

 

 

 

 

③  CMI 가정의 타당성 

 

•  CMI 가정이 위배될 수 있는 많은 이유가 있다. error term 은 x 를 제외하고 y에 영향을 미치는 모든 요소를 포함하고 있는데, 이는 매우 많을 수 있다. 

 

 

Example 1 : Krueger 

 

•  논문 : 컴퓨터가 임금 구조를 어떻게 변화시켰는지: 마이크로데이터의 증거 (1984-1989년)

•  Research question : 직장에서 컴퓨터를 사용하는 근로자들은 그렇지 않은 근로자들보다 더 높은 임금을 받습니까?

 

 

•  임금구조를 바꾸는 것과 관련한 2가지 가정 : 몇몇 산업에서 증가하는 국제 경쟁은 저숙련 및 저학력 노동자들에게 피해를 입혔다(Murphy and Welch, 1991), 1980년대 기술 기반의 급격한 기술 변화는 근로자의 생산성 변화를 야기했다(Bound and Johnson, 1992)

 

•  회귀분석 

 

 

•  문제점 

↪ α 는 컴퓨터 사용의 임금에 대한 인과효과를 반영하지 못한다. 

↪ Ci 는 random 하게 배정되지 않았다. 일반적으로 Ci=1 인 컴퓨터를 사용하는 사람들의 평균 임금은 컴퓨터를 사용하지 않은 사람들보다 높을 수 있다 (selection bias). 또한 직업에 따라 컴퓨터 사용 여부가 달라질 수 있다. 

 

 

•  이러한 문제를 다루기 위해, control variable Xi 를 OLS 분석에 추가하였다. 

 

 

•  모든 변수들에 대해 E(ui | Ci, Xi) = 0 임을 보일 수 있을까 

 

•  가령 위의 예제에서, ui 는 대학교 전공이 (컴퓨터공학이나 경제학) 될 수 있다. 컴퓨터공학과를 전공한 사람은 컴퓨터에 관한 일을 경제학과를 전공한 사람보다 많이 할 것이다 ⇨ violation of CMI 

 

•  직관적으로 이와 같은 비판이 지속된다면, "컴퓨터 채택" 변수가 신기술 채택이 임금에 미치는 진정한 인과적 영향을 측정하는지, 아니면 CS 전공자가 임금에 미치는 영향을 측정하는지 여부가 불분명해진다. 어쩌면 컴퓨터공학을 전공했기 때문에 수학이나 논리적인 것을 배워 이런 부분이 임금을 높였을 수 있다. 

 

 

 

◯ Example 2 : Investment 

 

•  firm level regression 

 

•  Q 는 투자 기회를 특정하는 변수이다. CMI 가정은 각 Q에 대해 평균적인 u 가 동일함을 의미한다. 

 

 

•  CMI 가정이 성립하지 않은 이유는 다음과 같다. 먼저 낮은 Q를 가진 회사는 어려움을 겪고 투자를 줄일 수 있다. 반면, Q가 높은 기업은 투자 자금 조달에 어려움을 겪는 소규모의 젊은 기업일 수 있다. 따라서 각 Q에 대해 평균적인 u 가 동일하지 않을 수 있다. 

 

 

 

④  CMI 에 대한 Test 

 

 

•  residual u 가 x와 상관관계가 없다면 CMI 를 증명할 수 있나 → 없다. OLS 회귀분석의 구조에 의하여 residual 은 mean zero 이고 x 와 uncorrelated 하다. 

 

•  "identification police" : CMI 가 위반되는 경우를 찾고자 할 때 사용하는 용어로, u 가 x와 상관성을 가지는 이유를 찾고자 한다. 그러나 이러한 과정이 쉽진 않다. 인과추론에서 CMI 가정을 보장하는 방법을 찾기위해 노력하는 부분이 연구에서 매우 중요한 요소가 된다. 

 

•  CMI 가 보장되지 않는 상황을 "endogeneity problem" 이라고 말한다. 여기서 endogeneity 라는 것은, 무언가 잘못된 부분이 있으나 이것이 왜, 어떻게 잘못되었는지 명확히 설명할 수 없을 때를 의미한다. 

 

 

 

⑤  CMI 을 위반하는 주요 이유들 

 

•  3가지 원인 

   ▸ Omitted variable bias 

   ▸ Measurement error bias 

   ▸ Simultaneity bias

 

 

 

 

4.  Regression Basics 


 

①  Interpretation 

 

 

•  변수 해석 : 기업 최고 경영자에게 지급되는 보수, ROE (기업의 이익과 자본에 대한 비율을 나타내는 지표, ROE가 높은 기업에서는 CEO의 보수가 높아질 가능성이 높으며, ROE가 낮은 기업에서는 CEO의 보수가 하락할 가능성이 있다

 

  β_hat = 18.5 : ROE 가 1% 증가할 때, 봉급이 $18,500 정도 증가한다. 

  α_hat = 963.2 : ROE 가 0일 때, CEO 의 평균 봉급은  $963,200 이다.

 

 

 

②  Scaling & Shifting 

 

scaling example

 

•  단위 Scaling 은 ROE 와 salary 사이의 관계에 영향을 미치지 않는다. 단위가 바뀌더라도 본질적인 해석은 동일하다. Scaling 을 하는 이유는, 결과를 좀 더 보기 편하게 하기 위함이다. Scaling 은 coefficients 나 SE 의 절대적인 크기에 영향을 미칠 수 있다. 그러나 t-stats 이나 inference에 영향을 미치진 않는다. 

 

 

 

 

③  Non-linearity & Log approximation 

 

 

Non-linearity 

 

•  causal CEF 가 linear 하다는 가정은 현실적으로 맞지 않을 수 있다. 

 

 

  교육수준과 임금 사이의 인과효과 예제에서, 예를들면, 5년~6년 (초등교육) 사이에 임금 증가 수준과 15년~16년 (대학졸업) 사이에 임금증가 수준이 같다고 가정하는 것은 비현실적일 수 있다. 오히려 임금 증가에 있어 constant proportionate (i.e. percentage) 를 사용하는 것이 적합할 수 있다. 

 

percentage

 

  위와 같은 형태 (log 를 취하는 방식) 의 linear specification 은 비선형 변수들 사이에서 linear 한 관계를 포착하는데 매우 flexible 하다. 그러나 log-level specification 은 잠재적인 문제점들이 있다. 아래와 같이 대학 졸업 기간에 발생하는 더 큰 영향과 같이, 다른 non-linearity 는 무시할 수 있다는 것이다. 

 

 

 

◯  Log-Approximation 

 

•  Log 변수는 매우 유용하다. 

 

 

 

  ln(wage) 공식에서 100β 는, 교육수준에 따른 임금 변화 %에 대해 설명할 수 있다. 

 

가령 위의 예제에서는, 8.3%의 임금 증가가 있었다고 해석할 수 있다

 

 

  가령 salary = 4.822 + 1,812.5•ln(sales) 와 같이 독립변수에 log 가 있다면, β 해석은 다음과 같이 할 수 있다. sales 가 1% 증가할 때, salary 는 $18,125 증가할 것이다. 

 

  ln(salary) = 4.822 + 0.257ln(sales)와 같이 독립변수와 종속변수 모두에 log 가 있다면 다음과 같이 해석할 수 있다. sales 가 1% 증가할 때, salary 는 0.257% 증가한다. 

 

 

  log approximation 은 y가 큰 숫자를 가질수록 문제가 될 수 있다. 

 

y값이 커질수록 실제 y 변화량과 logy 변화량의 숫자 차이가 커질 수 있다.

 

 

  log 의 장점 : 이상치의 영향을 완화할 수 있다. 

 

log0 은 존재하지 않기 때문에 보통 ln(1+y) 를 많이 사용한다.  그러나 이런 경우 y에 0이 많거나 작은 값이 많은 경우에 추정치에 대한 해석에 유의해야 한다. y가 매우 작다면 ln(1+y) 로 해석하는 것은 매우 위험할 수 있다. 특히 경제학적으로 0과 1은 해석의 여지가 달라질 수 있기 때문에 더욱 주의해야 한다. 가령 임금에 대해서 해석할 때 $0 에서 $1 로 변화하는 것은 unemployment 에서 employment 로 변화하는 것을 의미한다. 이는 $100 에서 $101 로 변화하는 것과 매우 다른 의미를 가질 수 있다. 

 

 

  Percent 와 percentage point 용어 헷갈리지 말기! 

 

 

 

 

④  Multivariate regression 

 

 

  Multivariate regression 

 

•  오직 하나의 독립변수만 가지고 있다는 건 비현실적일 수 있다. 보통 k 개의 regressor 를 가정한다. 

 

 

CMI 가정을 비슷하게 도입해볼 수 있다

 

  또 하나의 중요한 가정은 (x1,...,xk) 사이에 collinearity 가 없다는 것이다.  가령 왼쪽손 크기와 오른쪽손 크기를 가지고 키를 예측한다고 했을 때, 이 둘은 서로 collinearity 가 높기 때문에 회귀계수를 신뢰할 수 없게 된다. 

 

  OLS 를 사용하여 (β0, ... , βk) 를 추정해볼 수 있다. βj_hat 을 해석할 때, partial effect interpretation 을 해야 한다. (즉, 다른 변수들은 고정시켜야 한다는 의미) 가령 β1_hat 을 해석하고자 한다면, x1 의 변화량을 제외한 나머지 변수들은 모두 상수로 고정시켜야 한다. all else fixed → Ceteris Paribus 

 

y에 대한 x1 의 영향은 x2를 통제해야 가능하다.

 

  β1_hat 

 

 

  Model Evaluation 

 

  회귀식의 설명력을 평가하는 지표 : R-squared : standard measure of goodness-of-fit

 

 

 

 

⑤  Bias & Consistency 

 

  Bias and Consistency 

 

  Hypothesis testing 

 

  등분산성 vs  이분산성 

 

 

 

 

 

 

 

728x90

댓글