본문 바로가기
1️⃣ AI•DS/⚾ 계량경제•통계

계량경제학 강의_한치록_다중회귀 8장

by isdawell 2023. 5. 16.
728x90

 

👀 계량경제학 개인 공부용 포스트 글입니다. 

 

 

 

8. 다중회귀 모형과 그 추정 


 

① 다중회귀 모형 

 

단일회귀모형에서의 문제점

 

•  Y = β0 + β1•X + u 

•  E(u|X) = 0 이라면 β1 는 X의 변화가 Y에 평균적으로 미치는 영향을 측정한다. 

 

•  만약 Y가 임금이고, X가 학력이라면, "경력" 의 영향이 u 에 포함되고, 학력과 경력 사이에는 상관성이 존재하기 때문에 (학력이 높은 사람은 평균적으로 경력이 적음) 설명변수와 오차항이 서로 관련을 갖게 되어, 최소제곱법을 써서 나온 추정량은 무용지물이 된다. 

 

 

오차평균 0 가정

 

•  경력으로 인한 차이가 오차항에 포함되어 오차평균0의 가정이 위배되고, 평균임금 차이가 학력으로 인한것인지 여타 요소 (경력) 때문인건지 알 수 없게 된다. 가령 학력이 16년인 사람들의 평균임금과 12년인 사람들의 평균임금은 아래와 같이 분해되어 표현할 수 있다. 

 

E(임금|학력 = 16) - E(임금|학력=12) = β1(16-12) + [ E(u|학력=16) - E(u|학력=12) ]  

 

 [ E(u|학력=16) - E(u|학력=12) ]  부분에서 u에 학력에 따라 경력이 영향을 미쳐 경력에 따른 임금의 차이가 존재하게 된다면 오차평균 가정0 이 위배된다. 오차의 평균이 X값에 의존하면 최소제곱 추정값은 기울기의 참값으로부터 평균적으로 벗어나고 이 참값에 대한 일관된 정보를 제공하지 않는다. 

 

 

다른 변수를 제어해 오차평균0을 회복 

 

•  자료가 충분하지 않아, 경력이 동일한 사람들이 수가 충분하지 않을 경우, 경력을 별도의 항으로 독립되어 다중회귀를 적용해 볼 수 있다 : log(임금) = β0 + β1•학력 + β2•경력 + u  여기서 오차항 u 는 학력과 경력의 영향을 제외한 여타 요소의 영향이고, 여기서 오차항은 경력의 영향을 포함하지 않는다. 

 

 

 

② 모수의 해석 

 

•  E(Y | X1,..,Xk) = β0 + β1•X1 + ... +  βk•Xk

β1 해석 : X2, ..., Xk 의 값들은 모두 고정하고 X1만 한 단위 증가시킬 때, Y의 평균 변화 정도 

 

※ 여타 우변 변수들을 고정시키고 한 변수만 변할 때 종속변수가 받는 영향이라는 해석이 항상 옳은 것은 아니다. 상호작용항과 제곱항을 적용할 땐 다른 방식으로 해석해야 한다.

 

 

 

③  최소제곱추정량이 유일한 조건 

 

•  우변에 k개의 설명변수 (X1, ... , Xk) 가 있을 때, 절편을 포함해 (β0, β1, ... , βk) 를 추정하고자 하고, OLS 를 사용하면 k+1 개의 직교방정식을 갖는다. 방정식의 개수와 미지수의 개수가 같으면 식은 풀리고 유일한 해를 가진다. 그러나 이는 방정식들이 충분히 독립적인 정보를 가지고 있을 때만 그러하다. 단순회귀의 경우 특이성 singularity (설명변수의 표본값들이 모두 동일할 때) 이 있을 때 추정이 되지 않는다. 

 

•  다중회귀식의 우변에 나온 변수들의 표본값이 모두 독립적인 정보를 조금씩이라도 담고 있으면 이러한 특이성은 나타나지 않는다. 독립적인 정보를 담고있다는 것은 표본 내에서 어떠한 변수도 나머지 변수들에 의해 선형으로 완벽하게 설명되지 않음을 의미한다. 

 

•  특이성이 나타나는 예 : 임금 = β0 + β1•여성 + u ⇨ 표본내 오로지 여성만 있다면, 여성i 는 모든 i에 대해 1의 값을 가진다. 

 

•  여러 변수들의 표본값들 사이에 완벽한 선형관계가 존재할 때 계량경제학에서는 완벽한 공선성 (collinearity) 가 존재한다고 한다. 선형대수에서는 선형종속 (linearly dependent) 라고 한다. 이를 해결할 방법은 문제를 일으키는 변수를 골라 제거하는 것이다. R에서는 이러한 변수들을 알아서 제거하여 해당 변수에 대해 NA 로 결과를 표시한다. 

 

•  특이성 문제에 빠지지 않으려면, 특히 범주형 변수에 대해, 더미변수함정 (dummy variable trap) 에 빠지면 안된다. 더미변수들과 절편 가운데 무언가를 제외시켜야 한다. 통상적으로 첫 번째 더미변수나 마지막 더미변수를 제외시킨다. 

 

 

④ Fitted value, residuals, R-squared

 

 

 

 

728x90

댓글