본문 바로가기
1️⃣ AI•DS/⚾ 계량경제•통계

계량경제학 강의_한치록_단순회귀 5장, 6장

by isdawell 2023. 5. 13.
728x90

 

 

👀 계량경제학 개인 공부용 포스트 글입니다. 

 

 

 

 

 

5. 통계적 검정의 기초 


 

•  검정력은 귀무가설을 제대로 기각할 확률이고, 검정의 크기 (1종 오류를 범할 확률) 는 귀무가설을 잘못 기각할 확률이다. 

•  통계적 검정에서는 검정의 크기를 일정한 수준 (유의수준) 으로 유지하고, 귀무가설이 틀릴 때 검정력 (검정의 힘)을 최대한 크게 하고자 한다. 

•  검정의 크기가 1%로 통제되면, 귀무가설이 옳은 경우에도 100번에 1번꼴로 귀무가설을 기각하는 오류를 범한다. 

 

 

 

 

 

6. 최소제곱을 이용한 가설검정  


 

•  OLS 를 사용해 모수들을 추정하는 방법 

↪  비편향성 : 설명변수값들을 고정시킨채 반복시행되고, 오차항의 평균이 0이면 OLS 추정량의 평균은 모수의 참값과 동일 

↪  가우스 마코프 정리 : 오차항들의 분산이 동일하고 표본 내 관측값들이 서로 독립일 때, OLS 추정량의 분산은 비편향 추정량이 가질 수 있는 분산 중 가장 작은 것 

 

 

① 가설들 

 

  β1 = 0 이라는 귀무가설은 계량경제학에서 매우 중요하다. β1 = 0이라는 것은 독립변수가 종속변수에 평균적으로 영향을 미치지 않음을 의미한다. 

 

•  X와 Y에 자연로그를 취한 후 그 기울기가 1 (또는 -1) 인지 검정해볼 수 있다. 수요공급 분석에서 흥미로운 귀무가설이 될 수 있다. 

↪  1 또는 -1 이면 Y가 단위탄력적 

↪  절댓값이 1보다 작으면 비탄력적 

↪  절댓값이 1보다 크면 탄력적 

 

 

 

② 검정 통계량의 도출 

 

•  (β1_hat - β1) / se(β1_hat)  ⇨  해당 통계량이 검정통계량으로서 사용될 수 있으려면 확률분포가 무엇인지 알아야 한다. 

 

•  t분포 

↪  Z는 표준정규분포를 따르고, X 가 자유도가 d 인 카이제곱분포를 따르며 Z와 X가 서로 독립일 때, Z / √(X/d) 변수가 가지는 분포로, 분포의 모양은 d값에 의존하며 d를 t 분포의 자유도라고 한다. 자유도가 작을수록 꼬리가 두텁고 클수록 표준정규분포에 가까워진다. 

↪  적은 샘플에 대한 통계적 추정치가 잘 맞지 않은 점을 착안하여 t 분포를 제안

 

 

③ '영향없음' 이라는 귀무가설의 검정 

 

•  어떤 설명변수의 계수가 0이라는 귀무가설을 양방향 대립가설에 대해 100•α % 유의수준에서 기각할 수 있으면, 이 변수는 100•α %수준에서 통계적으로 유의하다고 한다. 어떤 설명변수가 통계적으로 유의하다는 말은,  귀무가설이 β1 = 0 (영향없음) 이라고 했을 때, 해당 변수의 계수가 통계적으로 0과 유의하게 다르다는 것을 줄인 표현이라 보면 된다. 

 

•  영향없음이라는 귀무가설은 매우 중요한 가설이기 때문에 대부분의 통계 패키지는 이에 해당하는 t값을 자동 계산해 출력한다. 

 

•  통계적 유의성은 해당 계수가 0이라는 귀무가설을 기각한다는 뜻일 뿐이며, 이를 너무 확대해석 하면 안된다. 통계적으로 유의하다고 해서 반드시 독립변수가 종속변수에 실질적으로도 중대한 영향을 미친다고 말할 수는 없다. 통계적 유의성과 실질적 중요성은 별개의 문제이다. 또한 통계적으로 유의하다는 것은 계수가 0이라는 귀무가설을 기각할 수 잇다는 것일 뿐, 추정 결과의 정확성이나 신뢰성을 의미하진 않는다. 또한 인과관계 측정을 위한 모형의 좋고 나쁨을 판단하는 기준이 되지 않는다. 통계적으로 유의하지 않다는 것은 그 계수가 0일 귀무가설을 기각할 수 없다는 것, 즉 자료로부터 해당 변수가 종속변수에 체계적인 영향을 미치지 않는다는 가설에 반하는 증거를 찾을 수 없음을 뜻한다. 그렇다 하여 해당 계수가 0임을 의미하는 것은 아니다. 계수의 참값을 알 수 없다. 

 

 

④  p값 

 

•  p-value 는 t(n-2) 분포 확률밀도 함수에서 t 값 계산치보다 극단인 영역의 넓이이다. 귀무가설을 만족시키는 모집단으로부터 표본 추출을 무한반복할 때, t 통계량이 실제 계산된 값 혹은 그보다 더 극단적인 값으로 실현될 확률이 얼마나 되는지를 나타낸다. 

•  계산된 p 값이 유의수준보다 작으면 해당 유의수준 하에서 귀무가설을 기각하고 대립가설을 받아들인다. p 값은 양방향 대립가설에 대해 해당 변수를 유의하게 만드는 가장 작은 유의수준이기도 하다. 

 

 

※ 설명변수가 더미변수일 때, 그 계수는 더미변수 값이 1인 사람들과 0인 사람들 간의 평균적인 차이를 나타낸다

 

 

⑤  신뢰구간 

 

•  β1 참값이 (추청값 +- 임계값x표준오차) 구간에 속할 확률은 95% 

•  95% 신뢰구간 : 신뢰구간은 주어진 자료로부터 계산할 수 있는 "통계량" 으로 표본추출을 시행할 때마다 매번 변한다. 실험을 무한 반복해 보면 β1의 참값을 95% 의 확률로 포함한다. 

•  신뢰구간을 이요해 가설검정을 할 수 있다. H0 : β1=0 에 대해 5% 유의수준에서 검정하려면 0이 95% 신뢰구간에 포함되어 있는지 보면 된다. 

 

 

 

⑥  β1 = a 라는 귀무가설의 검정 

 

•  (β1_hat - a) / se(β1_hat) 

•  귀무가설이 β1=0 이 아니면, 통계패키지에서 보고하는 t값이나 p값은 별 쓸모가 없고 일일히 t 통계량을 계산하고 필요시 임계값을 구하고 p 값을 계산해야 한다. 자료와 모형을 약간 조작해, 원하는 t값과 p 값이 자동으로 보고되도록 할 수 있다. θ = β1 - 1 라고 놓으면 귀무가설은 θ=0 이 된다. 그리고 회귀식의 왼쪽 값을 y-x 로 조작하면 된다. 

 

 

•  예제1. 집 크기에 대한 주택가격 탄력성 β1에 대한 검정  :  log(price) = β0 + β1•log(lotsize) + u 

↪  H0 : β1=1 을 검정 

↪  θ = β1 - 1 라고 놓고 β1= θ + 1 을 이용해 수식을 치환하면 다음과 같다. log(price) - log(lotsize) = β0 + θ•log(lotsize) + u   이때, log(price) - log(lotsize) 는 로그 변환으로 log(price/lotsize) 즉, 단위면적당 가격으로 해석하여 재정의해 볼 수 있다. 

 

 

 

 

 

728x90

댓글