본문 바로가기
2️⃣ Study/▢ 자격증 | 교육

[빅분기] 3과목 빅데이터 모델링 : 2장 통계 분석기법 Part1

by isdawell 2022. 3. 30.
728x90

📌 2장. 통계 분석기법

 

⭐ 현업에서 알고싶어하는 '어떤 고객이 이탈하느냐', '왜 이탈하느냐' 라는 물음에 대한 답은 데이터를 이용한 통계 검정이나 회귀분석을 통해 답을 구할 수 있다. 다양한 통계분석 기법에 대해 알아보자!

 

 

1️⃣ 회귀분석 ⭐⭐ - 개념, 오차항 가정, 결과해석 

(1) 회귀분석 개념 

 

a. 개념 

  • 독립변수(원인) 가 결과(종속변수)에 미치는 영향을 추정해 식으로 표현할 수 있는 통계기법 
  • 인과관계를 밝히고 모형을 적합하여 관심있는 변수를 예측하거나 추론하기 위해 사용하는 기법 
  • 독립변수의 개수가 하나이면 단순선형회귀분석, 두 개 이상이면 다중선형회귀분석으로 분석이 가능하다. 
  • 독립변수의 경우 명목척도로 측정된 범주형 자료가 사용될 수 있으나 이 땐 독립변수를 dummy 로 변환해야 한다.

b. 변수

  • 영향을 주는 변수 : 설명변수, 독립변수, 예측변수 
  • 영향을 받는 변수 : 반응변수, 종속변수, 결과변수 

c. 선형회귀분석의 가정 

  • 독립변수와 종속변수 간의 선형성 
  • 오차의 등분산성 : 오차의 분산은 독립변수 값과 무관하게 일정하게 분포해야 한다. (산점도에서 무작위적으로 고르게 분포)
  • 오차의 정규성 : 오차의 분포가 정규분포를 만족. Q-Q plot, Kolmogorov-Smirnow 검정, Shapiro-Wilk 검정 등을 활용해 정규성을 확인한다. 
  • 오차의 독립성 : 오차들은 서로 독립적이라는 가정. 예측값의 변화에 따라 오차항이 특정한 패턴을 가지면 안된다. Durbin Watson 검정을 수행하여 통계량이 2에 가까울수록 오차항이 독립적임을 파악할 수 있다. 0 (양의 상관관계) 이나 4(음의 상관관계)에 가까우면 독립성을 만족하지 못한다. 

d. 오차와 잔차의 차이 

  • 오차 : 모집단의 실제값과 회귀분석을 통해 적합된 값의 차이 
  • 잔차 : 표본에서 나온 관측값과 회귀분석을 통해 적합된 값의 차이. 모델이 정교할수록 값이 작을 것이다. 

e. 회귀분석 종류에 따른 가정에 대한 검증 

  • 단순선형회귀분석 : 입력변수와 출력변수간에 선형성을 점검하기 위해 산점도를 확인한다. 
  • 다중선형회귀분석 : 데이터가 선형회귀분석의 가정인 선형성, 등분산성, 정규성, 독립성을 모두 만족하는지 확인해야 한다. 

 

 

(2) 단순선형회귀 

 

a. 개념

  • 하나의 독립변수가 종속변수에 미치는 영향을 추정 
  • 회귀계수를 찾아 함수식을 생성하고, 이 계수가 유의한지 통계적으로 파악하여 종속변수 값을 예측한다. 

b. 회귀계수 추정법 : 최소제곱법, 최소자승법 

  • 잔차 제곱합(RSS)을 최소로 만드는 직선을 찾기 

c. 결과해석 

 

c-1. 회귀모형은 통계적으로 유의한가? - F검정 

  • H0 : 회귀계수가 0이다. H1 : 0이 아니다. 
  • F 통계량의 pvalue유의수준 0.05보다 작으면 귀무가설이 기각되어 H1의 결론을 얻는다. 
  • 만약 pvalue 가 0.05보다 커서 귀무가설이 채택되면 해당 독립변수로 종속변수를 설명할 수 없기 때문에 회귀모형은 통계적으로 유의하다고 볼 수 없으며 회귀식은 의미없게 된다. 
  • F 통계량은 '분산분석표' 를 통해 구한다 = MSR/MSE
  • SSE (RSS) = 회귀선에 의해 설명되지 않는 변동으로 잔차제곱합이라 부름 (관측값 - 예측값) 
  • SSR = 회귀선에 의해 설명되는 변동으로 회귀제곱합이라 부름 (관측값 - 평균값) 
  제곱합 자유도 제곱평균 F-통계량
회귀식 SSR 1 MSR = SSR MSR/MSE
오차 SSE (n-2) MSE = SSE/(n-2)  
SST (n-1)     

 

👉 F 통계량 값이 크다는 것은 잔차들에 의해 설명되는 변동보다 회귀선에 의해 설명되는 변동이 크기 때문에

회귀선이 독립변수와 종속변수와의 관계를 잘 설명한다는 의미가 된다. 

 

c-2. 회귀계수는 통계적으로 유의한가? - t검정 

  • t 통계량이 유의하지 않으면 회귀계수는 사실상 0으로 간주된다. 
  • H0 : i번째 회귀계수가 0이다, H1 : i번째 회귀계수가 0이 아니다. 
  • 회귀계수에 대한 pvalue 가 0.05보다 작거나 t 통계량의 절대값이 2보다 크면 회귀계수는 0이라는 귀무가설을 기각하고 유의하다고 판단할 수 있다. 

c-3. 모형은 데이터를 얼마나 설명할 수 있는가 - 결정계수 확인 

  • R^2회귀모형이 데이터를 얼마나 잘 설명하는지 나타내는 척도이다. (전체 데이터에 대한 설명력) 
  • R^2 = SSR/SST 👉 1 에 가까울수록 회귀식의 설명력이 높다고 할 수 있다. 
  • 다변량 회귀분석에는 유의성과 관계없이 독립변수의 수가 많아지면 결정계수의 값이 높아진다. 이러한 점을 고려해 adjusted R^2 를 활용해 모형의 설명력을 판단한다. 

c-4. 모형이 데이터를 잘 적합하고 있는가?  - 모형의 잔차를 그래프로 그리고 회귀 진단을 수행해 판단

  • Residuals vs Fitted : 오차의 정규성을 확인. 오차의 분포는 기울기가 0인 직선의 형태를 가지는 것이 이상적 
  • Normal Q-Q : 45도의 직선을 이루는 형태의 산점도 
  • Scale-Location : x 축은 예측된 y값, y축은 표준화된 잔차로 기울기가 0인 직선의 형태가 관측되는 것이 이상적이다. 해당 직선에서 멀리 떨어진 점이 있다면 그 지점에서 y 값을 잘 예측하지 못했다고 해석하면 된다. 또한 그 점은 이상치일 가능성이 있다. 
  • Cook's distance plot : x축은 관측값을 순서대로 나열, y 축은 해당 지점의 쿡의 거리를 나타낸다. 쿡의거리란 한 관측치가 회귀모형에 미치는 영향을 나타내는 측도이며, 1 이상일 경우 매우 큰 영향을 주는 관측값으로 간주한다. 
  • Residuals vs Leverage : x축은 레버리지, y축은 표준화 잔차값을 나타낸다. 레버리지란 관측치가 다른 관측치 집단으로부터 떨어진 정도를 나타내며 해당 설명변수가 얼마나 극단에 치우쳐져 있는지를 보여준다. 
  • Cook's dist vs Leverage : x축은 레버리지, y축은 쿡의 거리로, 둘 사이는 비례하는 관계에 있다. 

 

 

(3) 다중선형회귀

 

a. 개념

  • 두 개이상의 독립변수가 종속변수에 미치는 여향을 추정하는 통계기법 
  • 다변량 회귀분석이라고도 한다. 

b. 다중선형회귀분석 시 검토사항 

 

b-1. 데이터가 전제하는 가정을 만족하는가? 

  • 독립변수과 종속변수의 선형성, 오차의 독립성/등분산성/정규성 

b-2. 다중 공선성 

  • 독립변수들 간에 강한 상관관계가 나타나는 문제로 정확한 회귀계수의 추정이 곤란한 문제점이 존재한다. 
  • 문제가 있는 독립변수를 제거하거나 PCA 혹은 릿지 회귀모형 같은 다른 추정방법을 이용해 문제를 해결 
  • 검사 방법 : 독립변수들 간의 상관관계를 직접 파악, 허용오차(1-Ri^2 : 독립변수 xi의 분산이 다른 독립변수들에 의해 설명되는 정도를 1에서 뺀 값으로, 한 독립변수의 분산 중 다른 독립변수들에 의해 설명되지 않는 부분을 의미하므로 값이 작을수록 공산성이 높다 볼 수 있다)를 구했을 때 0.1 이하면 문제가 심각, 분산팽창요인(VIF : 허용오차의 역수로 값이 클수록 독립변수끼리 상관성이 높다) 가 10이상인 경우 

 

c. 결과 해석

 

c-1. 회귀모형의 통계적 유의성 F 검정 

  • F 통계량 = MSR/MSE 
  • H0 : 모든 회귀계수가 0이다 
  제곱합 자유도 제곱평균 F-통계량
회귀식 SSR k (독립변수의 개수) MSR = SSR/k MSR/MSE
오차 SSE n-k-1 MSE = SSE/(n-k-1)  
SST n-1 (n은 관측값의 개수)     

c-2. 회귀계수는 통계적으로 유의한가 t검정 

  • H0 : i번째 회귀계수가 0이다. 
  • 회귀계수의 유의성이 검증된 독립변수의 조합으로 모형을 생성하여 활용할 수 있다. 
  • 각 독립변수의 영향력에 대해선 표준화된 계수를 통해 파악해야 한다. 변수마다 단위가 각각 다를 수 있는데 비표준화된 계수는 독립변수의 단위를 반영하고 있기 때문이다. 표준화된 계수의 절대값을 비교해 영향력을 비교해야 한다. 

c-3. 모형은 데이터를 얼마나 잘 설명하는가 : R^2 결정계수, adjusted-R^2 

c-4. 모형은 데이터를 잘 적합하는가 : 모형의 잔차를 그래프로 그리고 회귀진단.

 

c-5. 최적 회귀방정식 선택

  • 종속변수에 영향을 미치는 유의미한 독립변수들을 선택해 최적의 회귀방정식 도출 
  • 변수제거기준  
    • F 통계량 : 유의확률이 유의수준보다 큰 변수는 통계적으로 유의하지 않으므로 제거 
    • AIC : 벌점화 기준을 가장 낮게 만드는 변수 조합을 선택 
  • 변수선택 방법들 

1) 단계적 변수 선택 : 전진선택법, 후진제거법, 단계적 방법 

2) 벌점화된 선택 기준 : AIC, BIC 가 최소가 되는 모형을 선택 (일반적으로 AIC를 주로 사용)

  • AIC : 주어진 데이터셋에 대한 통계 모델의 품질을 평가하기 위한 값으로 최소의 정보손실을 갖는 모델을 가장 적합한 것으로 판단한다 (2k/n) 
  • BIC : 변수가 많을수록 AIC 보다 더 많은 패널티를 가한다. AIC 보다 변수 증가에 민감하다. (k*log(n)/n) 

3) 수정된 결정계수 Adjusted R^2 : 변수의 개수가 증가함에따라 처음에는 감소하다 안정화되고 나중에 약간 증가하는 경향을 가진다. MSE 값이 최소인 시점의 모형을 선택하거나 더 이상 변수를 추가할 필요가 없는 시점의 모형을 선택한다. 

 

4) Mallow's Cp

  • 일반적으로 모델에 변수가 더 많이 추가될수록 잔차 제곱합이 더 작아진다. 이는 과적합 문제로 이어질 수 있다. 
  • Mallow's Cp : 모든 변수를 사용한 모형과 p개의 독립변수를 사용한 모형이 얼마나 가까운지를 나타내는 통계량이다. 비슷한 성능을 가진다면 변수의 개수가 적은 더 간단한 모형이 좋다. 따라서 통계량의 값이 작을수록 좋은 모델이라 판단한다. 
  • Cp 값이 작고 p+상수(변수의 개수 + 상수) 에 가까운 모형을 선택한다. 
Cp값 해석
Cp 값이 변수의 개수 p와 비슷 bias가 작고 우수한 모델
Cp값이 p보다 큰 경우 bias 가 크고 추가적인 변수가 필요한 모델
Cp값이 p보다 작은경우 분산 증가폭보다 bias 감소폭이 더 크며 필요없는 변수가 모델에 있다는 것을 의미

 

 

 

(4) 정규화 선형회귀 

 

  • 선형회귀계수에 제약조건을 추가해 과적합을 막는 방법 
  • 모형이 과적합되면 계수의 크기도 과도하게 증가하는 경향이 있다. 따라서 정규화 선형회귀에서는 계수의 크기를 제한하는 방법으로 제약조건을 추가한다. 

 

a. 릿지회귀

  • 가중치들의 제곱합을 최소화하는 제약조건을 추가 
  • 가중치의 모든 원소가 0에 가까워지는 것을 워하는 방향으로 규제 : L2 규제 
  • λ : 하이퍼 파라미터로 값이 커지면 가중치의 값들이 작아지며 정규화 정도가 커진다. 값이 0이되면 일반적인 선형회귀모형이 된다. 

 

b. 라쏘회귀

  • 가중치의 절대값의 합을 최소화하는 제약조건을 추가 
  • 라쏘회귀에서는 중요하지 않은 가중치는 0이 될 수 있다 : L1 규제 

 

c. 엘라스틱넷 

  • 릿지와 라쏘 회귀를 결합한 모델 
  • 가중치 절대값의 합과 제곱합을 동시에 제약조건으로 가지는 모형이므로 λ1과 λ2라는 두 개의 모수를 가진다. 

 

 

(5) 일반화 선형회귀  

 

a. glm

  • 회귀분석은 연속형의 종속변수가 정규분포를 따른다는 정규성을 가정한다. 하지만 종속변수가 범주형 자료이거나 정규성을 만족하지 못하는 경우도 있다. 이러한 경우 종속변수를 적절한 함수로 변화시켜 f(x) 를 정의한 후 이 f(x)와 독립변수를 선형 결합으로 모형화하는 glm 을 사용한다. 
  • 일반화 선형회귀는 선형회귀와 마찬가지로 독립녀수가 종속변수에 미치는 영향정도를 회귀계수로 설명하며 다변량 분석이 가능하다. 

 

b. glm 의 3가지 성분 

  • 랜덤성분 : 종속변수 y의 확률분포를 규정하는 성분 
  • 체계적 성분 : y의 기대값 E(y) 을 정의하는 설명변수들 간의 선형결합 
  • 연결함수 : 랜덤성분과 체계적 성분을 연결하는 함수 
  • model : 3가지 성분에 조합에 따라 Regression, ANOVA, Logistric regression, Log-linear, Multinomial response 등의 모델을 사용 

 

 

(6) 회귀분석의 영향력 진단

 

a. 영향력 진단

  • 적합된 회귀모형의 안전성을 평가하는 통계적인 방법 
  • 특정 관측치가 제외됨에 따라 분석 결과의 주요 부분에 변동이 많다면 안전성이 약하다고 판단한다. 
  • 회귀직선의 기울기에 영향을 크게 주는 점을 영향점이라 한다. 
  • 진단 방법 : 쿡의 거리, DFBEtAS, DFFItS, Leverage H 

 

 

2️⃣ 범주형 자료분석 ⭐⭐ - 분할표, 상대위험도, 오즈비, 적합성/독립성/동질설 검정 

(1) 범주형 자료분석

 

설명변수 반응변수 통계분석방법
범주형 범주형 분할표 분석, 카이제곱 검정
연속형 T검정, 분산분석
연속형 범주형 로지스틱회귀 

 

 

(2) 분할표 분석 

 

a. 분할표 

  • 여러개의 범주형 변수를 기준으로 빈도를 표 형태로 나타낸 것 
  • 행은 설명변수 열은 반응변수를 입력하고 이 분할표를 기준으로 여러가지 검정을 수행한다. 

b. 상대위험도 

  • (관심 집단의 위험률)/(비교 집단의 위험률) = 상대 위험률 
  • 위험률 : 특정 사건이 발생할 비율을 의미한다. 
  • 예) 위험인자에 노출된 암환자의 확률/위험인자에 노출되지 않은 암환자의 확률 

= {a/(a+b)} / {c/(c+d)}

  암 발생 여부 
O x
위험인자 노출 여부  O a b
x c d

 

c. 오즈비 

  • 성공확률/실패확률 : 성공할 확률이 실패할 확률의 몇 배인지 나타내는 비율 
  • 오즈비란 오즈의 각 범주별 비율로 정의된다. 

 


(3) 교차분석

 

a. 카이제곱검정 

  • 범주형 자료인 두 변수 간의 관계를 알아보기 위해 실시하는 분석기법 
  • 적합성 검정, 독립성 검정, 동질성 검정에 사용되며 카이제곱 검정 통계량을 이용한다. 

b. 교차표 

  • 관찰빈도(자료로 부터 얻은 빈도분포) 와 기대빈도(두 변수가 독립일 때 이론적으로 기대할 수 있는 빈도분포) 간의 차이를 검정 

 

(4) 적합성 검정 

 

a. 적합성 검정 

  • 실험에서 얻어진 관측값들이 예상한 이론과 일치하는지 아닌지를 검정하는 방법 
  • 관측값들이 어떠한 이론적 분포를 따르고 있는지 알아볼 수 있다. 
  • 즉, 모집단 분포에 대한 가정이 옳게 됬는지를 관측자료와 비교해 검정하는 것이다. 

b. 가설설정 

  • n개의 표본자료를 k 개의 범주로 분류한뒤 각 범주의 관측도수(O) 와 주어진 확률분포에 대해 각 범주에 속하는 기대도수(E) 들이 적합하는지 여부를 검정 
  • H0 : 실제분포와 이론적 분포 간에는 차이가 없다 = 두 분포가 일치한다, H1 : 두 분포가 일치하지 않는다. 

c. 검정통계량 

  • X^2 = Σ (Oi-Ei)^2/Ei 
    • 통계량이 큰 경우 : 관찰도수와 기대도수 차이가 크며 적합도가 낮다. 즉 일치한다고 볼 수 없다. H1
    • 통계량이 작은 경우 : 차이가 적으며 적합도가 높다. 즉 일치한다고 볼 수 있다. H0
  • 자유도 : df = k-1, k = 범주의 개수 

 

(5) 독립성 검정   

 

a. 독립성 검정 

  • 모집단이 두 개의 변수 A,B에 의해 범주화 되었을 때 두 변수들 사이의 관계가 독립인지 아닌지 검정 

b. 가설설정

  • 모집단을 범주화하는 기준이 되는 두 변수 A와 B가 서로 독립적으로 관측값에 영향을 미치는지의 여부를 검정 
  • H0 : 두 변수 사이에는 연관이 없다 (독립이다) , H1 : 두 변수 사이에는 연관이 있다 (종속이다) 

c. 검정통계량 

  • Eij = (Oi x Oj) / n : 기대빈도 
  • X^2 = Σ Σ (Oij-Eij)^2 / Eij 
    • Oi : 행의 합, O.j : 열의 합, Oij : 관찰빈도 
  • 검정통계량의 값이 큰 경우 : 두 변수 사이에는 연관이 있다 = 종속이다. H1

d. 자유도 

  • df = (R-1)(C-1) , 행의수 : R, 열의 수 : C 

 

 

(6) 동질성 검정 

 

a. 동질성 검정 

  • 모집단의 임의의 변수에 따라 R개의 속성으로 범주화 되었을 때, R개의 부분 모집단에서 추출한 각 표본인 C 개의 범주화된 집단의 분포가 서로 동일한지를 검정 

b. 가설설정

  • H0 : P1j = P2j = ... = Prj (모든 Pnj 는 동일하다) 
  • H1 : 다른 값이 하나 이상 존재한다. 

c. 검정통계량 

  • Eij = Oi x Oj / n = 기대빈도 
  • X^2 = Σ Σ (Oij-Eij)^2 / Eij

d. 자유도 

 

  • df = (R-1)(C-1) , 행의수 : R, 열의 수 : C 

 

➕ 독립성 검정과 동질성 검정의 차이 : https://hsm-edu.tistory.com/1215  

- 동질성 검정 : 하나의 범주형 변수를 기준으로 각 그룹이 특정 요인에 대해 서로 비슷한지 알아보는 방법 

- 독립성 검정 : 두 범주형 변수 사이의 독립성을 확인 

728x90

댓글