📌 2장. 통계 분석기법
⭐ 현업에서 알고싶어하는 '어떤 고객이 이탈하느냐', '왜 이탈하느냐' 라는 물음에 대한 답은 데이터를 이용한 통계 검정이나 회귀분석을 통해 답을 구할 수 있다. 다양한 통계분석 기법에 대해 알아보자!
1️⃣ 회귀분석 ⭐⭐ - 개념, 오차항 가정, 결과해석
(1) 회귀분석 개념
a. 개념
- 독립변수(원인) 가 결과(종속변수)에 미치는 영향을 추정해 식으로 표현할 수 있는 통계기법
- 인과관계를 밝히고 모형을 적합하여 관심있는 변수를 예측하거나 추론하기 위해 사용하는 기법
- 독립변수의 개수가 하나이면 단순선형회귀분석, 두 개 이상이면 다중선형회귀분석으로 분석이 가능하다.
- 독립변수의 경우 명목척도로 측정된 범주형 자료가 사용될 수 있으나 이 땐 독립변수를 dummy 로 변환해야 한다.
b. 변수
- 영향을 주는 변수 : 설명변수, 독립변수, 예측변수
- 영향을 받는 변수 : 반응변수, 종속변수, 결과변수
c. 선형회귀분석의 가정
- 독립변수와 종속변수 간의 선형성
- 오차의 등분산성 : 오차의 분산은 독립변수 값과 무관하게 일정하게 분포해야 한다. (산점도에서 무작위적으로 고르게 분포)
- 오차의 정규성 : 오차의 분포가 정규분포를 만족. Q-Q plot, Kolmogorov-Smirnow 검정, Shapiro-Wilk 검정 등을 활용해 정규성을 확인한다.
- 오차의 독립성 : 오차들은 서로 독립적이라는 가정. 예측값의 변화에 따라 오차항이 특정한 패턴을 가지면 안된다. Durbin Watson 검정을 수행하여 통계량이 2에 가까울수록 오차항이 독립적임을 파악할 수 있다. 0 (양의 상관관계) 이나 4(음의 상관관계)에 가까우면 독립성을 만족하지 못한다.
d. 오차와 잔차의 차이
- 오차 : 모집단의 실제값과 회귀분석을 통해 적합된 값의 차이
- 잔차 : 표본에서 나온 관측값과 회귀분석을 통해 적합된 값의 차이. 모델이 정교할수록 값이 작을 것이다.
e. 회귀분석 종류에 따른 가정에 대한 검증
- 단순선형회귀분석 : 입력변수와 출력변수간에 선형성을 점검하기 위해 산점도를 확인한다.
- 다중선형회귀분석 : 데이터가 선형회귀분석의 가정인 선형성, 등분산성, 정규성, 독립성을 모두 만족하는지 확인해야 한다.
(2) 단순선형회귀
a. 개념
- 하나의 독립변수가 종속변수에 미치는 영향을 추정
- 회귀계수를 찾아 함수식을 생성하고, 이 계수가 유의한지 통계적으로 파악하여 종속변수 값을 예측한다.
b. 회귀계수 추정법 : 최소제곱법, 최소자승법
- 잔차 제곱합(RSS)을 최소로 만드는 직선을 찾기
c. 결과해석
c-1. 회귀모형은 통계적으로 유의한가? - F검정
- H0 : 회귀계수가 0이다. H1 : 0이 아니다.
- F 통계량의 pvalue 가 유의수준 0.05보다 작으면 귀무가설이 기각되어 H1의 결론을 얻는다.
- 만약 pvalue 가 0.05보다 커서 귀무가설이 채택되면 해당 독립변수로 종속변수를 설명할 수 없기 때문에 회귀모형은 통계적으로 유의하다고 볼 수 없으며 회귀식은 의미없게 된다.
- F 통계량은 '분산분석표' 를 통해 구한다 = MSR/MSE
- SSE (RSS) = 회귀선에 의해 설명되지 않는 변동으로 잔차제곱합이라 부름 (관측값 - 예측값)
- SSR = 회귀선에 의해 설명되는 변동으로 회귀제곱합이라 부름 (관측값 - 평균값)
제곱합 | 자유도 | 제곱평균 | F-통계량 | |
회귀식 | SSR | 1 | MSR = SSR | MSR/MSE |
오차 | SSE | (n-2) | MSE = SSE/(n-2) | |
계 | SST | (n-1) |
👉 F 통계량 값이 크다는 것은 잔차들에 의해 설명되는 변동보다 회귀선에 의해 설명되는 변동이 크기 때문에
회귀선이 독립변수와 종속변수와의 관계를 잘 설명한다는 의미가 된다.
c-2. 회귀계수는 통계적으로 유의한가? - t검정
- t 통계량이 유의하지 않으면 회귀계수는 사실상 0으로 간주된다.
- H0 : i번째 회귀계수가 0이다, H1 : i번째 회귀계수가 0이 아니다.
- 회귀계수에 대한 pvalue 가 0.05보다 작거나 t 통계량의 절대값이 2보다 크면 회귀계수는 0이라는 귀무가설을 기각하고 유의하다고 판단할 수 있다.
c-3. 모형은 데이터를 얼마나 설명할 수 있는가 - 결정계수 확인
- R^2 은 회귀모형이 데이터를 얼마나 잘 설명하는지 나타내는 척도이다. (전체 데이터에 대한 설명력)
- R^2 = SSR/SST 👉 1 에 가까울수록 회귀식의 설명력이 높다고 할 수 있다.
- 다변량 회귀분석에는 유의성과 관계없이 독립변수의 수가 많아지면 결정계수의 값이 높아진다. 이러한 점을 고려해 adjusted R^2 를 활용해 모형의 설명력을 판단한다.
c-4. 모형이 데이터를 잘 적합하고 있는가? - 모형의 잔차를 그래프로 그리고 회귀 진단을 수행해 판단
- Residuals vs Fitted : 오차의 정규성을 확인. 오차의 분포는 기울기가 0인 직선의 형태를 가지는 것이 이상적
- Normal Q-Q : 45도의 직선을 이루는 형태의 산점도
- Scale-Location : x 축은 예측된 y값, y축은 표준화된 잔차로 기울기가 0인 직선의 형태가 관측되는 것이 이상적이다. 해당 직선에서 멀리 떨어진 점이 있다면 그 지점에서 y 값을 잘 예측하지 못했다고 해석하면 된다. 또한 그 점은 이상치일 가능성이 있다.
- Cook's distance plot : x축은 관측값을 순서대로 나열, y 축은 해당 지점의 쿡의 거리를 나타낸다. 쿡의거리란 한 관측치가 회귀모형에 미치는 영향을 나타내는 측도이며, 1 이상일 경우 매우 큰 영향을 주는 관측값으로 간주한다.
- Residuals vs Leverage : x축은 레버리지, y축은 표준화 잔차값을 나타낸다. 레버리지란 관측치가 다른 관측치 집단으로부터 떨어진 정도를 나타내며 해당 설명변수가 얼마나 극단에 치우쳐져 있는지를 보여준다.
- Cook's dist vs Leverage : x축은 레버리지, y축은 쿡의 거리로, 둘 사이는 비례하는 관계에 있다.
(3) 다중선형회귀
a. 개념
- 두 개이상의 독립변수가 종속변수에 미치는 여향을 추정하는 통계기법
- 다변량 회귀분석이라고도 한다.
b. 다중선형회귀분석 시 검토사항
b-1. 데이터가 전제하는 가정을 만족하는가?
- 독립변수과 종속변수의 선형성, 오차의 독립성/등분산성/정규성
b-2. 다중 공선성
- 독립변수들 간에 강한 상관관계가 나타나는 문제로 정확한 회귀계수의 추정이 곤란한 문제점이 존재한다.
- 문제가 있는 독립변수를 제거하거나 PCA 혹은 릿지 회귀모형 같은 다른 추정방법을 이용해 문제를 해결
- 검사 방법 : 독립변수들 간의 상관관계를 직접 파악, 허용오차(1-Ri^2 : 독립변수 xi의 분산이 다른 독립변수들에 의해 설명되는 정도를 1에서 뺀 값으로, 한 독립변수의 분산 중 다른 독립변수들에 의해 설명되지 않는 부분을 의미하므로 값이 작을수록 공산성이 높다 볼 수 있다)를 구했을 때 0.1 이하면 문제가 심각, 분산팽창요인(VIF : 허용오차의 역수로 값이 클수록 독립변수끼리 상관성이 높다) 가 10이상인 경우
c. 결과 해석
c-1. 회귀모형의 통계적 유의성 F 검정
- F 통계량 = MSR/MSE
- H0 : 모든 회귀계수가 0이다
제곱합 | 자유도 | 제곱평균 | F-통계량 | |
회귀식 | SSR | k (독립변수의 개수) | MSR = SSR/k | MSR/MSE |
오차 | SSE | n-k-1 | MSE = SSE/(n-k-1) | |
계 | SST | n-1 (n은 관측값의 개수) |
c-2. 회귀계수는 통계적으로 유의한가 t검정
- H0 : i번째 회귀계수가 0이다.
- 회귀계수의 유의성이 검증된 독립변수의 조합으로 모형을 생성하여 활용할 수 있다.
- 각 독립변수의 영향력에 대해선 표준화된 계수를 통해 파악해야 한다. 변수마다 단위가 각각 다를 수 있는데 비표준화된 계수는 독립변수의 단위를 반영하고 있기 때문이다. 표준화된 계수의 절대값을 비교해 영향력을 비교해야 한다.
c-3. 모형은 데이터를 얼마나 잘 설명하는가 : R^2 결정계수, adjusted-R^2
c-4. 모형은 데이터를 잘 적합하는가 : 모형의 잔차를 그래프로 그리고 회귀진단.
c-5. 최적 회귀방정식 선택
- 종속변수에 영향을 미치는 유의미한 독립변수들을 선택해 최적의 회귀방정식 도출
- 변수제거기준
- F 통계량 : 유의확률이 유의수준보다 큰 변수는 통계적으로 유의하지 않으므로 제거
- AIC : 벌점화 기준을 가장 낮게 만드는 변수 조합을 선택
- 변수선택 방법들
1) 단계적 변수 선택 : 전진선택법, 후진제거법, 단계적 방법
2) 벌점화된 선택 기준 : AIC, BIC 가 최소가 되는 모형을 선택 (일반적으로 AIC를 주로 사용)
- AIC : 주어진 데이터셋에 대한 통계 모델의 품질을 평가하기 위한 값으로 최소의 정보손실을 갖는 모델을 가장 적합한 것으로 판단한다 (2k/n)
- BIC : 변수가 많을수록 AIC 보다 더 많은 패널티를 가한다. AIC 보다 변수 증가에 민감하다. (k*log(n)/n)
3) 수정된 결정계수 Adjusted R^2 : 변수의 개수가 증가함에따라 처음에는 감소하다 안정화되고 나중에 약간 증가하는 경향을 가진다. MSE 값이 최소인 시점의 모형을 선택하거나 더 이상 변수를 추가할 필요가 없는 시점의 모형을 선택한다.
4) Mallow's Cp
- 일반적으로 모델에 변수가 더 많이 추가될수록 잔차 제곱합이 더 작아진다. 이는 과적합 문제로 이어질 수 있다.
- Mallow's Cp : 모든 변수를 사용한 모형과 p개의 독립변수를 사용한 모형이 얼마나 가까운지를 나타내는 통계량이다. 비슷한 성능을 가진다면 변수의 개수가 적은 더 간단한 모형이 좋다. 따라서 통계량의 값이 작을수록 좋은 모델이라 판단한다.
- Cp 값이 작고 p+상수(변수의 개수 + 상수) 에 가까운 모형을 선택한다.
Cp값 | 해석 |
Cp 값이 변수의 개수 p와 비슷 | bias가 작고 우수한 모델 |
Cp값이 p보다 큰 경우 | bias 가 크고 추가적인 변수가 필요한 모델 |
Cp값이 p보다 작은경우 | 분산 증가폭보다 bias 감소폭이 더 크며 필요없는 변수가 모델에 있다는 것을 의미 |
(4) 정규화 선형회귀
- 선형회귀계수에 제약조건을 추가해 과적합을 막는 방법
- 모형이 과적합되면 계수의 크기도 과도하게 증가하는 경향이 있다. 따라서 정규화 선형회귀에서는 계수의 크기를 제한하는 방법으로 제약조건을 추가한다.
a. 릿지회귀
- 가중치들의 제곱합을 최소화하는 제약조건을 추가
- 가중치의 모든 원소가 0에 가까워지는 것을 워하는 방향으로 규제 : L2 규제
- λ : 하이퍼 파라미터로 값이 커지면 가중치의 값들이 작아지며 정규화 정도가 커진다. 값이 0이되면 일반적인 선형회귀모형이 된다.
b. 라쏘회귀
- 가중치의 절대값의 합을 최소화하는 제약조건을 추가
- 라쏘회귀에서는 중요하지 않은 가중치는 0이 될 수 있다 : L1 규제
c. 엘라스틱넷
- 릿지와 라쏘 회귀를 결합한 모델
- 가중치 절대값의 합과 제곱합을 동시에 제약조건으로 가지는 모형이므로 λ1과 λ2라는 두 개의 모수를 가진다.
(5) 일반화 선형회귀
a. glm
- 회귀분석은 연속형의 종속변수가 정규분포를 따른다는 정규성을 가정한다. 하지만 종속변수가 범주형 자료이거나 정규성을 만족하지 못하는 경우도 있다. 이러한 경우 종속변수를 적절한 함수로 변화시켜 f(x) 를 정의한 후 이 f(x)와 독립변수를 선형 결합으로 모형화하는 glm 을 사용한다.
- 일반화 선형회귀는 선형회귀와 마찬가지로 독립녀수가 종속변수에 미치는 영향정도를 회귀계수로 설명하며 다변량 분석이 가능하다.
b. glm 의 3가지 성분
- 랜덤성분 : 종속변수 y의 확률분포를 규정하는 성분
- 체계적 성분 : y의 기대값 E(y) 을 정의하는 설명변수들 간의 선형결합
- 연결함수 : 랜덤성분과 체계적 성분을 연결하는 함수
- model : 3가지 성분에 조합에 따라 Regression, ANOVA, Logistric regression, Log-linear, Multinomial response 등의 모델을 사용
(6) 회귀분석의 영향력 진단
a. 영향력 진단
- 적합된 회귀모형의 안전성을 평가하는 통계적인 방법
- 특정 관측치가 제외됨에 따라 분석 결과의 주요 부분에 변동이 많다면 안전성이 약하다고 판단한다.
- 회귀직선의 기울기에 영향을 크게 주는 점을 영향점이라 한다.
- 진단 방법 : 쿡의 거리, DFBEtAS, DFFItS, Leverage H
2️⃣ 범주형 자료분석 ⭐⭐ - 분할표, 상대위험도, 오즈비, 적합성/독립성/동질설 검정
(1) 범주형 자료분석
설명변수 | 반응변수 | 통계분석방법 |
범주형 | 범주형 | 분할표 분석, 카이제곱 검정 |
연속형 | T검정, 분산분석 | |
연속형 | 범주형 | 로지스틱회귀 |
(2) 분할표 분석
a. 분할표
- 여러개의 범주형 변수를 기준으로 빈도를 표 형태로 나타낸 것
- 행은 설명변수 열은 반응변수를 입력하고 이 분할표를 기준으로 여러가지 검정을 수행한다.
b. 상대위험도
- (관심 집단의 위험률)/(비교 집단의 위험률) = 상대 위험률
- 위험률 : 특정 사건이 발생할 비율을 의미한다.
- 예) 위험인자에 노출된 암환자의 확률/위험인자에 노출되지 않은 암환자의 확률
= {a/(a+b)} / {c/(c+d)}
암 발생 여부 | |||
O | x | ||
위험인자 노출 여부 | O | a | b |
x | c | d |
c. 오즈비
- 성공확률/실패확률 : 성공할 확률이 실패할 확률의 몇 배인지 나타내는 비율
- 오즈비란 오즈의 각 범주별 비율로 정의된다.
(3) 교차분석
a. 카이제곱검정
- 범주형 자료인 두 변수 간의 관계를 알아보기 위해 실시하는 분석기법
- 적합성 검정, 독립성 검정, 동질성 검정에 사용되며 카이제곱 검정 통계량을 이용한다.
b. 교차표
- 관찰빈도(자료로 부터 얻은 빈도분포) 와 기대빈도(두 변수가 독립일 때 이론적으로 기대할 수 있는 빈도분포) 간의 차이를 검정
(4) 적합성 검정
a. 적합성 검정
- 실험에서 얻어진 관측값들이 예상한 이론과 일치하는지 아닌지를 검정하는 방법
- 관측값들이 어떠한 이론적 분포를 따르고 있는지 알아볼 수 있다.
- 즉, 모집단 분포에 대한 가정이 옳게 됬는지를 관측자료와 비교해 검정하는 것이다.
b. 가설설정
- n개의 표본자료를 k 개의 범주로 분류한뒤 각 범주의 관측도수(O) 와 주어진 확률분포에 대해 각 범주에 속하는 기대도수(E) 들이 적합하는지 여부를 검정
- H0 : 실제분포와 이론적 분포 간에는 차이가 없다 = 두 분포가 일치한다, H1 : 두 분포가 일치하지 않는다.
c. 검정통계량
- X^2 = Σ (Oi-Ei)^2/Ei
- 통계량이 큰 경우 : 관찰도수와 기대도수 차이가 크며 적합도가 낮다. 즉 일치한다고 볼 수 없다. H1
- 통계량이 작은 경우 : 차이가 적으며 적합도가 높다. 즉 일치한다고 볼 수 있다. H0
- 자유도 : df = k-1, k = 범주의 개수
(5) 독립성 검정
a. 독립성 검정
- 모집단이 두 개의 변수 A,B에 의해 범주화 되었을 때 두 변수들 사이의 관계가 독립인지 아닌지 검정
b. 가설설정
- 모집단을 범주화하는 기준이 되는 두 변수 A와 B가 서로 독립적으로 관측값에 영향을 미치는지의 여부를 검정
- H0 : 두 변수 사이에는 연관이 없다 (독립이다) , H1 : 두 변수 사이에는 연관이 있다 (종속이다)
c. 검정통계량
- Eij = (Oi x Oj) / n : 기대빈도
- X^2 = Σ Σ (Oij-Eij)^2 / Eij
- Oi : 행의 합, O.j : 열의 합, Oij : 관찰빈도
- 검정통계량의 값이 큰 경우 : 두 변수 사이에는 연관이 있다 = 종속이다. H1
d. 자유도
- df = (R-1)(C-1) , 행의수 : R, 열의 수 : C
(6) 동질성 검정
a. 동질성 검정
- 모집단의 임의의 변수에 따라 R개의 속성으로 범주화 되었을 때, R개의 부분 모집단에서 추출한 각 표본인 C 개의 범주화된 집단의 분포가 서로 동일한지를 검정
b. 가설설정
- H0 : P1j = P2j = ... = Prj (모든 Pnj 는 동일하다)
- H1 : 다른 값이 하나 이상 존재한다.
c. 검정통계량
- Eij = Oi x Oj / n = 기대빈도
- X^2 = Σ Σ (Oij-Eij)^2 / Eij
d. 자유도
- df = (R-1)(C-1) , 행의수 : R, 열의 수 : C
➕ 독립성 검정과 동질성 검정의 차이 : https://hsm-edu.tistory.com/1215
- 동질성 검정 : 하나의 범주형 변수를 기준으로 각 그룹이 특정 요인에 대해 서로 비슷한지 알아보는 방법
- 독립성 검정 : 두 범주형 변수 사이의 독립성을 확인
'2️⃣ Study > ▢ 자격증 | 교육' 카테고리의 다른 글
[빅분기] 3과목 빅데이터 모델링 : 2장 통계분석 기법_part2 (0) | 2022.04.03 |
---|---|
[빅분기] 3과목 빅데이터 모델링 : 2장 통계분석 기법_part2 (0) | 2022.03.31 |
[빅분기] 3과목 빅데이터 모델링 : 1장 분석모형설계 (0) | 2022.03.28 |
[빅분기] 2과목 빅데이터 탐색 : 3장 통계기법의 이해 (0) | 2022.03.27 |
[빅분기] 2과목 빅데이터 탐색 : 2장 데이터 탐색 (0) | 2022.03.26 |
댓글