[빅분기] 3과목 빅데이터 모델링 : 2장 통계 분석기법 Part1

728x90

📌 2장. 통계 분석기법

⭐ 현업에서 알고싶어하는 '어떤 고객이 이탈하느냐', '왜 이탈하느냐' 라는 물음에 대한 답은 데이터를 이용한 통계 검정이나 회귀분석을 통해 답을 구할 수 있다. 다양한 통계분석 기법에 대해 알아보자!

1️⃣ 회귀분석 ⭐⭐ - 개념, 오차항 가정, 결과해석

(1) 회귀분석 개념

a. 개념

독립변수(원인) 가 결과(종속변수)에 미치는 영향을 추정해 식으로 표현할 수 있는 통계기법
인과관계를 밝히고 모형을 적합하여 관심있는 변수를 예측하거나 추론하기 위해 사용하는 기법
독립변수의 개수가 하나이면 단순선형회귀분석, 두 개 이상이면 다중선형회귀분석으로 분석이 가능하다.
독립변수의 경우 명목척도로 측정된 범주형 자료가 사용될 수 있으나 이 땐 독립변수를 dummy 로 변환해야 한다.

b. 변수

영향을 주는 변수 : 설명변수, 독립변수, 예측변수
영향을 받는 변수 : 반응변수, 종속변수, 결과변수

c. 선형회귀분석의 가정

독립변수와 종속변수 간의 선형성
오차의 등분산성 : 오차의 분산은 독립변수 값과 무관하게 일정하게 분포해야 한다. (산점도에서 무작위적으로 고르게 분포)
오차의 정규성 : 오차의 분포가 정규분포를 만족. Q-Q plot, Kolmogorov-Smirnow 검정, Shapiro-Wilk 검정 등을 활용해 정규성을 확인한다.
오차의 독립성 : 오차들은 서로 독립적이라는 가정. 예측값의 변화에 따라 오차항이 특정한 패턴을 가지면 안된다. Durbin Watson 검정을 수행하여 통계량이 2에 가까울수록 오차항이 독립적임을 파악할 수 있다. 0 (양의 상관관계) 이나 4(음의 상관관계)에 가까우면 독립성을 만족하지 못한다.

d. 오차와 잔차의 차이

오차 : 모집단의 실제값과 회귀분석을 통해 적합된 값의 차이
잔차 : 표본에서 나온 관측값과 회귀분석을 통해 적합된 값의 차이. 모델이 정교할수록 값이 작을 것이다.

e. 회귀분석 종류에 따른 가정에 대한 검증

단순선형회귀분석 : 입력변수와 출력변수간에 선형성을 점검하기 위해 산점도를 확인한다.
다중선형회귀분석 : 데이터가 선형회귀분석의 가정인 선형성, 등분산성, 정규성, 독립성을 모두 만족하는지 확인해야 한다.

(2) 단순선형회귀

a. 개념

하나의 독립변수가 종속변수에 미치는 영향을 추정
회귀계수를 찾아 함수식을 생성하고, 이 계수가 유의한지 통계적으로 파악하여 종속변수 값을 예측한다.

b. 회귀계수 추정법 : 최소제곱법, 최소자승법

잔차 제곱합(RSS)을 최소로 만드는 직선을 찾기

c. 결과해석

c-1. 회귀모형은 통계적으로 유의한가? - F검정

H0 : 회귀계수가 0이다. H1 : 0이 아니다.
F 통계량의 pvalue 가 유의수준 0.05보다 작으면 귀무가설이 기각되어 H1의 결론을 얻는다.
만약 pvalue 가 0.05보다 커서 귀무가설이 채택되면 해당 독립변수로 종속변수를 설명할 수 없기 때문에 회귀모형은 통계적으로 유의하다고 볼 수 없으며 회귀식은 의미없게 된다.
F 통계량은 '분산분석표' 를 통해 구한다 = MSR/MSE
SSE (RSS) = 회귀선에 의해 설명되지 않는 변동으로 잔차제곱합이라 부름 (관측값 - 예측값)
SSR = 회귀선에 의해 설명되는 변동으로 회귀제곱합이라 부름 (관측값 - 평균값)

	제곱합	자유도	제곱평균	F-통계량
회귀식	SSR	1	MSR = SSR	MSR/MSE
오차	SSE	(n-2)	MSE = SSE/(n-2)
계	SST	(n-1)

👉 F 통계량 값이 크다는 것은 잔차들에 의해 설명되는 변동보다 회귀선에 의해 설명되는 변동이 크기 때문에

회귀선이 독립변수와 종속변수와의 관계를 잘 설명한다는 의미가 된다.

c-2. 회귀계수는 통계적으로 유의한가? - t검정

t 통계량이 유의하지 않으면 회귀계수는 사실상 0으로 간주된다.
H0 : i번째 회귀계수가 0이다, H1 : i번째 회귀계수가 0이 아니다.
회귀계수에 대한 pvalue 가 0.05보다 작거나 t 통계량의 절대값이 2보다 크면 회귀계수는 0이라는 귀무가설을 기각하고 유의하다고 판단할 수 있다.

c-3. 모형은 데이터를 얼마나 설명할 수 있는가 - 결정계수 확인

R^2 은 회귀모형이 데이터를 얼마나 잘 설명하는지 나타내는 척도이다. (전체 데이터에 대한 설명력)
R^2 = SSR/SST 👉 1 에 가까울수록 회귀식의 설명력이 높다고 할 수 있다.
다변량 회귀분석에는 유의성과 관계없이 독립변수의 수가 많아지면 결정계수의 값이 높아진다. 이러한 점을 고려해 adjusted R^2 를 활용해 모형의 설명력을 판단한다.

c-4. 모형이 데이터를 잘 적합하고 있는가? - 모형의 잔차를 그래프로 그리고 회귀 진단을 수행해 판단

Residuals vs Fitted : 오차의 정규성을 확인. 오차의 분포는 기울기가 0인 직선의 형태를 가지는 것이 이상적
Normal Q-Q : 45도의 직선을 이루는 형태의 산점도
Scale-Location : x 축은 예측된 y값, y축은 표준화된 잔차로 기울기가 0인 직선의 형태가 관측되는 것이 이상적이다. 해당 직선에서 멀리 떨어진 점이 있다면 그 지점에서 y 값을 잘 예측하지 못했다고 해석하면 된다. 또한 그 점은 이상치일 가능성이 있다.
Cook's distance plot : x축은 관측값을 순서대로 나열, y 축은 해당 지점의 쿡의 거리를 나타낸다. 쿡의거리란 한 관측치가 회귀모형에 미치는 영향을 나타내는 측도이며, 1 이상일 경우 매우 큰 영향을 주는 관측값으로 간주한다.
Residuals vs Leverage : x축은 레버리지, y축은 표준화 잔차값을 나타낸다. 레버리지란 관측치가 다른 관측치 집단으로부터 떨어진 정도를 나타내며 해당 설명변수가 얼마나 극단에 치우쳐져 있는지를 보여준다.
Cook's dist vs Leverage : x축은 레버리지, y축은 쿡의 거리로, 둘 사이는 비례하는 관계에 있다.

(3) 다중선형회귀

a. 개념

두 개이상의 독립변수가 종속변수에 미치는 여향을 추정하는 통계기법
다변량 회귀분석이라고도 한다.

b. 다중선형회귀분석 시 검토사항

b-1. 데이터가 전제하는 가정을 만족하는가?

독립변수과 종속변수의 선형성, 오차의 독립성/등분산성/정규성

b-2. 다중 공선성

독립변수들 간에 강한 상관관계가 나타나는 문제로 정확한 회귀계수의 추정이 곤란한 문제점이 존재한다.
문제가 있는 독립변수를 제거하거나 PCA 혹은 릿지 회귀모형 같은 다른 추정방법을 이용해 문제를 해결
검사 방법 : 독립변수들 간의 상관관계를 직접 파악, 허용오차(1-Ri^2 : 독립변수 xi의 분산이 다른 독립변수들에 의해 설명되는 정도를 1에서 뺀 값으로, 한 독립변수의 분산 중 다른 독립변수들에 의해 설명되지 않는 부분을 의미하므로 값이 작을수록 공산성이 높다 볼 수 있다)를 구했을 때 0.1 이하면 문제가 심각, 분산팽창요인(VIF : 허용오차의 역수로 값이 클수록 독립변수끼리 상관성이 높다) 가 10이상인 경우

c. 결과 해석

c-1. 회귀모형의 통계적 유의성 F 검정

F 통계량 = MSR/MSE
H0 : 모든 회귀계수가 0이다

	제곱합	자유도	제곱평균	F-통계량
회귀식	SSR	k (독립변수의 개수)	MSR = SSR/k	MSR/MSE
오차	SSE	n-k-1	MSE = SSE/(n-k-1)
계	SST	n-1 (n은 관측값의 개수)

c-2. 회귀계수는 통계적으로 유의한가 t검정

H0 : i번째 회귀계수가 0이다.
회귀계수의 유의성이 검증된 독립변수의 조합으로 모형을 생성하여 활용할 수 있다.
각 독립변수의 영향력에 대해선 표준화된 계수를 통해 파악해야 한다. 변수마다 단위가 각각 다를 수 있는데 비표준화된 계수는 독립변수의 단위를 반영하고 있기 때문이다. 표준화된 계수의 절대값을 비교해 영향력을 비교해야 한다.

c-3. 모형은 데이터를 얼마나 잘 설명하는가 : R^2 결정계수, adjusted-R^2

c-4. 모형은 데이터를 잘 적합하는가 : 모형의 잔차를 그래프로 그리고 회귀진단.

c-5. 최적 회귀방정식 선택

종속변수에 영향을 미치는 유의미한 독립변수들을 선택해 최적의 회귀방정식 도출
변수제거기준
- F 통계량 : 유의확률이 유의수준보다 큰 변수는 통계적으로 유의하지 않으므로 제거
- AIC : 벌점화 기준을 가장 낮게 만드는 변수 조합을 선택
변수선택 방법들

1) 단계적 변수 선택 : 전진선택법, 후진제거법, 단계적 방법

2) 벌점화된 선택 기준 : AIC, BIC 가 최소가 되는 모형을 선택 (일반적으로 AIC를 주로 사용)

AIC : 주어진 데이터셋에 대한 통계 모델의 품질을 평가하기 위한 값으로 최소의 정보손실을 갖는 모델을 가장 적합한 것으로 판단한다 (2k/n)
BIC : 변수가 많을수록 AIC 보다 더 많은 패널티를 가한다. AIC 보다 변수 증가에 민감하다. (k*log(n)/n)

3) 수정된 결정계수 Adjusted R^2 : 변수의 개수가 증가함에따라 처음에는 감소하다 안정화되고 나중에 약간 증가하는 경향을 가진다. MSE 값이 최소인 시점의 모형을 선택하거나 더 이상 변수를 추가할 필요가 없는 시점의 모형을 선택한다.

4) Mallow's Cp

일반적으로 모델에 변수가 더 많이 추가될수록 잔차 제곱합이 더 작아진다. 이는 과적합 문제로 이어질 수 있다.
Mallow's Cp : 모든 변수를 사용한 모형과 p개의 독립변수를 사용한 모형이 얼마나 가까운지를 나타내는 통계량이다. 비슷한 성능을 가진다면 변수의 개수가 적은 더 간단한 모형이 좋다. 따라서 통계량의 값이 작을수록 좋은 모델이라 판단한다.
Cp 값이 작고 p+상수(변수의 개수 + 상수) 에 가까운 모형을 선택한다.

Cp값	해석
Cp 값이 변수의 개수 p와 비슷	bias가 작고 우수한 모델
Cp값이 p보다 큰 경우	bias 가 크고 추가적인 변수가 필요한 모델
Cp값이 p보다 작은경우	분산 증가폭보다 bias 감소폭이 더 크며 필요없는 변수가 모델에 있다는 것을 의미

(4) 정규화 선형회귀

선형회귀계수에 제약조건을 추가해 과적합을 막는 방법
모형이 과적합되면 계수의 크기도 과도하게 증가하는 경향이 있다. 따라서 정규화 선형회귀에서는 계수의 크기를 제한하는 방법으로 제약조건을 추가한다.

a. 릿지회귀

가중치들의 제곱합을 최소화하는 제약조건을 추가
가중치의 모든 원소가 0에 가까워지는 것을 워하는 방향으로 규제 : L2 규제
λ : 하이퍼 파라미터로 값이 커지면 가중치의 값들이 작아지며 정규화 정도가 커진다. 값이 0이되면 일반적인 선형회귀모형이 된다.

b. 라쏘회귀

가중치의 절대값의 합을 최소화하는 제약조건을 추가
라쏘회귀에서는 중요하지 않은 가중치는 0이 될 수 있다 : L1 규제

c. 엘라스틱넷

릿지와 라쏘 회귀를 결합한 모델
가중치 절대값의 합과 제곱합을 동시에 제약조건으로 가지는 모형이므로 λ1과 λ2라는 두 개의 모수를 가진다.

(5) 일반화 선형회귀

a. glm

회귀분석은 연속형의 종속변수가 정규분포를 따른다는 정규성을 가정한다. 하지만 종속변수가 범주형 자료이거나 정규성을 만족하지 못하는 경우도 있다. 이러한 경우 종속변수를 적절한 함수로 변화시켜 f(x) 를 정의한 후 이 f(x)와 독립변수를 선형 결합으로 모형화하는 glm 을 사용한다.
일반화 선형회귀는 선형회귀와 마찬가지로 독립녀수가 종속변수에 미치는 영향정도를 회귀계수로 설명하며 다변량 분석이 가능하다.

b. glm 의 3가지 성분

랜덤성분 : 종속변수 y의 확률분포를 규정하는 성분
체계적 성분 : y의 기대값 E(y) 을 정의하는 설명변수들 간의 선형결합
연결함수 : 랜덤성분과 체계적 성분을 연결하는 함수
model : 3가지 성분에 조합에 따라 Regression, ANOVA, Logistric regression, Log-linear, Multinomial response 등의 모델을 사용

(6) 회귀분석의 영향력 진단

a. 영향력 진단

적합된 회귀모형의 안전성을 평가하는 통계적인 방법
특정 관측치가 제외됨에 따라 분석 결과의 주요 부분에 변동이 많다면 안전성이 약하다고 판단한다.
회귀직선의 기울기에 영향을 크게 주는 점을 영향점이라 한다.
진단 방법 : 쿡의 거리, DFBEtAS, DFFItS, Leverage H

2️⃣ 범주형 자료분석 ⭐⭐ - 분할표, 상대위험도, 오즈비, 적합성/독립성/동질설 검정

(1) 범주형 자료분석

설명변수	반응변수	통계분석방법
범주형	범주형	분할표 분석, 카이제곱 검정
범주형	연속형	T검정, 분산분석
연속형	범주형	로지스틱회귀

(2) 분할표 분석

a. 분할표

여러개의 범주형 변수를 기준으로 빈도를 표 형태로 나타낸 것
행은 설명변수 열은 반응변수를 입력하고 이 분할표를 기준으로 여러가지 검정을 수행한다.

b. 상대위험도

(관심 집단의 위험률)/(비교 집단의 위험률) = 상대 위험률
위험률 : 특정 사건이 발생할 비율을 의미한다.
예) 위험인자에 노출된 암환자의 확률/위험인자에 노출되지 않은 암환자의 확률

= {a/(a+b)} / {c/(c+d)}

		암 발생 여부
		O	x
위험인자 노출 여부	O	a	b
위험인자 노출 여부	x	c	d

c. 오즈비

성공확률/실패확률 : 성공할 확률이 실패할 확률의 몇 배인지 나타내는 비율
오즈비란 오즈의 각 범주별 비율로 정의된다.

(3) 교차분석

a. 카이제곱검정

범주형 자료인 두 변수 간의 관계를 알아보기 위해 실시하는 분석기법
적합성 검정, 독립성 검정, 동질성 검정에 사용되며 카이제곱 검정 통계량을 이용한다.

b. 교차표

관찰빈도(자료로 부터 얻은 빈도분포) 와 기대빈도(두 변수가 독립일 때 이론적으로 기대할 수 있는 빈도분포) 간의 차이를 검정

(4) 적합성 검정

a. 적합성 검정

실험에서 얻어진 관측값들이 예상한 이론과 일치하는지 아닌지를 검정하는 방법
관측값들이 어떠한 이론적 분포를 따르고 있는지 알아볼 수 있다.
즉, 모집단 분포에 대한 가정이 옳게 됬는지를 관측자료와 비교해 검정하는 것이다.

b. 가설설정

n개의 표본자료를 k 개의 범주로 분류한뒤 각 범주의 관측도수(O) 와 주어진 확률분포에 대해 각 범주에 속하는 기대도수(E) 들이 적합하는지 여부를 검정
H0 : 실제분포와 이론적 분포 간에는 차이가 없다 = 두 분포가 일치한다, H1 : 두 분포가 일치하지 않는다.

c. 검정통계량

X^2 = Σ (Oi-Ei)^2/Ei
- 통계량이 큰 경우 : 관찰도수와 기대도수 차이가 크며 적합도가 낮다. 즉 일치한다고 볼 수 없다. H1
- 통계량이 작은 경우 : 차이가 적으며 적합도가 높다. 즉 일치한다고 볼 수 있다. H0
자유도 : df = k-1, k = 범주의 개수

(5) 독립성 검정

a. 독립성 검정

모집단이 두 개의 변수 A,B에 의해 범주화 되었을 때 두 변수들 사이의 관계가 독립인지 아닌지 검정

b. 가설설정

모집단을 범주화하는 기준이 되는 두 변수 A와 B가 서로 독립적으로 관측값에 영향을 미치는지의 여부를 검정
H0 : 두 변수 사이에는 연관이 없다 (독립이다) , H1 : 두 변수 사이에는 연관이 있다 (종속이다)

c. 검정통계량

Eij = (Oi x Oj) / n : 기대빈도
X^2 = Σ Σ (Oij-Eij)^2 / Eij
- Oi : 행의 합, O.j : 열의 합, Oij : 관찰빈도
검정통계량의 값이 큰 경우 : 두 변수 사이에는 연관이 있다 = 종속이다. H1

d. 자유도

df = (R-1)(C-1) , 행의수 : R, 열의 수 : C

(6) 동질성 검정

a. 동질성 검정

모집단의 임의의 변수에 따라 R개의 속성으로 범주화 되었을 때, R개의 부분 모집단에서 추출한 각 표본인 C 개의 범주화된 집단의 분포가 서로 동일한지를 검정

b. 가설설정

H0 : P1j = P2j = ... = Prj (모든 Pnj 는 동일하다)
H1 : 다른 값이 하나 이상 존재한다.

c. 검정통계량

Eij = Oi x Oj / n = 기대빈도
X^2 = Σ Σ (Oij-Eij)^2 / Eij

d. 자유도

df = (R-1)(C-1) , 행의수 : R, 열의 수 : C

➕ 독립성 검정과 동질성 검정의 차이 : https://hsm-edu.tistory.com/1215

- 동질성 검정 : 하나의 범주형 변수를 기준으로 각 그룹이 특정 요인에 대해 서로 비슷한지 알아보는 방법

- 독립성 검정 : 두 범주형 변수 사이의 독립성을 확인

728x90

'2️⃣ Study > ▢ 자격증 | 교육' 카테고리의 다른 글

[빅분기] 3과목 빅데이터 모델링 : 2장 통계분석 기법_part2 (0)	2022.04.03
[빅분기] 3과목 빅데이터 모델링 : 2장 통계분석 기법_part2 (0)	2022.03.31
[빅분기] 3과목 빅데이터 모델링 : 1장 분석모형설계 (0)	2022.03.28
[빅분기] 2과목 빅데이터 탐색 : 3장 통계기법의 이해 (0)	2022.03.27
[빅분기] 2과목 빅데이터 탐색 : 2장 데이터 탐색 (0)	2022.03.26

Getting better

[빅분기] 3과목 빅데이터 모델링 : 2장 통계 분석기법 Part1

📌 2장. 통계 분석기법

1️⃣ 회귀분석 ⭐⭐ - 개념, 오차항 가정, 결과해석

2️⃣ 범주형 자료분석 ⭐⭐ - 분할표, 상대위험도, 오즈비, 적합성/독립성/동질설 검정

'2️⃣ Study > ▢ 자격증 | 교육' 카테고리의 다른 글

댓글

티스토리툴바

[빅분기] 3과목 빅데이터 모델링 : 2장 통계 분석기법 Part1

📌 2장. 통계 분석기법

1️⃣ 회귀분석 ⭐⭐ - 개념, 오차항 가정, 결과해석

2️⃣ 범주형 자료분석 ⭐⭐ - 분할표, 상대위험도, 오즈비, 적합성/독립성/동질설 검정

'2️⃣ Study > ▢ 자격증 | 교육' 카테고리의 다른 글

관련글

댓글

티스토리툴바