728x90
📌 2장. 통계 분석기법
⭐ 현업에서 알고싶어하는 '어떤 고객이 이탈하느냐', '왜 이탈하느냐' 라는 물음에 대한 답은 데이터를 이용한 통계 검정이나 회귀분석을 통해 답을 구할 수 있다. 다양한 통계분석 기법에 대해 알아보자!
1️⃣ 다차원 척도법
(1) 다차원 척도법
- 객체간 근접성을 시각화하는 통계기법
- 군집분석 같이 개체들 사이의 유사성/비유사성을 측정해 개체들을 2차원 공간상에 점으로 표현하는 분석방법
(2) 목적
- 데이터 속 잠재된 패턴, 구조를 찾아냄
- 구조를 소수 차원의 공간에 기하학적으로 표현
- 데이터 축소의 목적으로 사용 👉 데이터에 포함된 정보를 발견
- 분석을 통해 얻은 결과를 데이터가 만들어진 현상/과정에 고유의 구조로 의미를 부여한다.
(3) 분석 방법
- 개체들의 거리계산 : 유클리드 거리행렬을 이용
- 상대적 거리의 정확도를 높이기 위해, 적합 정도를 측정하는데, 부적합도 기준으로 STRESS 나 S-STRESS 를 사용한다.
- 부적합도를 최소로 하는 반복알고리즘을 이용해 최적 모형을 적합한다.
- (실제거리 - 프로그램으로 추정한 거리) 의 차이의 제곱을 기반으로 STRESS 를 측정
STRESS | 적합도 수준 |
0 | 환벽 |
0.05 이내 | 매우좋음 |
0.05~0.1 | 만족 |
0.1~0.15 | 보통 |
0.15 이상 | 나쁨 |
(4) 종류
a. 계량적 MDS
- 데이터가 구간척도나 비율척도인 경우 활용
- N개의 케이스에 대해 p개의 특성변수가 있는 경우, 각 개체들간의 유클리드 거리 행렬을 계산하고 개체들간의 비유사성 S를 공간상에 표현한다.
- R 프로그래밍 : cmdscale
b. 비계량적 MDS
- 데이터가 순서척도인 경우 활용한다.
- 개체들간의 거리가 순서로 주어진 경우 순서척도를 거리의 속성과 같도록 변환하여 거리를 생성한 후 적용한다.
- R프로그래밍 : isoMDS, sammon
2️⃣ 다변량 분석 ⭐⭐ - 개념과 특징
(1) 주성분 분석
a. 개념
- 여러 변수들이 있을 때 서로 상관성이 높은 변수들의 선형결합으로 이루어진 '주성분' 이라는 새로운 변수를 만들어 변수들을 요약하고 축소하는 기법
- 여러변수의 선형 조합으로 만들어진 주성분을 통해 변수들을 축소할 수 있다.
- ex. 변수 a 와 b 로 c를 예측할 때, a=5k, b=7k+2, c=9a+b 라 한다면 k로만 c를 예측하는 것이 더 좋음
- 첫번째 주성분으로 전체 변동을 가장 많이 설명할 수 있도록 하고, 두번째 주성분은 첫번째 주성분이 설명하지 못하는 나머지 변동을 정보의 손실없이 가장 많이 설명할 수 있도록 변수들의 선형 조합을 만든다.
- 각 주성분은 서로 독립 (상관계수=0) 인 것을 원칙으로 한다.
b. 목적
- 변수들 간에 내재하는 상관관계, 연관성을 이용해 소수의 주성분으로 차원을 축소하여 데이터를 이해하고 관리하기 쉽게 해준다.
- 다중공선성이 존재하는 경우 상관성이 없는 (적은) 주성분으로 변수들을 축소해 모형 개발에 활용할 수 있다.
- 주성분분석으로 변수 차원을 축소한 후 군집분석을 수행하면 군집화 결과와 연산속도를 개선할 수 있다.
- 활용 ex : 다량의 센서 데이터를 차원축소하여 분포나 추세를 파악하여 기계의 고장 징후를 파악한다.
c. 주성분 선택
c-1. 기여율
- 주성분은 여러 변수들의 선형결합으로 각 변수에 내재되어 있는 중요한 정보의 손실이 있을 수 있다. 따라서 주성분 기여율을 사용해 주성분이 데이터를 얼마나 잘 설명할 수 있는지를 평가한다.
- 주성분 기여율 = 주성분 변수의 분산 / 원 변수의 총 변동(각 변수들의 분산값 총합) 👉 총 변동에 대한 주성분의 설명력을 의미한다.
- 주성분의 분산이 전체 데이터의 흩어진 정도와 비슷하면 해당 주성분은 적절하다고 판단한다.
- 기여율은 1에 가까울수록 적절하고 0에 가까울수록 데이터에 대한 설명력이 떨어진다고 판단한다.
- 첫번째 주성분부터 차례로 기여율을 합한 누적 기여율이 85% 이상이 되면 해당 지점까지를 주성분의 수로 결정한다.
c-2. 스크린 산점도
- 주성분을 x축, 각 주성분의 고유값 즉, 주성분의 분산을 y축에 둔 그래프이다.
- 고유치가 급격히 완만해지는 지점의 바로 전단계로 주성분의 수를 선택한다. 그 이후 지점의 주성분은 데이터에 대한 설명력이 작아서 선택하지 않는다. (선택 하지 않아도 큰 차이가 없음)
(2) 요인분석
a. 개념
- 여러개의 변수들로 이루어진 데이터에서 변수 간 상관관계를 고려해 서로 유사한 변수들을 묶어 새로운 잠재요인들을 추출해내는 분석방법
- 변수를 축소하고 데이터를 요약하는데 사용
- 예시
- 시험성적 데이터 : (국어,영어, 중국어) 👉 언어영역 , (수학,물리) 👉 수리능력, (미술,음악) 👉 예술적 재능
- 변수 : 간격척도 혹은 비율척도로 측정이 되어야 함
- 표본의 크기는 최소 50개 이상, 100개 이상이 바람직
b. 주성분분석 vs 요인분석
- 원데이터를 활용해 몇 개의 새로운 변수를 생성하고, 변수 축소나 데이터 요약에 사용된다는 공통점이 있음
주성분 분석 | 요인분석 | |
생성되는 변수의 수 | 통상적으로 2개 (제1주성분,제2주성분) | 지정된 개수 없음 |
생성되는 변수의 이름 | 제 1주성분 형태로 표현됨 | 분석가가 변수의 이름을 지정함 |
생성되는 변수들의 관계 | 제 1주성분이 가장 중요, 그 다음으로 제 2 주성분이 중요하게 취급됨 | 대등한 관계 (어느것이 더 중요하다는 의미가 없음) |
분석 방법의 의미 | 목표변수의 예측/분류가 중요 | 목표변수를 고려하지 않고 주어진 변수들을 비슷한 성격으로 묶어 새로운 잠재변수를 생성 |
c. 용어
- 요인 : 상관계수가 높은 변수들을 묶어 새롭게 생성한 변수집단
- 요인 적재값 : 변수와 해당 요인간의 상관계수. 요인 적재값의 제곱은 해당 변수가 요인에 의해 설명되는 분산의 비율을 의미한다.
- 요인행렬 : 요인들에 대한 모든 변수의 요인 적재값을 모은 행렬
- 고유값 : 각 요인에 대한 모든 변수들의 요인 적재값 제곱의 합. 해당 요인이 설명할 수 있는 변수들의 분산 총합으로 변수 속 정보(분산) 가 어떤 요인에 의해 어느정도로 설명될 수 있는지를 나타내는 비율
- 공통성 : 여러 요인이 설명할 수 있는 한 변수의 분산의 양을 백분율로 나타낸 것. 한 변수의 공통성은 추출된 요인들이 그 변수의 정보(분산)을 얼마만큼 설명할 수 있는지를 의미하며 0과 1사이의 값을 가진다.
d. 요인추출 방법
- 주성분 분석 : 변수들로부터 요인을 추출하는 방식으로 전체 분산을 토대로 요인을 추출한다. 가장 많이 사용되는 방식!
- 공통 요인 분석 : 잠재요인으로부터 변수들이 산출된 것으로 보는 방식으로 공통 분산만을 토대로 요인을 추출
e. 요인의 수 결정
- 고유값을 기준으로 할 땐, 고유값이 1 이상에 해당하는 요인들을 추출
- 스크리 도표에서 요인의 설명력이 하락하다가 완만한 하락으로 추세가 바뀌기 직전의 요인의 수를 기준으로 추출
- 사전에 정의하는 방법도 있다.
f. 절차 정리
데이터 입력 👉 상관계수 산출 👉 요인추출(주성분분석) & 고유값/스크리도표로 적절한 요인의 수 선택 👉 요인 적재량 산출 👉 요인 회전(의미있는 요인 패턴을 찾기 위해 분산을 재분배) 👉 생성된 요인 해석 👉 요인점수 산출 (회귀분석, Bartlett)
(3) 판별분석
a. 개념
- 분류 기법 중 하나로 집단에 대한 정보로부터 집단을 구별할 수 있는 판별함수/판별규칙을 만들고 새로운 개체가 어느 집단에 속하는지를 판별해 분류하는 다변량 기법
- 집단에 대한 정보를 이용한 탐색적인 통계기법
- 간격척도 혹은 비율척도로 측정된 독립변수를 이용해 종속변수는 명목척도 또는 서열척도로 측정된 종속변수를 분류하는데 사용한다.
b. 판별식 도출
- 그룹 내 분산에 비해 그룹 간 차이를 최대화 하는 즉, 분류되어 있는 집단 간의 차이를 의미있게 설명해줄 수 있는 독립변수들의 계수를 찾아내며, 독립변수들의 선형결합을 판별함수 혹은 판별식이라 한다.
- Z = W1*X1 + W2*X2 + ... + Wn*Xn , Z : 판별점수, Wi : 판별계수, Xi : 독립변수
- 판별함수는 '집단의 수 - 1' 과 '독립변수의 수' 중 더 작은 값만큼 만들어지며 첫번째로 계산된 판별식이 집단을 가장 잘 구분해준다.
c. 판별분석의 가정
- 독립변수는 다변량 정규분포를 이룬다. 다중 정규성 가정을 충족하지 않는 데이터로 판별분석을 시행하면 함수 추정에 문제가 생길 수 있다. 이러한 경우엔 다중 정규성 가정이 엄격히 요구되지 않는 로지스틱 회귀분석을 사용할 수 있다.
- 종속변수에 의해 범주화 되는 그룹들의 분산-공분산행렬이 동일해야 한다. 동일하지 않으면 보다 큰 분산-공분산 행렬을 갖는 그룹에 많은 관측치가 분류되는 문제점이 발생한다.
d. 판별함수에 포함될 독립변수의 선택 방법
- 동시입력 방식 : 모든 독립변수들에 대한 계수를 동시에 계산
- 단계입력 방식 : 판별력이 높은 순서로 변수가 입력되어 추정이 이루어짐
e. 적합도 평가
- 판별함수의 판별력 유의성 점검 : Wilk's lambda , 카이제곱검증
- 적합도 점검 : hit ratio 를 확인한다. 이는 정확히 분류된 대상의 수를 전체 대상의 수로 나눈 값으로 0과 1 사이의 값을 가진다. 판별력이 통계적으로 유의하다고 해도 hit ratio 가 낮으면 해당 판별함수의 판별력은 좋다고 판단하기 힘들다.
728x90
'2️⃣ Study > ▢ 자격증 | 교육' 카테고리의 다른 글
[빅분기] 3과목 빅데이터 모델링 : 4장 딥러닝 (0) | 2022.04.06 |
---|---|
[빅분기] 3과목 빅데이터 모델링 : 2장 통계분석 기법_part2 (0) | 2022.04.03 |
[빅분기] 3과목 빅데이터 모델링 : 2장 통계 분석기법 Part1 (0) | 2022.03.30 |
[빅분기] 3과목 빅데이터 모델링 : 1장 분석모형설계 (0) | 2022.03.28 |
[빅분기] 2과목 빅데이터 탐색 : 3장 통계기법의 이해 (0) | 2022.03.27 |
댓글