본문 바로가기
2️⃣ Study/▢ 자격증 | 교육

[빅분기] 3과목 빅데이터 모델링 : 2장 통계분석 기법_part2

by isdawell 2022. 3. 31.
728x90

📌 2장. 통계 분석기법

 

⭐ 현업에서 알고싶어하는 '어떤 고객이 이탈하느냐', '왜 이탈하느냐' 라는 물음에 대한 답은 데이터를 이용한 통계 검정이나 회귀분석을 통해 답을 구할 수 있다. 다양한 통계분석 기법에 대해 알아보자!

 

 

1️⃣ 다차원 척도법 

(1) 다차원 척도법 

  • 객체간 근접성을 시각화하는 통계기법 
  • 군집분석 같이 개체들 사이의 유사성/비유사성을 측정해 개체들을 2차원 공간상에 점으로 표현하는 분석방법 

 

(2) 목적 

  • 데이터 속 잠재된 패턴, 구조를 찾아냄 
  • 구조를 소수 차원의 공간에 기하학적으로 표현
  • 데이터 축소의 목적으로 사용 👉 데이터에 포함된 정보를 발견 
  • 분석을 통해 얻은 결과를 데이터가 만들어진 현상/과정에 고유의 구조로 의미를 부여한다. 

 

(3) 분석 방법

  • 개체들의 거리계산 : 유클리드 거리행렬을 이용 
  • 상대적 거리의 정확도를 높이기 위해, 적합 정도를 측정하는데, 부적합도 기준으로 STRESS 나 S-STRESS 를 사용한다. 
  • 부적합도를 최소로 하는 반복알고리즘을 이용해 최적 모형을 적합한다. 
  • (실제거리 - 프로그램으로 추정한 거리) 의 차이의 제곱을 기반으로 STRESS 를 측정 
STRESS 적합도 수준 
0 환벽
0.05 이내 매우좋음
0.05~0.1 만족
0.1~0.15 보통
0.15 이상 나쁨

 

(4) 종류 

a. 계량적 MDS 

  • 데이터가 구간척도나 비율척도인 경우 활용 
  • N개의 케이스에 대해 p개의 특성변수가 있는 경우, 각 개체들간의 유클리드 거리 행렬을 계산하고 개체들간의 비유사성 S를 공간상에 표현한다. 
  • R 프로그래밍 : cmdscale 

 

b. 비계량적 MDS

  • 데이터가 순서척도인 경우 활용한다. 
  • 개체들간의 거리가 순서로 주어진 경우 순서척도를 거리의 속성과 같도록 변환하여 거리를 생성한 후 적용한다. 
  • R프로그래밍 : isoMDS, sammon 

 

2️⃣ 다변량 분석 ⭐⭐ - 개념과 특징 

 

(1) 주성분 분석 

 

a. 개념 

  • 여러 변수들이 있을 때 서로 상관성이 높은 변수들의 선형결합으로 이루어진 '주성분' 이라는 새로운 변수를 만들어 변수들을 요약하고 축소하는 기법 
  • 여러변수의 선형 조합으로 만들어진 주성분을 통해 변수들을 축소할 수 있다. 
    • ex. 변수 a 와 b 로 c를 예측할 때, a=5k, b=7k+2, c=9a+b 라 한다면 k로만 c를 예측하는 것이 더 좋음 
  • 첫번째 주성분으로 전체 변동을 가장 많이 설명할 수 있도록 하고, 두번째 주성분은 첫번째 주성분이 설명하지 못하는 나머지 변동을 정보의 손실없이 가장 많이 설명할 수 있도록 변수들의 선형 조합을 만든다. 
  • 각 주성분은 서로 독립 (상관계수=0) 인 것을 원칙으로 한다. 

 

b. 목적 

  • 변수들 간에 내재하는 상관관계, 연관성을 이용해 소수의 주성분으로 차원을 축소하여 데이터를 이해하고 관리하기 쉽게 해준다. 
  • 다중공선성이 존재하는 경우 상관성이 없는 (적은) 주성분으로 변수들을 축소해 모형 개발에 활용할 수 있다. 
  • 주성분분석으로 변수 차원을 축소한 후 군집분석을 수행하면 군집화 결과와 연산속도를 개선할 수 있다.  
  • 활용 ex : 다량의 센서 데이터를 차원축소하여 분포나 추세를 파악하여 기계의 고장 징후를 파악한다. 

 

c. 주성분 선택 

 

c-1. 기여율 

  • 주성분은 여러 변수들의 선형결합으로 각 변수에 내재되어 있는 중요한 정보의 손실이 있을 수 있다. 따라서 주성분 기여율을 사용해 주성분이 데이터를 얼마나 잘 설명할 수 있는지를 평가한다. 
  • 주성분 기여율 = 주성분 변수의 분산 / 원 변수의 총 변동(각 변수들의 분산값 총합) 👉 총 변동에 대한 주성분의 설명력을 의미한다. 
  • 주성분의 분산이 전체 데이터의 흩어진 정도와 비슷하면 해당 주성분은 적절하다고 판단한다. 
  • 기여율은 1에 가까울수록 적절하고 0에 가까울수록 데이터에 대한 설명력이 떨어진다고 판단한다. 
  • 첫번째 주성분부터 차례로 기여율을 합한 누적 기여율이 85% 이상이 되면 해당 지점까지를 주성분의 수로 결정한다. 

c-2. 스크린 산점도 

  • 주성분을 x축, 각 주성분의 고유값 즉, 주성분의 분산을 y축에 둔 그래프이다. 
  • 고유치가 급격히 완만해지는 지점의 바로 전단계로 주성분의 수를 선택한다. 그 이후 지점의 주성분은 데이터에 대한 설명력이 작아서 선택하지 않는다. (선택 하지 않아도 큰 차이가 없음) 

 

(2) 요인분석 

 

a. 개념 

  • 여러개의 변수들로 이루어진 데이터에서 변수 간 상관관계를 고려해 서로 유사한 변수들을 묶어 새로운 잠재요인들을 추출해내는 분석방법 
  • 변수를 축소하고 데이터를 요약하는데 사용 
  • 예시
    • 시험성적 데이터 : (국어,영어, 중국어) 👉 언어영역 , (수학,물리) 👉 수리능력, (미술,음악) 👉 예술적 재능 
  • 변수 : 간격척도 혹은 비율척도로 측정이 되어야 함 
  • 표본의 크기는 최소 50개 이상, 100개 이상이 바람직 

 

b. 주성분분석 vs 요인분석 

  • 원데이터를 활용해 몇 개의 새로운 변수를 생성하고, 변수 축소나 데이터 요약에 사용된다는 공통점이 있음 
  주성분 분석 요인분석
생성되는 변수의 수  통상적으로 2개 (제1주성분,제2주성분) 지정된 개수 없음 
생성되는 변수의 이름 제 1주성분 형태로 표현됨 분석가가 변수의 이름을 지정함
생성되는 변수들의 관계  제 1주성분이 가장 중요, 그 다음으로 제 2 주성분이 중요하게 취급됨  대등한 관계 (어느것이 더 중요하다는 의미가 없음)
분석 방법의 의미 목표변수의 예측/분류가 중요 목표변수를 고려하지 않고 주어진 변수들을 비슷한 성격으로 묶어 새로운 잠재변수를 생성 

 

c. 용어 

  • 요인 : 상관계수가 높은 변수들을 묶어 새롭게 생성한 변수집단
  • 요인 적재값 : 변수와 해당 요인간의 상관계수. 요인 적재값의 제곱해당 변수가 요인에 의해 설명되는 분산의 비율을 의미한다. 
  • 요인행렬 : 요인들에 대한 모든 변수의 요인 적재값을 모은 행렬 
  • 고유값 : 각 요인에 대한 모든 변수들의 요인 적재값 제곱의 합. 해당 요인이 설명할 수 있는 변수들의 분산 총합으로 변수 속 정보(분산) 가 어떤 요인에 의해 어느정도로 설명될 수 있는지를 나타내는 비율 
  • 공통성 : 여러 요인이 설명할 수 있는 변수의 분산의 양을 백분율로 나타낸 것. 한 변수의 공통성은 추출된 요인들이 그 변수의 정보(분산)을 얼마만큼 설명할 수 있는지를 의미하며 0과 1사이의 값을 가진다. 

 

d. 요인추출 방법 

  • 주성분 분석 : 변수들로부터 요인을 추출하는 방식으로 전체 분산을 토대로 요인을 추출한다. 가장 많이 사용되는 방식!
  • 공통 요인 분석 : 잠재요인으로부터 변수들이 산출된 것으로 보는 방식으로 공통 분산만을 토대로 요인을 추출 

 

e. 요인의 수 결정 

  • 고유값을 기준으로 할 땐, 고유값이 1 이상에 해당하는 요인들을 추출 
  • 스크리 도표에서 요인의 설명력이 하락하다가 완만한 하락으로 추세가 바뀌기 직전의 요인의 수를 기준으로 추출 
  • 사전에 정의하는 방법도 있다. 

f. 절차 정리 

 

데이터 입력 👉 상관계수 산출  👉 요인추출(주성분분석) & 고유값/스크리도표로 적절한 요인의 수 선택  👉 요인 적재량 산출  👉 요인 회전(의미있는 요인 패턴을 찾기 위해 분산을 재분배)  👉 생성된 요인 해석  👉 요인점수 산출 (회귀분석, Bartlett) 

 

 

(3) 판별분석 

 

a. 개념 

  • 분류 기법 중 하나로 집단에 대한 정보로부터 집단을 구별할 수 있는 판별함수/판별규칙을 만들고 새로운 개체가 어느 집단에 속하는지를 판별해 분류하는 다변량 기법 
  • 집단에 대한 정보를 이용한 탐색적인 통계기법 
  • 간격척도 혹은 비율척도로 측정된 독립변수를 이용해 종속변수는 명목척도 또는 서열척도로 측정된 종속변수를 분류하는데 사용한다. 

 

b. 판별식 도출 

  • 그룹 내 분산에 비해 그룹 간 차이를 최대화 하는 즉, 분류되어 있는 집단 간의 차이를 의미있게 설명해줄 수 있는 독립변수들의 계수를 찾아내며, 독립변수들의 선형결합을 판별함수 혹은 판별식이라 한다. 
  • Z = W1*X1 + W2*X2 + ... + Wn*Xn , Z : 판별점수, Wi : 판별계수, Xi : 독립변수 
  • 판별함수는 '집단의 수 - 1' 과 '독립변수의 수' 중 더 작은 값만큼 만들어지며 첫번째로 계산된 판별식이 집단을 가장 잘 구분해준다. 

 

c. 판별분석의 가정 

  • 독립변수는 다변량 정규분포를 이룬다. 다중 정규성 가정을 충족하지 않는 데이터로 판별분석을 시행하면 함수 추정에 문제가 생길 수 있다. 이러한 경우엔 다중 정규성 가정이 엄격히 요구되지 않는 로지스틱 회귀분석을 사용할 수 있다. 
  • 종속변수에 의해 범주화 되는 그룹들의 분산-공분산행렬이 동일해야 한다. 동일하지 않으면 보다 큰 분산-공분산 행렬을 갖는 그룹에 많은 관측치가 분류되는 문제점이 발생한다. 

 

 

d. 판별함수에 포함될 독립변수의 선택 방법 

  • 동시입력 방식 : 모든 독립변수들에 대한 계수를 동시에 계산 
  • 단계입력 방식 : 판별력이 높은 순서로 변수가 입력되어 추정이 이루어짐 

 

e. 적합도 평가 

  • 판별함수의 판별력 유의성 점검 : Wilk's lambda , 카이제곱검증 
  • 적합도 점검 : hit ratio 를 확인한다. 이는 정확히 분류된 대상의 수를 전체 대상의 수로 나눈 값으로 0과 1 사이의 값을 가진다. 판별력이 통계적으로 유의하다고 해도 hit ratio 가 낮으면 해당 판별함수의 판별력은 좋다고 판단하기 힘들다. 

 

728x90

댓글