본문 바로가기
2️⃣ Study/▢ 자격증 | 교육

[빅분기] 2과목 빅데이터 탐색 : 2장 데이터 탐색

by isdawell 2022. 3. 26.
728x90

📌 2장. 데이터 탐색

 

EDA : 데이터의 분포 값을 여러 각도로 검토하며 insight 를 발견 

 

1️⃣ 데이터 탐색 기초 

(1) EDA 개요 

 

a. EDA

  • 다양한 차원과 값을 조합하여 특이점이나 의미있는 사실을 도출해 분석의 최종 목적을 달성해가는 과정 
  • 데이터 특징, 구조적 관계를 알아내기 위한 기법들의 통칭
  • 도표, 그래프, 통계요약 등을 활용한다. 
  • EDA 목적 : 데이터의 온전성 검사를 위해, 결측치나 이상치를 찾기 위해, 데이터를 요약하기 위해 
  • VS 확증적 자료분석 : 전략적인 조사 방법으로 가설검정에 사용되는 추론통계 방법이다. 통계 검정에서 얻은 유의 확률과 신뢰구간을 결과물로 내놓는 분석방법이다. EDA 탐색적 자료 분석은 기술통계를 활용하여 분포도 요약, 상관계수에 의한 변수간 연관성 파악, 자료 시각화 등을 진행하는 방법이다. 

b. EDA 의 4가지 주제 

  • 저항성 (데이터의 일부가 파손되었을 때 영향을 적게 받는 성질) 의 강조 👉 이상치, 결측치, 입력오류에 영향을 받지 않는 도구를 사용한다는 뜻으로 ex. 평균값 vs 중앙값 
  • 잔차 (개별 관측값이 주요 경향으로부터 얼마나 벗어나 있는지를 알려주는 지표) 의 해석 
  • 데이터의 재표현 : 원자료의 척도를 적당히 변환하는 것. 로그변환이나 제곱근 변환 
  • 데이터의 현시성 : presentation 즉 시각화를 하는 것 

 

(2) 기초 통계량 추출 

 

a. 필요성 

  • 기술통계 : 데이터를 의미있는 정보로 체계화, 요약, 표현 
  • 기초통계량 (기술 통계량) : 자료의 분포를 중심경향도, 분포도, 비대칭도 등 세 가지 특성에 대해 특성별로 요약 통계량을 산출한 것 

 

b. 기초 통계량 추출 

  • 엑셀의 통계 함수 + 데이터 분석 기능을 사용해 기초 통계량 산출 
    • [수식] - [함수 마법사] - 통계 범주 선택
    • [데이터] - [데이터 분석] - 기술통계법 선택
  • SAS Package 를 사용 : Proc Means, Proc Univariate 
  • SPSS 를 사용 : 메뉴 클릭방식으로 기초 통계량을 산출 : [기술통계] 

 

c. 기초 통계량 이해 

  • 중심 경향도 (자료의 중심) : 평균, 중앙값, 최빈값 ⭐⭐ 
    • 양적자료 : 평균과 중앙값을 사용, 양적 or 질적 자료 : 최빈값 
    • 평균은 양적 자료만 이용 가능하고 소수의 극단값에도 영향을 받는다는 한계가 있으나 통계적 추론에서 가장 중심적인 통계량이다. 
  • 산포도 (자료의 분산) : 범위, 분산, 표준편차, 사분범위, 평균의 표준오차 SEM, 변동계수 CV
    • 자료가 어느정도 중심에 집중되어 있는가를 측정해 중심의 대표성에 대한 평가와 함께 자료 분포의 구조적 특성을 파악할 수 있도록 해준다. 
    • 평균의 표준오차 : 모평균과 표본평균이 얼마나 차이가 나는지 나타내는 통계량이다. 표본분포의 표준편차로 평균의 표준오차는 표본평균들의 표준편차로 정의한다 = S/sqrt(n). 표준오차가 작을수록 표본의 대표성이 높다. 
    • 변동계수 : 변수 X의 표준편차를 산술평균으로 나눈 값이다. 측정 단위가 서로 다른 자료를 비교할 때 쓰인다. 상대적인 산포도를 비교하기 위해 쓰인다. 변동계수의 값이 클수록 자료 간 상대적인 차이가 크다는 것을 의미한다. 
  • 자료의 분포 비대칭도 : 왜도, 첨도 
    • 자료의 분포가 얼마나 한쪽으로 치우쳐 있는지 분포가 중앙에 얼마나 집중되어있는지 정도를 나타내기 위한 통계량으로 모두 정규분포를 기준으로 비교해 설명한다. 
    • 정규분포는 분포가 일정하고 대칭형이므로 첨도와 왜도가 모두 0이다.  
    • 왜도 : 비대칭 정도와 비대칭의 방향을 보여주는 통계량 ⭐⭐ 
      • 오른쪽으로 긴 꼬리 👉 왜도 > 0 👉 양의 방향으로 왜도가 있다 = 양의 부분의 분산이 더 크다 
      • 왼쪽으로 긴 꼬리 👉 왜도 < 0 
    • 첨도 : 분포의 중심에서 뾰족한 정도꼬리 부분의 길이에 대한 정보를 제공하는 통계량 ⭐⭐ 
      • m4 > 0 : 표준 정규분포보다 더 뾰족함. 긴 꼬리. T 분포첨도가 0보다 큰 대표적인 분포  
      • m4 < 0 : 표준정규분포보다 덜 뾰족함. 짧은 꼬리 
      • m4 = 0 : 표준정규분포와 유사한 뾰족함

 

(3) 시각적 데이터 탐색 ⭐⭐ - 종류와 정의, 특징 구분 

  • 막대그래프 : 범주형 변수의 count (도수) 를 나타낸 그림 
  • 원그래프 : 도수표나 상대도수표를 표현. 백분율 표현에 용이 
  • 도수분포표 : 계급에 따른 도수를 나타낸 표 
  • 히스토그램 : 도수분포표에서 각 계급 구간의 관측도수를 기둥 형태로 표현해 크기를 비교. 연속형 자료를 표현 
  • 줄기-잎 그림 : 수치형 데이터를 표현하는 방식. 히스토그램에서 얻을 수 없는 자료인 최솟값, 최댓값, 각 구간내 자료 분포에 대한 정확한 정보를 얻을 수 있다. 
  • 상자그림 : 최솟값, 최댓값, 사분위수 표현 
  • 도수다각형 : 연속형자료를 일정 크기의 계급으로 묶었을 때 각 계급의 중간점에서 해당 도수를 표기하고 그 점들을 직선으로 연결한 그래프 
  • 선 그래프 : 연속형 변수에 해당하는 x,y 축 변화를 선으로 나타냄
  • 산점도 : 두 데이터 항목의 공통 변이를 나타내는 2차원 도표로 변수 사이의 관계를 시각화 

 

(4) 상관관계 분석 

  • 변수 간 관계를 바탕으로 인사이트를 도출 
  • 공분산 분석
    • 두 변수의 공통된 분포를 나타내는 분산을 공분산이라 하며 두 변수 사이선형관계를 측정하는 대표적인 모수이다.
    • 공분산의 부호로 두 변수의 방향성을 확인할 수 있다. (양/음의 선형 관계)
    • 개별 관측치들을 점으로 나타내는 산점도를 그려보면 공분산을 시각적으로 파악할 수 있다. 
    • 공분산이 0이면 두 변수는 서로 독립으로 변수 간 '선형관계' 가 없다고 판단
    • 그러나 두 변수의 단위에 따라 값의 차이가 심하므로 표준화된 공분산으로 보완 (공분산에 각 변수의 표준편차로 나눈 값) 할 수 있는데 이 값이 바로 피어슨 상관계수가 된다. 
  • 상관계수 분석 
    • 피어슨 상관계수 ⭐⭐
      • 두 변수 간 상관관계를 정확히 묘사할 수 있는 통계적 지표. 등간척도나 비율척도를 이용한 변수간의 상관관계를 파악하는데 주로 사용한다. 
      • 연속형 변수, 정규성 가정 
    • 스피어만의 서열 상관계수
      • 서열척도 변수 간의 상관관계로, '순위값' 을 이용해 분석하는 경우에 사용한다.
      • 예) 3명의 후보에 대한 선호와 도덕성을 평가한 순위 간 관계를 분석 
      • 순서형 변수, 비모수적 방법 , 데이터 내 편차와 에러에 민감 
      • cf. 켄달 
  • 상관계수의 유의성 검정 
    • 상관계수를 일반화하여 사용하기 위해 통계적으로 유의한가를 검정한다. 
    • 두 변수 X와 Y 사이에 유의미한 상관관계가 존재하는가 
    • 귀무가설 : H0 =  두 변수 간에는 선형관계가 존재하지 않는다 = 상관계수 값이 0이다. 
    • t 검정으로 유의성을 검정한다. 

 

 

2️⃣ 고급 데이터 탐색

(1) 시공간 데이터 탐색 

 

a. 시간 데이터 탐색 

  • 시간에 따른 패턴의 변화를 살펴보는 것
  • 반복되는 패턴, 반복되지 않고 계속 편화하는 패턴을 분리해내는 것이 핵심이다. 
  • 시계열 데이터 분석 , 모션차트 

b. 공간 데이터 탐색 

  • 공간 데이터는 위치정보 (좌표값, 주소, 계층형 행정구역) 을 포함한 형태로 존재한다. 
  • Arc GIS, X-Ray Map, Power Map, 지오차트 등을 이용한다. 
  • 공간데이터마이닝 

 

(2) 다변량 데이터 탐색 ⭐⭐

 

다변량 데이터란 

  • 범주형 다변량 데이터로 여러가지 범주형의 척도를 갖는 변수 데이터를 말한다. 
  • 사회현상을 설명할 수 있는 자료의 유형을 연구하기 위해 변수들 사이의 관계를 분석하는 것

a. 피벗 테이블 

  • 표. 열과 행으로 구성된 양방향 표로 교차표, 다차원 표라고도 한다. 
  • 많은양의 데이터를 구조, 요약, 표시할 수 있다. 

 

b. 모자이크 플롯

  • 2차원 또는 3차원 교차표의 시각화 기법으로 범주형 다변량 데이터를 표현하는데 많이 사용된다. 
  • 전체 정사각형 도형을 교차표의 행 빈도에 비례하는 직사각형으로 나누고, 다시 도형을 행 내 열의 빈도에 해당하는 직사각 도형으로 나눈다. 
  • 각 사각형의 넓이가 각 범주에 속한 데이터의 수이다. (상대적 크기 파악에 용이) 

 

c. 레이더 차트 

  • 명목변수의 특정 수준에 따른 정량적 변수의 값을 시각적으로 표현한 그래프로 스파이더 차트라고도 한다. 
  • 예. 여러 제품의 품질을 평가하기 위해 견고성, 가격, 디자인, 고객 서비스 항목을 두고 10단계로 점수를 매긴 후 이를 레이더 도표로 만들어 각 제품의 장단점과 균형을 파악해본다. 

 

d. 평행좌표 그래프 

  • 데이터 테이블의 각 행을 선으로 연결하는 형태의 다변량 시각화 
  • Y 축에서 윗부분은 변수 값 범위의 최대값 아래는 최솟값을 나타낸다. 
  • 측정값이 여러개이면서 단일 그룹인 경우 평행 좌표계를 사용한다. 
  • 대상이 많은 데이터에서 집단적인 경향성을 쉽게 파악할 수 있다. 
  • 누적 분포를 파악하는데 용이하다. 

 

e. 체르노프 얼굴 

  • 다차원 통계 데이터를 시각화하는 대표적인 방법 중 하나 
  • 얼굴의 각 부위를 변수로 대체해 한눈에 데이터 속성을 파악하게 만든다. 

 

f. 스몰 멀티플즈 

  • 다수의 변수를 하나의 차트에 표현하지 않고 영역을 구분해 표현하는 방식이다. 
  • 정보는 분리하되 데이터의 패턴을 이해할 수 있도록 한다. 

 

g. 선버스트 차트 

  • 계층구조로 된 데이터를 표현할 경우 트리맵과 함께 유용한 그래프 

 

h. 트리맵 

  • 계층적으로 구조화할 수 있는 대용량 데이터를 표시하는데 사용한다. 

 

(3) 비정형 데이터 탐색 

  • 미리 정의된 데이터 모델이 없거나 정의된 방식으로는 정리되지 않은 데이터 
  • 텍스트, 이미지, 음성, GPS 위치 데이터 등 

a. 텍스트 데이터 

  • 텍스트 마이닝 : 문서 분류, 문서 군집, 메타데이터 추출, 정보 추출 등을 수행 

 

b. 웹 데이터 

  • 텍스트, 이미지, 동영상 데이터를 수집할 수 있다. 
  • 웹마이닝 : 패턴 파악, 프로파일, 추세 등을 발견하기 위해 웹에 데이터마이닝 기술 응용 
  • 웹 크롤링 ⭐⭐
    • 웹페이지에 직접 접근해 빠르게 정보를 수집하거나 자동 이메일 수집 또는 웹 유지관리를 위해 사용된다. 
    • VS 스크래핑 : 스크래핑은 웹 페이지의 내용 전체를 웹 코드까지 가져오는 것이고 크롤링은 웹에서 전달하고자 하는 콘텐츠를 데이터화 하는 것까지를 포함한다. 

 

구분 종류 특징
Pure 프로그래밍 C, java ... 프로그래밍 언어로 작성한 간단한 웹 접속용 크롤러 
라이브러리  beautiful soup , lxml, curl ..  크롤링을 위해 지원하는 라이브러리들로 주로 html 파싱을 하는 기능을 지원 
프레임워크 Scrapy, nutch, crawler4j  크롤링의 아키텍처 위에 확장 가능한 기반 코드 제공 
업무용 패키지 구글,아마존 등에서 자체 개발한 크롤러 특정 목적을 가지고 개발한 패키지 형태의 애플리케이션 
728x90

댓글