본문 바로가기
2️⃣ Study/▢ 자격증 | 교육

[빅분기] 3과목 빅데이터 모델링 : 1장 분석모형설계

by isdawell 2022. 3. 28.
728x90

📌 1장. 분석모형 설계

 

⭐ 다양한 모형 구축 기법들과 분석 모형의 선정 및 구축 절차 

 

1️⃣ 분석 모형 구축

(1) 데이터 모델 구축 기법 

 

a. 통계분석 

  • 회귀분석 : 종속변수에 대한 독립변수의 선형 함수 관계로부터 새로운 값에 대해 종속변수의 값을 예측한다. 특정 예측변인들이 하나의 결과변인에 미치는 인과성을 밝히는데도 사용할 수 있다. 
  • 로지스틱 회귀분석 : 설명변수 값이 주어졌을 때 목표변수값이 특정 부류에 속할 확률이 로지스틱 함수 형태를 따르는 것을 이용해 분류 예측을 진행한다. 
  • 판별분석 : 종속변인이 둘 혹은 그 이상의 집단으로 구성되어 있을 때 여러 개의 독립변인으로 집단 관측치를 판별 혹은 예측한다. 
  • 주성분 분석  : 서로 상관관계가 높은 변수들의 선형결합으로 만들어진 주성분이라는 새로운 변수를 만들어 요약하고 축소한다. 

 

b. 데이터 마이닝 ⭐⭐ - 개념, 종류, (분류,예측,연관,군집) 

  • 방대한 데이터를 다양한 관점에서 분석하여 패턴, 상관성을 식별해 가치를 부여한다. 숫자가 아닌 데이터도 처리한다는 점에서 통계분석과 다르다. 
  • 데이터의 패턴을 발견하는 알고리즘이라는 점에서 머신러닝과 동일하지만, 머신러닝은 기계가 모델의 매개변수를 자동으로 학습한다는 점에서 차이가 있다. 
  • 데이터 품질에 따라 분석 결과의 품질도 결정된다. 즉, 데이터의 추세에 의존하는 한계점이 존재한다. 

 

분류 예측 연관 군집화
다수의 속성을 가지는 개체를 그룹이나 범주 중의 하나로 분류 미래의 결과를 예측하기위해 사용되는 모형으로 입력 데이터의 성격에 따라 방법론을 결정한다.  일련의 거래 또는 사건들 간의 규칙을 발견해 조건과 반응 형태로 분석 결과의 연관성을 파악 비슷한 특성을 가진 데이터들을 소그룹으로 묶음 
로지스틱 회귀, 의사결정나무, SVM, 나이브 베이즈, KNN, 인공신경망 회귀분석, 장바구니 분석, 시계열분석, 의사결정나무, 인공신경망, KNN 연관성 분석, 순차패턴 분석 군집분석, K-means 클러스터링, 기대 최대화 

 

c. 머신러닝 ⭐⭐ - 지도학습의 개념과 특징, 종류

 

🔹 지도학습 (분류형 모델) 

  • 레이블이 있는 데이터로 학습
  • 예측(회귀), 분류 
  • 입력된 데이터가 많을수록 정확도가 높아지므로 많은 데이터가 필요 
  • 훈련 과정에서 평가지표를 확인해야하므로 노동집약적이고 시간이 많이 걸린다. 
  • 기계의 지식이 훈련되지 않은 분야로 확산될 가능성이 없다. 

 

🔹 비지도학습 (설명형 모델) 

  • 레이블이 없는 데이터로 학습
  • 데이터 속에 어떤 의미가 숨겨져있는지 정확히 모르는 경우에 사용 👉 패턴을 찾아내고 의미를 추론 
  • 기대했던 결과를 얻지 못할 수도 있지만 예상치 못한 경향을 발견해 낼 가능성도 존재한다. 
  • 사전 정보가 없는 상태에서 현상 이해 + 내재된 특징 도출. 유용한 정보와 패턴을 탐색적으로 발견 
  • 군집, 연관규칙, 차원축소
  • 연관규칙 ex : 고객들이 특정 서비스를 받은 후 어떤 서비스를 원할지 예측, 기존 금융 서비스 내역으로부터 특정한 서비스를 받을 가능성이 높은 고객 찾기 

 

🔹 강화학습 

  • 주어진 입력값에 대한 출력값의 정답이 주어지지 않은 상태에서 일련의 행동의 결과에 대한 보상이 주어지며 보상이 최대화 되도록 행동하며 학습을 진행한다. 경험과 시행착오를 통해 얻어진 데이터를 기반으로 알고리즘이 모델을 지속적으로 개선하는 방식이다. 
  • 전혀 새로운 방법을 섞어 시도해볼 수 있다는 장점 존재 

 

지도학습 비지도학습 강화학습
◾ 분류 :로지스틱 회귀, 결정트리, SVM, 랜덤포레스트, KNN 신경망

◾ 회귀 : 선형회귀, 로지스틱 회귀, KNN, 신경망 
◾ 군집화 : 계층 군집분석, K-means 클러스터링, 마르코프 체인 몬테카를로, 기대최대화

◾ 차원축소 : 
PCA, 커널 PCA, 요인분석, 다차원 척도법 

◾ 연관규칙 : Apriori, 빈출패턴성장
 
Q 러닝, 시간차학습

 

d. 비정형 데이터 분석 

 

1) 정형 : 미리 정해놓은 형식과 구조에 따라 저장된 데이터. RDB, 스프레드시트, CSV 데이터 등

 

2) 반정형 : 데이터의 형식과 구조가 변경될 수 있는 데이터로 구조 정보를 데이터와 함께 제공하는 파일 형식의 데이터이다. 파일에 포함된 구조정보를 바탕으로 정형 데이터로 변환할 수 있다. JSON 은 CSV 형태로 쉽게 변환된다. 

 

3) 비정형 

  • 텍스트 마이닝 
문서분류 문서군집 정보추출 
- 문서의 내용에 따라 분류 
- 사전에 분류 정보를 알고있는 상태에서 주제에 따라 분류하는 지도학습 방식 
- 성격이 비슷한 문서끼리 같은 군집으로 묶어주는 방법
- 분류를 모르는 상태에서 수행하는 비지도학습 방식
- 문서에서 중요한 의미를 지닌 정보를 자동으로 추출 

 

  • 오피니언 마이닝 : 의견, 평가, 태도, 감정 등을 분석

 

  • 소셜 네트워크 분석
    • 개인과 집단들 간의 관계를 노드와 링크로 모델링을하고 위상구조와 확산 및 진화과정을 계량적으로 분석하는 방법. 즉 개인적인 인간관계가 확대되어 형성된 사람들 사이에 이루어진 네트워크를 분석 
    • 네트워크 연결구조와 연결강도를 분석한다. 
    • 인플루언서를 찾아서 모니터링하고 관리하여 마케팅에 활용 
    • 소셜 웹 마이닝 : 네트워크 관계와 주고받는 대화 내용을 통해 영향력있는 사람이 누구인지 어떤 주제가 관심사인지 알아내는 분석 
    • 소셜 애널리틱스 : SNS 에 사람의 감정을 나타내는 단어가 나오면 긍정인지 부정인지 판단하는 텍스트 분석 

 

웹 구조 마이닝 웹 유시지 마이닝 웹 콘텐츠 마이닝 
- 웹사이트의 노드와 연결 구조를 분석하는 방법
- 하이퍼링크로부터 패턴을 찾아내거나 웹페이지 구조를 분석 
- 인터넷 이용자의 이용경로인 웹서버 로그 파일 분석 
- 웹 사이트 개선이나 고객 특성을 반영한 맞춤형 서비스를 지향 
- 웹페이지에 저장된 콘텐츠로부터 웹 사용자가 원하는 정보를 빠르게 찾는 기법 
- 검색엔진에 많이 사용 

 

 

 

 

(2) 분석 모형 선정 

 

a. 선정 기준 

  • 분석 목적 명확히 규명
  • 종속 변수 파악 - 존재성과 종류 

 

b. 활용 목적에 따른 모델 

  • (생략) 

 

c. 종속변수/변수유형에 따른 데이터 분석 모형 

  • 이산형인지 연속형인지에 따라 분류 모형이나 추정 모형을 적용한다. 
  • 종속변수가 없다면 비지도학습 방식 즉, 상관분석, 군집분석, 연관분석, 요인분석, 시계열, 네트워크분석 등의 모형을 적용한다. 이때 시계열은 시간의 변화 흐름을 파악하는 용도로의 분석을 의미한다. 

 

(3) 분석 모형 정의  

  • 목적에 맞는 분석기법 선택 
  • 데이터의 양과 품질 또한 중요 
  • 훈련 - 검증 - 평가 데이터셋으로 나누어 모형을 정의 
  • 적합한 모형 선정, 적용, 성능평가 과정이 분석에서의 핵심적인 부분 

 

(4) 분석 모형 구축 절차 ⭐⭐

 

a. 분석 데이터 수집/처리 

 

a-1) 분석 데이터 마트 구성 : 분석 목적 이해 - 필요 데이터 사전 조사 - 분석 데이터 선정 (모델 개발에 필요할 것으로 예상되는 최대의 항목을 도출)

 

a-2) 분석 데이터 현황 분석 : 데이터 항목별 현황 분석 (항목별 조사, 현황 - 통계량/빈도 조사) - 데이터 항목간 연계 분석 - 분석 데이터 리스트 작성 

  • 데이터 현황분석 고려사항 : 데이터 충실도, 데이터 이상값, 데이터 분포도, 데이터 오류율, 데이터 분류 

 

b. 분석 알고리즘 수행 

 

b-1) 분석 알고리즘 선정 

  • 분석 목적 : 지도학습은 예측하는 모델을 만드는데 활용, 비지도학습은 현상을 설명하는 모델을 만드는데 활용 
  • 데이터 유형 : 정형 데이터 (데이터 마이닝 알고리즘), 소셜데이터(그래프 기반 분석 알고리즘), 센서데이터, 멀티미디어 데이터(딥러닝 알고리즘, 텍스트 마이닝 알고리즘) 
  • 데이터 볼륨 : 대용량 데이터면 처리가 가능한 분석 알고리즘을 선정해야 한다. 텍스트나 이미지는 주로 딥러닝 기반의 알고리즘을 사용한다. 
  • 분석 인프라 : 대용량 분산처리 하둡 인프라. 하둡의 Mahout 에서 제공하는 협업 필터링 알고리즘을 통해 다양한 분석모델을 개발할 수 있다. 

b-2) 분석 알고리즘 수행 

  • 데이터셋 준비 : 훈련-검증-평가 
  • 파라미터 설정 및 조정  : 파라미터에 민감한 알고리즘 및 분류 기반의 학습 방법은 반복적으로 파라미터를 조정한다. 
  • 분석결과 기록 : 분석 수행 회차, 알고리즘 명, 주요 파라미터, 분석결과 (평가지표) 

 

 

c. 분석 결과 평가 및 모델 선정 

  • 모형 평가 및 모델 선정 : 분석모형 구축이 완료되면 수행 결과를 검토해 최종 모형을 선정한다. 
  • 실질적인 활용 가능성 검토 : 모형의 성능이 좋더라도 데이터셋이 한정적이거나 해당 데이터를 실제로 확보하기 어려운 경우 아래의 순위의 분석 모델을 선정한다. 
  • 챔피언 모델(최종 모델) 은 개선작업을 통해 업데이트 및 새 모형으로 교체될 수 있다. 
구분 평가기준 
지도학습 분류 정확도, 평균 오차율, 오류 재현율 
비지도 학습 집도 소속률, 데이터 밀도 및 군집도
기타 텍스트 매칭률, 문서 분류율

 

 

2️⃣ 분석 환경 구축 

 

  • 분산처리가 가능하며 저비용 고성능의 오픈소스 기반 
  • JAVA, C, SAS, SPSS, R, Python 

 

(1) 분석 도구 선정 

 

a. 엑셀과 스프레드시트 

b. R 프로그램 : 객체지형언어이며 함수형 언어

c. Python : 접착제 언어(다른 언어나 라이브러리에 쉽게 접근하여 사용할 수 있고 C언어와 결합이 잘됨) 

d. SAS 

e. SPSS 

기타. 아파치 : 머하웃 (하둡 에코 시스템) , 하이브(맵리듀스 기반 DW, 데이터 질의 지원), 피그(맵리듀스 기반 DW, 데이터 질의 지원)

 

  • SPSS, SAS 는 문제가 발생할 경우 해당 업체를 통해 유지보수가 신속히 이루어지고, R 은 다양한 사용자를 통해 의견을 들을 수 있지만 해결책을 찾기 위해선 시간과 노력이 필요하다. 

 

(2) 데이터 분할  ⭐⭐

 

a. 일반화 성능 

b. 훈련 데이터셋 - 일반적으로 전체 분석의 50% 

c. 평가 데이터셋 - 20%

d. 검증 데이터셋 - 30%

 

  • 일정한 비율에 의해 무작위로 추출하여 분할한다. 범주의 비율이 훈련과 평가 데이터셋에서도 유지되도록 해야한다. 
  • 데이터의 양이 충분치 않거나 입력변수에 대한 설명이 충분한 경우 : 홀드 아웃 방법 (랜덤하게 두 개의 데이터로 구분) , 교차검증 방법 

 

 

* 딥러닝 오픈소스 : Caffe, Tensorflow, Theano (참고. 아나콘다는 머신러닝 특화 솦웨) 

728x90

댓글