본문 바로가기
2️⃣ Study/▢ 자격증 | 교육

[빅분기] 3과목 빅데이터 모델링 : 5장

by isdawell 2022. 4. 7.
728x90

📌 5. 비정형 데이터 분석 기법 

 

1️⃣ 텍스트 마이닝 

(1) 개요 

  • 텍스트를 구조화해 그 데이터에서 패턴을 도출한 후 결과를 평가 및 해석 
  • 다양한 문서 데이터로부터 텍스트를 획득한 후 문서별 단어의 행렬을 만들어 분석을 수행 

 

(2) 기능  

  • 문서분류 : 사전에 분류정보를 알고 있는 상태에서 문서의 내용에 따라 분류하는 것 
  • 문서군집 : 성격이 비슷한 문서끼리 같은 군집으로 묶어주는 방법으로 사전에 분류 정보를 모르는 상태에서 수행하는 비지도 학습 방식 
  • 정보추출 : 문서에서 중요한 의미를 지닌 정보를 추출 

 

(3) 과정  

 

a. 수집 

  • 텍스트 저장소에서 가져오거나 웹페이지 HTML 소스에서 필요한 텍스트 정보를 크롤링 

 

b. 코퍼스 

  • 데이터의 정제, 통합, 선택, 변환의 과정을 거친 후 구조화된 텍스트 데이터로 더 이상 추가적인 절차없이 데이터마이닝 알고리즘 실험에 활용될 수 있는 상태 
  • R의 텍스트마이닝 패키지 'tm' 에서 문서를 관리하는 기본구조 

 

c. 텍스트 전처리 

  • 토큰화 : 단어 토큰화 (특수기호 기준), 어절 토큰화 (띄어쓰기 기준) , 형태소 토큰화 (한국어 토큰화 방식), 품사태깅 
  • 불용어 처리 : 영어는 nltk 패키지 내에서 미리 정의됨, 한국어는 기준을 정해서 직접 정의한 불용어 사전으로 제거 
  • 정제/정규화 : 정제는 노이즈 데이터를 제거하는 것이고 정규화는 대소문자 통일 등 표현방법이 다른 단어들을 통합시켜 같은 단어로 만들어주는 것이다. 정규표현식을 활용하여 한번에 글자들을 제거할 수 있다. 
  • 어간추출, 어근추출 : 어간추출이 어근 추출보다 섬세함이 떨어져 사전에 없는 단어의 결과를 얻을 확률이 높다. 

 

d. 텍스트 인코딩 

  • 원핫인코딩 : 각 단어에 고유한 정수 인덱스를 붙여 N 개의 단어를 N차원의 벡터로 표현 
  • 말뭉치(BoW) : 단어의 순서를 전혀 고려하지 않고 각 인덱스의 위치에 단어 토큰의 등장 횟수를 기록한 벡터를 만든다. 빈도를 기준으로 해당 문서가 어떤 성격, 주제를 내포하고 있는지 판단하는 작업에 주로 사용된다. bow 기반의 접근에서 가장 좋은 예로 '추천' 이 될 수 있다. 
  • TF-IDF : 단어의 중요도라는 개념을 가중치로 부여하는 기법. 주로 문서의 유사도, 검색 결과의 중요도 결정 등에 많이 사용된다. 
  • 워드임베딩 : 의미를 최대한 담아 단어를 벡터로 바꾸어주는 모델로, 분산표상 (비슷한 분포를 가진 단어의 주변 단어들도 비슷한 의미를 가진다) 의 개념이 차용되었다. 단어간 유사도를 구할 수 있는 방법으로 word2vec 이 대표적이다. 

 

e. 텍스트 분석 

  • 토픽모델링 : LDA, ATM, DTM 
  • 감성분석 
  • 텍스트 분류 
  • 텍스트 군집화 

 

f. 텍스트 시각화 

  • 워드클라우드 
  • 의미 연결망 분석 :  노드와 링크로 단어 개념의 연결상태를 표현 

 

728x90

댓글