728x90
📌 5장. 비정형 데이터 분석 기법
1️⃣ 텍스트 마이닝
(1) 개요
- 텍스트를 구조화해 그 데이터에서 패턴을 도출한 후 결과를 평가 및 해석
- 다양한 문서 데이터로부터 텍스트를 획득한 후 문서별 단어의 행렬을 만들어 분석을 수행
(2) 기능
- 문서분류 : 사전에 분류정보를 알고 있는 상태에서 문서의 내용에 따라 분류하는 것
- 문서군집 : 성격이 비슷한 문서끼리 같은 군집으로 묶어주는 방법으로 사전에 분류 정보를 모르는 상태에서 수행하는 비지도 학습 방식
- 정보추출 : 문서에서 중요한 의미를 지닌 정보를 추출
(3) 과정
a. 수집
- 텍스트 저장소에서 가져오거나 웹페이지 HTML 소스에서 필요한 텍스트 정보를 크롤링
b. 코퍼스
- 데이터의 정제, 통합, 선택, 변환의 과정을 거친 후 구조화된 텍스트 데이터로 더 이상 추가적인 절차없이 데이터마이닝 알고리즘 실험에 활용될 수 있는 상태
- R의 텍스트마이닝 패키지 'tm' 에서 문서를 관리하는 기본구조
c. 텍스트 전처리
- 토큰화 : 단어 토큰화 (특수기호 기준), 어절 토큰화 (띄어쓰기 기준) , 형태소 토큰화 (한국어 토큰화 방식), 품사태깅
- 불용어 처리 : 영어는 nltk 패키지 내에서 미리 정의됨, 한국어는 기준을 정해서 직접 정의한 불용어 사전으로 제거
- 정제/정규화 : 정제는 노이즈 데이터를 제거하는 것이고 정규화는 대소문자 통일 등 표현방법이 다른 단어들을 통합시켜 같은 단어로 만들어주는 것이다. 정규표현식을 활용하여 한번에 글자들을 제거할 수 있다.
- 어간추출, 어근추출 : 어간추출이 어근 추출보다 섬세함이 떨어져 사전에 없는 단어의 결과를 얻을 확률이 높다.
d. 텍스트 인코딩
- 원핫인코딩 : 각 단어에 고유한 정수 인덱스를 붙여 N 개의 단어를 N차원의 벡터로 표현
- 말뭉치(BoW) : 단어의 순서를 전혀 고려하지 않고 각 인덱스의 위치에 단어 토큰의 등장 횟수를 기록한 벡터를 만든다. 빈도를 기준으로 해당 문서가 어떤 성격, 주제를 내포하고 있는지 판단하는 작업에 주로 사용된다. bow 기반의 접근에서 가장 좋은 예로 '추천' 이 될 수 있다.
- TF-IDF : 단어의 중요도라는 개념을 가중치로 부여하는 기법. 주로 문서의 유사도, 검색 결과의 중요도 결정 등에 많이 사용된다.
- 워드임베딩 : 의미를 최대한 담아 단어를 벡터로 바꾸어주는 모델로, 분산표상 (비슷한 분포를 가진 단어의 주변 단어들도 비슷한 의미를 가진다) 의 개념이 차용되었다. 단어간 유사도를 구할 수 있는 방법으로 word2vec 이 대표적이다.
e. 텍스트 분석
- 토픽모델링 : LDA, ATM, DTM
- 감성분석
- 텍스트 분류
- 텍스트 군집화
f. 텍스트 시각화
- 워드클라우드
- 의미 연결망 분석 : 노드와 링크로 단어 개념의 연결상태를 표현
728x90
'2️⃣ Study > ▢ 자격증 | 교육' 카테고리의 다른 글
[GA4] 패스트캠퍼스 GA4 파헤치기 교육 후기 (0) | 2023.01.20 |
---|---|
[자격증] AIFB AICE Associate 합격 후기 (10) | 2022.08.02 |
[빅분기] 3과목 빅데이터 모델링 : 4장 딥러닝 (0) | 2022.04.06 |
[빅분기] 3과목 빅데이터 모델링 : 2장 통계분석 기법_part2 (0) | 2022.04.03 |
[빅분기] 3과목 빅데이터 모델링 : 2장 통계분석 기법_part2 (0) | 2022.03.31 |
댓글