👀 논문 읽기를 통해 해결하고 싶은 부분
1. 표본이 작은 데이터에도 토픽모델링과 감성분석을 적용해도 괜찮을까
2. 어플 리뷰 텍스트 데이터는 어떠한 방법론으로 접근하여 어떠한 인사이트를 얻어낼까
3. 앱스토어 리뷰 + 구글 플레이 스토어 리뷰 분석 로직 설계하기
1️⃣ 지역화폐 앱 사용자 리뷰 분석을 통한 마케팅 전략 수립 - '동백전'과 '인천 e음'을 중심으로 (2020.11)
✨ 연구 목적
◾ 지역화폐 앱 사용자 리뷰를 분석하여 지역화폐 사용자의 긍정/부정 요인을 파악하고 이를 바탕으로 마케팅 전략을 수립한다. 지역화폐 담당 공무원들과 마케터들에게 지역화폐에 대한 유의미한 정보를 제공해 줄 수 있다.
✨ 핵심 정리
◾ 앱 사용자 리뷰를 '별점'을 기준으로 긍정과 부정으로 분류하고 각각 워드클라우드, 토픽모델링, 소셜 네트워크 분석을 수행하였다.
① 이론적 배경
✔ 서론 : 지역화폐의 활용성이 지속적으로 증가, 지역화폐에 대한 연구의 수가 적고 사용자 대상의 만족감에 대한 연구가 거의 없기 때문에 사용자 리뷰를 분석하여 긍부정 요인을 파악한다.
✔ 지역화폐의 개념/현황/관련 연구 : 지역화폐에 대한 정책적 연구 방향을 제시한 논문이 대다수였기 때문에, 본 연구에서는 사용자 리뷰를 대상으로 분석하여 마케팅 방안을 제시한다.
✔ 자연어 feature 추출 방법 : TF-IDF
✔ 토픽모델링 : 비구조적인 문서에서 잠재적으로 내포되어 있는 주제를 찾기 위해 키워드를 추출하고 확률적 추론을 하는 알고리즘이다. 문서에서 잠재적으로 가지고 있는 주제를 파악하고 계산하여 유사 키워드를 찾아내는 것
- 연구 예제. 토픽모델링을 통한 블록체인 기술동향 파악
✔ 소셜네트워크분석 : 비정형 데이터를 이용해 키워드 간의 관계와 패턴을 탐색해 시각화 할 수 있다는 장점이 있다. node 는 단어(키워드) 를 의미하고 다양한 연결관계로 표현되는 link 로 표현된다.
② 연구방법
✔ 데이터 수집 : 지자체에서 운영하고 있는 지역화폐 앱 (동백전, 인천e음) 에 대한 고객 리뷰 수집
- 인천 e음 2,227개 리뷰 , 동백전 1,533개 리뷰 수집
- 1,2 점은 부정적 리뷰, 4점,5점은 긍정 리뷰, 3점은 중립 리뷰로 3점 리뷰들은 분석에서 제외하였다.
- R 텍스트 분석 패키지를 이용해 데이터 전처리 진행
✔ 분석방법
(1) 키워드 분석
- 불용어 제거 → 키워드 추출 , 긍정과 부정 리뷰로 나누어 계산
- 키워드에 대한 빈도 분석을 시행
- 추출된 키워드에 대해 TF-IDF 산출 👉 최종 키워드는 빈도값과 TF-IDF 값을 이용해 산정
- 워드클라우드로 결과를 도출
(2) 토픽모델링
◻ LDA
- 출현빈도가 높은 단어의 그룹을 하나의 토픽으로 그룹화하고 확률분포에 따라 토픽이 정해진다.
- 최적의 토픽 개수는 '혼잡도' perplexity 를 이용해 결정한다.
- 토픽별로 추출된 키워드들의 전체적인 의미를 기반으로 토픽을 명명하고 해석한다.
(3) 소셜 네트워크 분석
◻ 텍스트 분석 연구에서 가장 많이 사용되는 시각화 기법이다.
- 단어는 노드 node 로 표현되고 노드의 크기가 커질수록 단어의 출현빈도가 높다는 것을 의미한다.
- 연결선 link 는 단어 간의 관계로 구분하며 선이 굵을수록 밀접한 관계성이 있음을 의미한다.
- 본 연구에서는 단어 간의 동시출현 관계를 관찰하기 위해 동시 출현 빈도 행렬 계산법을 이용한다.
③ 연구결과
✔ 워드클라우드 키워드 분석 : 긍정,부정 리뷰를 분류해서 각각 사용자 만족/불만족 요인 도출
✔ 토픽모델링 : R을 이용해 lda, LDAvis 패키지를 사용하여 최적의 토픽 수 k=7을 도출
- 부정/긍정 리뷰로 나누어 토픽모델링을 적용
- 어플에서 제공하는 기능에 대한 파악 + 기능 및 서비스의 특징점/문제점 파악이 가능
✔ 키워드 네트워크 분석 : 중심성이 높은 키워드 파악, 연결성을 통해 특정 키워드와 관련된 단어들 확인 (맥락 유추)
④ 연구 시사점/한계점
✔ 리뷰 점수를 기준으로 긍부정을 나눈점 : 사용자들이 리뷰를 작성할 때 상반된 내용으로 작성하는 경향이 있기 때문에 정확한 긍부정 분류를 위한 감성분석을 통해 분류 기준을 재설정 할 필요가 있다.
2️⃣ 텍스트마이닝 기법과 ARIMA 모형을 활용한 배달의 민족 앱 리뷰 분석 (2021.9)
✨ 연구 목적
◾ 사용자 리뷰 중 유의미한 서비스 이슈를 탐지하기 위해 텍스트 마이닝 기법과 시계열 이상치 탐지 모형 ARIMA 를 사용한다.
✨ 핵심 정리
◾ 배달의 민족 리뷰 약 7만건을 크롤링하여 수집하고 토픽모델링 기법을 적용하여 5개의 토픽을 추출
◾ 시계열 기반 이상치 탐지 ARIMA 모델을 사용해 리뷰수가 급증한 이상치 일자를 탐지하고 해당 일자를 토픽 별 감성분석 결과를 바탕으로 이슈 요인을 분석
① 서론
✔ 모바일 애플리케이션 사용자 리뷰는 앱에 대한 즉각적인 사용자 경험을 재구성한 사용자들의 직접적인 피드백으로 서비스의 품질을 개선하고 누락된 기능을 보완하는 데 유용한 정보를 제공한다.
✔ 앱 리뷰 분석으로 토픽모델링의 적용 사례가 가장 많지만, 특정한 이슈에 대한 리뷰가 다량으로 발생하는 상황을 탐지하기 위한 연구는 미미하다 → 본 연구에서 토픽 모델링으로 리뷰의 주제를 분류한 후, 리뷰가 급증하는 일자의 리뷰를 따로 추출해 분류된 주제와 감성분석 결과를 바탕으로 인사이트를 얻고자 한다.
② 이론적 배경
✔ 국내 배달 앱 현황 & 연구 동향
✔ 텍스트 마이닝 기법을 활용한 사용자 리뷰 분석
- 최근 앱 리뷰에 대한 국내 텍스트 마이닝 연구는 주로 토픽 분석을 통한 특정 분야의 앱 만족도에 영향을 주는 요인을 조사한 연구가 주를 이루고 있다.
- 양유정 외 4인(2019) 는 단어 임베딩 및 벡터 유사도를 기반으로 게임 앱 리뷰를 자동으로 분류하는 시스템 개발에 관한 연구를 진행한 바 있다.
- 애플리케이션 리뷰 처리의 자동화에 대한 다양한 연구가 진행중이나 주제 분류 단계에만 그치고 있다. 적시에 탐지하는 연구는 미미한 실정이므로 본 연구에서 과도한 리뷰 발생 시기를 탐지하고 토픽을 자동으로 할당하는 방법을 제안한다.
③ 연구방법
✔ 데이터 수집 : 배달의 민족 리뷰 데이터
✔ 데이터 전처리 : 불용어 제거 및 형태소 분석
- mecab 형태소분석기로 명사만을 추출
- 분석에 유의미하지 않은 '배민', '민족', '어플' 등의 단어들은 불용어 처리
- 추출된 명사 수가 5개 미만인 리뷰를 제외하여 15,511 건을 선정
✔ 데이터 분석 : LDA 토픽 모델링, 시계열 이상치 탐지, 감성분석
💨 토픽모델링
- 토픽모델링을 진행한 후 모델이 결과를 얼마나 잘 예측했는지 Perplexity 토픽의 혼잡도를 계산하기 위해 python 의 TEANAPS 패키지를 활용하여 일관성과 응집도 점수를 분석하여 최적의 토픽 개수를 설정했다.
https://github.com/fingeredman/teanaps
GitHub - fingeredman/teanaps: 자연어 처리와 텍스트 분석을 위한 오픈소스 파이썬 라이브러리 입니다.
자연어 처리와 텍스트 분석을 위한 오픈소스 파이썬 라이브러리 입니다. Contribute to fingeredman/teanaps development by creating an account on GitHub.
github.com
https://github.com/fingeredman/advanced-text-mining
GitHub - fingeredman/advanced-text-mining: TEANAPS 라이브러리를 활용한 자연어 처리와 텍스트 분석 방법론
TEANAPS 라이브러리를 활용한 자연어 처리와 텍스트 분석 방법론에 대해 다룹니다. Contribute to fingeredman/advanced-text-mining development by creating an account on GitHub.
github.com
💨 시계열 이상치 탐지
- 과거의 시계열 데이터를 바탕으로 모델을 생성하고 모델이 판단한 신뢰수준을 벗어나는 데이터를 이상치라 판단한다.
- 이상치 형태를 AO, IO, LS, TC 로 구분하는 방법론을 사용한다. AO 는 이상치가 발생 시점에만 영향을 끼치는 이상치, IO 는 이상치가 발생한 뒤에도 지속적으로 영향을 끼치는 이상치, LS 는 이상치가 발생한 뒤 영구적으로 데이터 패턴을 변화시키는 것, TC 는 이상치가 발생한 뒤 점차적으로 줄어드는 형태
- R 의 tsoutliers 패키지를 활용한다.
- Lopez(2016) 연구에서 표본의 크기가 450보다 높을 때 임계값을 4.0을 사용한다는 근거에 입각해 임계값을 4.0으로 설정하여 이상치를 발생시킨 개입 사건을 분석했다.
- 단순한 서비스 이용량 증가로 급증한 경우를 제외하기 위해 가장 많이 발생한 토픽이 전체 리뷰중에서 차지하는 비율이 30% 이상을 초과하는 경우만 이상치로 분류
💨 감성분석
- 사전기반 감성분석, 머신러닝 기반 감성분석이 있는데, 사전기반은 미리 정의된 감정사전을 기반으로 어휘를 판단해 문장 등의 감성 극성을 판단한다. 머신러닝 감성분석은 문맥 안에서 단어의 감성을 판단하고 문맥 내의 감성의 가중치를 종합해 문맥의 감성을 판단한다.
- 연구에서는 TEANAPS 패키지의 KoBERT 모델을 사용하여 감성분석을 진행하고 일자별 평균 부정 리뷰의 비율을 도출한다.
④ 연구결과
✔ 토픽 모델링 : 결제방식, 기업윤리, 이벤트, 고객리뷰, 서비스 오류, 음식점 서비스 라는 토픽 추출
✔ 시계열 이상치 탐지 : 각 토픽별로 이상치를 가진 일자를 발견하여 감성분석을 진행해 부정적 감정을 표출한 토픽에 대해 살펴보았다. 서비스 오류 (네트워크 서비스, 주말 시간대 로딩 지연) , 기업윤리 (개인정보 이슈, 배민 신춘문예 이슈, 수수료 이슈) 등이 존재했다.
⑤ 연구의의
✔ 유의미한 리뷰 선별 : 유의미한 리뷰 분석을 위해 형태소 분석 진행 후 명사의 수를 근거로 유의미한 리뷰를 선별
✔ 리뷰 주제 분류 : 비지도학습으로 모든 리뷰의 주제를 사전에 분류
✔ 시계열 이상치 탐지 분석 : ARIMA 모델을 이용해 리뷰 수가 급증하는 일자를 추출하였고 특정 주제로 분류된 비율이 높은 일자를 선별해 특정 주제가 집중적으로 발생한 일자의 서비스 이슈를 파악
👉 시계열 분석으로 서비스 위험 요소를 적시에 감지 + 토픽모델링을 근거로 이슈를 자동 분류
'3️⃣ Study at Univ > ○ 논문읽기' 카테고리의 다른 글
[DiD, Matching] Popularity or Proximity (0) | 2023.07.02 |
---|---|
Graph Clustering with Graph Neural Networks (2020) (1) | 2022.12.23 |
DeepWalk (1) | 2022.11.03 |
앱 리뷰 분석에 관한 논문 정리 ③ (0) | 2022.06.16 |
앱 리뷰 분석에 관한 논문 정리 ① (0) | 2022.06.07 |
댓글