본문 바로가기
3️⃣ Study at Univ/○ 논문읽기

앱 리뷰 분석에 관한 논문 정리 ①

by isdawell 2022. 6. 7.
728x90

👀 논문 읽기를 통해 해결하고 싶은 부분 

 

1. 표본이 작은 데이터에도 토픽모델링과 감성분석을 적용해도 괜찮을까

2. 어플 리뷰 텍스트 데이터는 어떠한 방법론으로 접근하여 어떠한 인사이트를 얻어낼까 

3. 앱스토어 리뷰 + 구글 플레이 스토어 리뷰 분석 로직 설계하기 

 

 

 


 

 

1️⃣  텍스트 마이닝을 이용한 부동산 서비스 앱 리뷰 분석 (2021.12) 


✨ 연구 목적 

 

◾ 여러 부동산 서비스 앱에 대한 실제 이용자 리뷰를 활용하여 이용자들이 만족하는 요인들을 찾고, 서비스별로 어떤 요인들에 강점 및 약점이 있는지 파악한다.

 

◾ 여러 부동산 앱 (직방, 다방, 네이버 등) 이 제공하는 서비스 현황과 실제 이용자들의 만족도를 분석해 앱 개선점을 제공하는 것을 목적으로 한다. 

 

✨ 핵심 정리 

 

①  데이터 수집 및 텍스트 전처리 

 

✔ 수집 데이터 : 구글 플레이스토어에서 제공되는 부동산 서비스 앱 중 다운로드 횟수 50만회 이상인 앱을 선정하여 리뷰 데이터 수집 

 

✔ 텍스트 전처리 : 한글 이외의 문자 삭제 + konlpy 패키지를 활용해 명사만 추출 + 불용어 제거

 

 

②  토픽 모델링 

 

각 문헌의 주제를 확률적 혼합체로 표현하고 텍스트에 잠재되어 있는 주제들을 찾기 위한 통계적 추론 기법 

 

✔ 이용자들이 앱을 사용하는데 중요하게 생각하는 요인들을 평가하고 분석하기 위해 사용 → 사용자 만족도에 영향을 미치는 요인들 + 해당 서비스 앱 만의 고유 요인을 탐색해 비교 가능 ⭐⭐

 

LDA → 3개의 베이지안 계층으로 구성된 주제 추출 모델로 키워드를 집단으로 표현될 확률을 추정하여 나타낸다

 

 

💨 최적의 토픽 수 탐색 방법 : Topic Coherence 

 

  • 각각의 주제에서 상위 N개 단어를 뽑고, 단어 간의 유사도를 계산해 실제로 해당 주제가 의미론적으로 일치하는 단어들끼리 모여있는지 알 수 있도록 한다.
  • 토픽의 단어 간 유사도가 가장 높은 경우일 때의 k 를 토픽 수로 설정한다.

 

https://radimrehurek.com/gensim/models/coherencemodel.html

 

Gensim: topic modelling for humans

Efficient topic modelling in Python

radimrehurek.com

 

 

https://coredottoday.github.io/2018/09/17/%EB%AA%A8%EB%8D%B8-%ED%8C%8C%EB%9D%BC%EB%AF%B8%ED%84%B0-%ED%8A%9C%EB%8B%9D/

 

LDA 파라미터튜닝을 도전해보자 - 데이터테크 기업 코어닷 투데이의 기술 블로그입니다

LDA 파라미터를 튜닝해보자!

coredottoday.github.io

 

 

https://joyhong.tistory.com/138#topic=0&lambda=1&term=

 

토픽모델링 - LDA (gensim 사용)

토픽모델링 기법 중에 하나인 잠재 디리클레 할당(Latent Dirichlet Allocation, LDA)을 이용하여 토픽이 어떻게 존재하는지 살펴볼 예정이다. 데이터로는 공훈전자사료관에서 제공하는 독립유공자공적

joyhong.tistory.com

 

 

 

💨 Topic 명명하는 방법 

 

  • 토픽모델링 분석 결과에 나타난 키워드를 참고해 기존 연구 방법을 참고하여 혹은 연구자가 도메인 지식에 기반하여 명명한다.

 

③  감성분석 

 

✔ 텍스트에 내재된 감성 및 주관적인 의견을 파악하는 방법

 

✔ 딥러닝 기반의 심층 신경망을 이용한 감성분석 방법론 중 하나인 LSTM 을 이용해 모델을 생성 → 온라인 리뷰를 긍정과 부정의 이진 분류하여 감성 점수를 부여 

 

 

④ 연구의 시사점/한계점  

 

👍 토픽모델링 결과를 기준으로 서비스별, 서비스의 유형별로 리뷰에 감성점수를 부여하였으며 부여한 감성점수를 통해 서비스들의 장점 및 단점 등을 직관적으로 비교할 수 있다. 

 

👎 기간에 따른 구분이 없이 분석하여 앱 만족도의 변화를 살펴보지 못한 점 

 

 

 

 

 

 

 

 

 

2️⃣  앱 이용실적과 앱 리뷰 감성분석의 통합적 모델 구축에 관한 연구  (2019)


✨ 연구 목적 

 

◾ 모바일 앱 실적 변수 간의 관계를 파악하여 예측 가능한 앱 실적 변수의 추정 모델을 구성 

 

◾ 앱 리뷰가 앱 실적 지표에 미치는 영향 검증 

 

👉 모바일 앱을 기획 및 개발하고 모바일 서비스를 진행하고 있는 기업에 필요한 앱 실적과 성장에 관한 관리지표 제시 

 

 

✨ 핵심 정리 

 

◾ 상관분석, 랜덤포레스트 회귀 추정 👉 앱 실적 간의 관계 도출 👉 앱 실적 추정 모델링 수행 

 

◾ 앱 리뷰 데이터 👉 텍스트 마이닝 감성 분석을 사용해 일별 감성 점수를 도출 한 후 다변량 시계열 분석을 사용해 앱 리뷰의 감성점수앱의 일일 설치 횟수에 선행하여 영향을 주는 것을 발견 

 

◾ 기존의 모바일 앱에 대한 선행 연구와 달리, 앱 이용에 대한 시계열 데이터에 대한 구축과 분석에 대한 시도 → 앱 감성분석 점수의 시계열 모형 접근

 

◾ 앱 리뷰에서 제기되는 불만족과 고객 니즈를 검토해 적기에 앱을 개선하고 마케팅 판매 촉진 활동의 시점과 방향성을 도출할 수 있다. 

 

 

👀 기존 모바일 앱의 선행 연구 방식 

 

  • 앱 사용 의도와 영향요인 분석 
  • 이용 동기의 품질 요인 분석 
  • 앱 리뷰에 대한 토픽모델링, 감성분석 진행 
  • 앱 리뷰가 개발사 성과에 미치는 영향 분석 

 

 

① 연구 문제와 접근 방법 

 

앱 사용 패턴은 인구학적 정보와 시간 데이터와 결합하여 유용한 정보를 생산한다. 

 

✔ 문제 1. 앱 스토어의 평균 평점과 앱 사용 실적 지표 간 관계 

 

  • 가설 : 평균 평점은 사용자가 앱을 다운받아 사용할 때 영향을 미칠 것이다. 
  • 검증 방법 :
    • 다른 앱 실적과의 상관관계 분석
    • 평균평점을 목표변수로, 다른 앱 실적 지표를 설명변수로 하여 유효한 추정 모델을 구성할 수 있는지 검증
    • 역으로 다른 앱 실적 변수 추정 시 평균 평점의 설명변수 중요도를 검증 

 

✔ 문제 2.  앱 실적지표 간에 관련성이 높은 지표 추출

 

  • 앱 실적 지표 : 일일활성사용자수(DAU), 월간활성사용자수(MAU), 앱 이용자의 실질적 앱 사용을 의미하는 고착도 (DAU/MAU), 일일 평균 실행횟수 (activities) 
  • 검증 방법 :
    •  앱 실적지표 간의  상관관계 분석
    • 특정 앱 실적 지표를 다른 앱 실적 지표로 추정 

 

✔ 문제 3.  앱 리뷰가 앱 실적에 영향을 미치는가 

 

  • 가정 : 사용자가 앱을 내려받아 설치하기 전에 앱 리뷰를 읽어볼 것이라는 가정 하에 앱 리뷰가 앱 실적에 영향을 줄 수 있을 것으로 가정한다. 
  • 검증방법 : 감성분석 + 다변량 시계열 분석 을 통해 앱 리뷰의 다양한 감성점수가 특정 앱 실적 지표에 시계열적으로 선행하는지 탐구한다. 

 

②  선행연구 

 

✔ 모바일 앱 연구 

 

◽ 연구 방식 

 

  • 모바일 앱의 유용성, 신뢰, 실용주의적 동기, 쾌락주의적 동기, 사회적 관계 등의 변수가 사용 의도, 지속적 사용 의도에 어떤 영향을 미치는가에 집중 
  • 대중들이 어떤 모바일 앱을 좀 더 빈번히 사용하는지, 어떤 서비스가 사용자의 지속적 사용을 획득하는가에 집중 
  • 기업 전략에 부합하는 앱 개발과 서비스 전략을 수립하고 어떤 지표를 통해 프로모션과 수익증대를 점검할지 성장과 수익화를 위한 지표설정과 관리체계를 확립해야 한다. 

 

◽ 주목하는 2가지 지표 

 

  • 앱스토어의 앱 평점 : 앱의 품질과 유용성을 측정해 점수화
  • 앱 리뷰 : 감성분석을 사용해 사용자의 긍정 및 부정의 감성을 점수화하여 앱 평점을 보완 

 

✔ 앱 평가와 기업의 수익에 관한 연구 

 

  • 고객의 사용 패턴좌절 포인트를 발견해 서비스 기획의 인사이트와 개선점으로 연결하려는 노력 
  • 앱의 사용자 평가는 '사용성 평가' 👉 앱이 편리한지, 배우기 편리한지, 기대 만족도에 부응하는지 
  • 사용자가 앱 사용을 중지하고 왜 이탈하는지, 지속해서 사용하게 하는 요인은 무엇인지 조사 👉 앱소지율의 촉진 요인은 증가시키고 저해 요인은 제거 
  • 앱 소비의 외부적 환경요인 (단말기 성능, 네트워크 환경) 들은 완벽하게 통제하기 어려운 부분들이다. 

 

✔ 앱 리뷰와 감성분석 

 

  • 부정적 리뷰에 대한 대응이 늦어지는 경우엔 사용자는 앱을 다시 사용하지 않거나, 삭제해버릴 수 있기 때문에 앱 리뷰는 앱 서비스 기업 입장에서 서비스의 운명을 좌우하는 고객의 중요한 피드백이다. 
  • 앱스토어 리뷰의 긍부정 감성분석을 통해 앱 평가를 보완할 수도 있고, 토픽모델링을 사용해 사용자가 어떤 이야기를 하고있고, 불만족과 만족 요인은 무엇이고, 사용자가 원하는 추가 기능은 무엇인지 추출할 수 있다. 
  • 앱리뷰를 사용해 앱의 퍼포먼스를 측정하고 모니터링 하는 것은 모바일 앱 서비스 전략과 성장을 위해 중요한 작업이다. 앱 실적 모니터링이 CRM (고객관계관리) 수준이 될 수 있도록 시계열적으로 탐색한다. 

 

 

③  방법론 

 

✔ 데이터와 변수 

 

◾ 데이터 : 앱 실적 자료를 수집하고 정리하는 기업인 Fuller 사의 자료를 활용하여, 한국 구글플레이 스토어의 5389개의 앱을 대상으로 분석을 진행 

 

 

◾ 앱 실적변수 

 

  • 앱스토어에서 서비스를 하는 기업들은 성장을 위해 반드시 관리해야할 변수들이다. 
  • 앱 실적변수와 감성점수 간 관계는 앱과 서비스의 성장과 마케팅의 전략 방향을 수립하기 위해 반드시 참조해야하는 변수이다. 

 

출처 : 논문 표2 

 

 

✔ 텍스트 마이닝과 감성분석 

 

  • 구글 플레이 스토어 앱의 한글 리뷰를 번역기에 의해 영어로 번역한 후 분석을 시도한다. 
  • 객관성이 확보된 영문 감성분석 사전 LIWC 2015를 사용한다. 

 

✔ 다변량 시계열 분석

 

  •  앱 실적 시계열 자료와 기간별 앱 리뷰 감성점수로 도출한 감성점수의 시계열 자료 간의 선행 후행 관계와 장단기 관련성을 분석한다. 
  • VAR 이나 VEC 모형을 사용해 분석하는데, 공적분이 존재하면 VEC를 선택한다. 
  • VAR 모형은 회귀분석의 특징과 시계열 분석의 특징을 결합한 모형으로써 변수 간의 상관관계와 인과관계를 추정할 수 있는 모형이다. 

 

 

④ 연구결과 

 

✔ 앱 실적변수 간 상관분석 

 

◽ 평균 평점과 다른 실적변수와의 상관관계는 높지 않았음 

실적변수 간 관계성에서는 양의 상관관계성이 다수 발견됨 

 

 

✔ 앱 실적변수 예측 

 

⭐ main model : 랜덤포레스트 회귀 추정 

 

◽ 평균 평점을 목표변수로 했을 때 다른 앱 실적 지표가 평균평점을 잘 예측하는가 

◽ 다른 앱 실적 지표를 목표변수로 사용할 때 평균 평점이 중요 설명변수로 사용되는가 

◽ 앱 실적 지표 중 하나의 변수를 목표변수로 설정해, 설명력이 높은 모델은 어떤 앱 실적지표가 목표변수일 때인지를 탐구 

 

👉 파이썬 사이킷런의 variance score 로 모델 설명력을 검토 (1에 가까울수록 좋은 값) 

👉 랜덤포레스트의 feature importance 기능으로 중요 영향 변수 확인 

 

 

✔ 감성점수와 앱 실적변수를 통합한 다변량 시계열 분석 

 

◽ 다변량 시계열 분석을 사용해 변수 간 선후행 관계를 분석 (일별 분석을 진행) 

◽ 앱을 설치하고자할 때 사용자가 리뷰를 읽을 것이라는 사고하에, 앱 감성리뷰의 일별 점수와 앱 일별 설치 횟수를 비교분석 👉 이 연구에선 감성 변수 중 achieve 와 일일 설치회수의 관계를 순서대로 분석함 

 

1) 최적 시차 Lag 를 도출한다. AIC, HPIC, SBIC 에 의해 결정한다. 

2) 최적 시차 Lag = 1 을 도출 

3) VAR 모형 적합을 통해 1시차 전 achieve 변수가 설치횟수에 통계적으로 유의한 영향을 주는 것을 확인 , 반면 1시차전 설치횟수가 achieve 변수에 통계적으로 유의한 영향을 주지 못함을 발견 

4) 인과관계 검증, 정규성, 자기상관성을 검증 👉 achieve 감성점수가 원인이고 설치자수가 결과로 검증됨 

 

 

출처 : 논문 표12

 

 

⑤ 연구 시사점

 

👀 비정형 데이터와 정형 데이터의 통합 과정 

👀 머신러닝 기법과 시계열 기법의 통합 사용 

 

 

 

 

 

 

 

 

 

 

728x90

댓글