👀 논문 읽기를 통해 해결하고 싶은 부분
1. 표본이 작은 데이터에도 토픽모델링과 감성분석을 적용해도 괜찮을까
2. 어플 리뷰 텍스트 데이터는 어떠한 방법론으로 접근하여 어떠한 인사이트를 얻어낼까
3. 앱스토어 리뷰 + 구글 플레이 스토어 리뷰 분석 로직 설계하기
1️⃣ 텍스트 마이닝을 이용한 부동산 서비스 앱 리뷰 분석 (2021.12)
✨ 연구 목적
◾ 여러 부동산 서비스 앱에 대한 실제 이용자 리뷰를 활용하여 이용자들이 만족하는 요인들을 찾고, 서비스별로 어떤 요인들에 강점 및 약점이 있는지 파악한다.
◾ 여러 부동산 앱 (직방, 다방, 네이버 등) 이 제공하는 서비스 현황과 실제 이용자들의 만족도를 분석해 앱 개선점을 제공하는 것을 목적으로 한다.
✨ 핵심 정리
① 데이터 수집 및 텍스트 전처리
✔ 수집 데이터 : 구글 플레이스토어에서 제공되는 부동산 서비스 앱 중 다운로드 횟수 50만회 이상인 앱을 선정하여 리뷰 데이터 수집
✔ 텍스트 전처리 : 한글 이외의 문자 삭제 + konlpy 패키지를 활용해 명사만 추출 + 불용어 제거
② 토픽 모델링
✔ 각 문헌의 주제를 확률적 혼합체로 표현하고 텍스트에 잠재되어 있는 주제들을 찾기 위한 통계적 추론 기법
✔ 이용자들이 앱을 사용하는데 중요하게 생각하는 요인들을 평가하고 분석하기 위해 사용 → 사용자 만족도에 영향을 미치는 요인들 + 해당 서비스 앱 만의 고유 요인을 탐색해 비교 가능 ⭐⭐
✔ LDA → 3개의 베이지안 계층으로 구성된 주제 추출 모델로 키워드를 집단으로 표현될 확률을 추정하여 나타낸다
💨 최적의 토픽 수 탐색 방법 : Topic Coherence
- 각각의 주제에서 상위 N개 단어를 뽑고, 단어 간의 유사도를 계산해 실제로 해당 주제가 의미론적으로 일치하는 단어들끼리 모여있는지 알 수 있도록 한다.
- 토픽의 단어 간 유사도가 가장 높은 경우일 때의 k 를 토픽 수로 설정한다.
➕ https://radimrehurek.com/gensim/models/coherencemodel.html
Gensim: topic modelling for humans
Efficient topic modelling in Python
radimrehurek.com
LDA 파라미터튜닝을 도전해보자 - 데이터테크 기업 코어닷 투데이의 기술 블로그입니다
LDA 파라미터를 튜닝해보자!
coredottoday.github.io
➕ https://joyhong.tistory.com/138#topic=0&lambda=1&term=
토픽모델링 - LDA (gensim 사용)
토픽모델링 기법 중에 하나인 잠재 디리클레 할당(Latent Dirichlet Allocation, LDA)을 이용하여 토픽이 어떻게 존재하는지 살펴볼 예정이다. 데이터로는 공훈전자사료관에서 제공하는 독립유공자공적
joyhong.tistory.com
💨 Topic 명명하는 방법
- 토픽모델링 분석 결과에 나타난 키워드를 참고해 기존 연구 방법을 참고하여 혹은 연구자가 도메인 지식에 기반하여 명명한다.
③ 감성분석
✔ 텍스트에 내재된 감성 및 주관적인 의견을 파악하는 방법
✔ 딥러닝 기반의 심층 신경망을 이용한 감성분석 방법론 중 하나인 LSTM 을 이용해 모델을 생성 → 온라인 리뷰를 긍정과 부정의 이진 분류하여 감성 점수를 부여
④ 연구의 시사점/한계점
👍 토픽모델링 결과를 기준으로 서비스별, 서비스의 유형별로 리뷰에 감성점수를 부여하였으며 부여한 감성점수를 통해 서비스들의 장점 및 단점 등을 직관적으로 비교할 수 있다.
👎 기간에 따른 구분이 없이 분석하여 앱 만족도의 변화를 살펴보지 못한 점
2️⃣ 앱 이용실적과 앱 리뷰 감성분석의 통합적 모델 구축에 관한 연구 (2019)
✨ 연구 목적
◾ 모바일 앱 실적 변수 간의 관계를 파악하여 예측 가능한 앱 실적 변수의 추정 모델을 구성
◾ 앱 리뷰가 앱 실적 지표에 미치는 영향 검증
👉 모바일 앱을 기획 및 개발하고 모바일 서비스를 진행하고 있는 기업에 필요한 앱 실적과 성장에 관한 관리지표 제시
✨ 핵심 정리
◾ 상관분석, 랜덤포레스트 회귀 추정 👉 앱 실적 간의 관계 도출 👉 앱 실적 추정 모델링 수행
◾ 앱 리뷰 데이터 👉 텍스트 마이닝 감성 분석을 사용해 일별 감성 점수를 도출 한 후 다변량 시계열 분석을 사용해 앱 리뷰의 감성점수가 앱의 일일 설치 횟수에 선행하여 영향을 주는 것을 발견
◾ 기존의 모바일 앱에 대한 선행 연구와 달리, 앱 이용에 대한 시계열 데이터에 대한 구축과 분석에 대한 시도 → 앱 감성분석 점수의 시계열 모형 접근
◾ 앱 리뷰에서 제기되는 불만족과 고객 니즈를 검토해 적기에 앱을 개선하고 마케팅 판매 촉진 활동의 시점과 방향성을 도출할 수 있다.
👀 기존 모바일 앱의 선행 연구 방식
- 앱 사용 의도와 영향요인 분석
- 이용 동기의 품질 요인 분석
- 앱 리뷰에 대한 토픽모델링, 감성분석 진행
- 앱 리뷰가 개발사 성과에 미치는 영향 분석
① 연구 문제와 접근 방법
✔ 앱 사용 패턴은 인구학적 정보와 시간 데이터와 결합하여 유용한 정보를 생산한다.
✔ 문제 1. 앱 스토어의 평균 평점과 앱 사용 실적 지표 간 관계
- 가설 : 평균 평점은 사용자가 앱을 다운받아 사용할 때 영향을 미칠 것이다.
- 검증 방법 :
- 다른 앱 실적과의 상관관계 분석
- 평균평점을 목표변수로, 다른 앱 실적 지표를 설명변수로 하여 유효한 추정 모델을 구성할 수 있는지 검증
- 역으로 다른 앱 실적 변수 추정 시 평균 평점의 설명변수 중요도를 검증
✔ 문제 2. 앱 실적지표 간에 관련성이 높은 지표 추출
- 앱 실적 지표 : 일일활성사용자수(DAU), 월간활성사용자수(MAU), 앱 이용자의 실질적 앱 사용을 의미하는 고착도 (DAU/MAU), 일일 평균 실행횟수 (activities)
- 검증 방법 :
- 앱 실적지표 간의 상관관계 분석
- 특정 앱 실적 지표를 다른 앱 실적 지표로 추정
✔ 문제 3. 앱 리뷰가 앱 실적에 영향을 미치는가
- 가정 : 사용자가 앱을 내려받아 설치하기 전에 앱 리뷰를 읽어볼 것이라는 가정 하에 앱 리뷰가 앱 실적에 영향을 줄 수 있을 것으로 가정한다.
- 검증방법 : 감성분석 + 다변량 시계열 분석 을 통해 앱 리뷰의 다양한 감성점수가 특정 앱 실적 지표에 시계열적으로 선행하는지 탐구한다.
② 선행연구
✔ 모바일 앱 연구
◽ 연구 방식
- 모바일 앱의 유용성, 신뢰, 실용주의적 동기, 쾌락주의적 동기, 사회적 관계 등의 변수가 사용 의도, 지속적 사용 의도에 어떤 영향을 미치는가에 집중
- 대중들이 어떤 모바일 앱을 좀 더 빈번히 사용하는지, 어떤 서비스가 사용자의 지속적 사용을 획득하는가에 집중
- 기업 전략에 부합하는 앱 개발과 서비스 전략을 수립하고 어떤 지표를 통해 프로모션과 수익증대를 점검할지 성장과 수익화를 위한 지표설정과 관리체계를 확립해야 한다.
◽ 주목하는 2가지 지표
- 앱스토어의 앱 평점 : 앱의 품질과 유용성을 측정해 점수화
- 앱 리뷰 : 감성분석을 사용해 사용자의 긍정 및 부정의 감성을 점수화하여 앱 평점을 보완
✔ 앱 평가와 기업의 수익에 관한 연구
- 고객의 사용 패턴과 좌절 포인트를 발견해 서비스 기획의 인사이트와 개선점으로 연결하려는 노력
- 앱의 사용자 평가는 '사용성 평가' 👉 앱이 편리한지, 배우기 편리한지, 기대 만족도에 부응하는지
- 사용자가 앱 사용을 중지하고 왜 이탈하는지, 지속해서 사용하게 하는 요인은 무엇인지 조사 👉 앱소지율의 촉진 요인은 증가시키고 저해 요인은 제거
- 앱 소비의 외부적 환경요인 (단말기 성능, 네트워크 환경) 들은 완벽하게 통제하기 어려운 부분들이다.
✔ 앱 리뷰와 감성분석
- 부정적 리뷰에 대한 대응이 늦어지는 경우엔 사용자는 앱을 다시 사용하지 않거나, 삭제해버릴 수 있기 때문에 앱 리뷰는 앱 서비스 기업 입장에서 서비스의 운명을 좌우하는 고객의 중요한 피드백이다.
- 앱스토어 리뷰의 긍부정 감성분석을 통해 앱 평가를 보완할 수도 있고, 토픽모델링을 사용해 사용자가 어떤 이야기를 하고있고, 불만족과 만족 요인은 무엇이고, 사용자가 원하는 추가 기능은 무엇인지 추출할 수 있다.
- 앱리뷰를 사용해 앱의 퍼포먼스를 측정하고 모니터링 하는 것은 모바일 앱 서비스 전략과 성장을 위해 중요한 작업이다. 앱 실적 모니터링이 CRM (고객관계관리) 수준이 될 수 있도록 시계열적으로 탐색한다.
③ 방법론
✔ 데이터와 변수
◾ 데이터 : 앱 실적 자료를 수집하고 정리하는 기업인 Fuller 사의 자료를 활용하여, 한국 구글플레이 스토어의 5389개의 앱을 대상으로 분석을 진행
◾ 앱 실적변수
- 앱스토어에서 서비스를 하는 기업들은 성장을 위해 반드시 관리해야할 변수들이다.
- 앱 실적변수와 감성점수 간 관계는 앱과 서비스의 성장과 마케팅의 전략 방향을 수립하기 위해 반드시 참조해야하는 변수이다.


✔ 텍스트 마이닝과 감성분석
- 구글 플레이 스토어 앱의 한글 리뷰를 번역기에 의해 영어로 번역한 후 분석을 시도한다.
- 객관성이 확보된 영문 감성분석 사전 LIWC 2015를 사용한다.
✔ 다변량 시계열 분석
- 앱 실적 시계열 자료와 기간별 앱 리뷰 감성점수로 도출한 감성점수의 시계열 자료 간의 선행 후행 관계와 장단기 관련성을 분석한다.
- VAR 이나 VEC 모형을 사용해 분석하는데, 공적분이 존재하면 VEC를 선택한다.
- VAR 모형은 회귀분석의 특징과 시계열 분석의 특징을 결합한 모형으로써 변수 간의 상관관계와 인과관계를 추정할 수 있는 모형이다.
④ 연구결과
✔ 앱 실적변수 간 상관분석
◽ 평균 평점과 다른 실적변수와의 상관관계는 높지 않았음
◽ 실적변수 간 관계성에서는 양의 상관관계성이 다수 발견됨
✔ 앱 실적변수 예측
⭐ main model : 랜덤포레스트 회귀 추정
◽ 평균 평점을 목표변수로 했을 때 다른 앱 실적 지표가 평균평점을 잘 예측하는가
◽ 다른 앱 실적 지표를 목표변수로 사용할 때 평균 평점이 중요 설명변수로 사용되는가
◽ 앱 실적 지표 중 하나의 변수를 목표변수로 설정해, 설명력이 높은 모델은 어떤 앱 실적지표가 목표변수일 때인지를 탐구
👉 파이썬 사이킷런의 variance score 로 모델 설명력을 검토 (1에 가까울수록 좋은 값)
👉 랜덤포레스트의 feature importance 기능으로 중요 영향 변수 확인
✔ 감성점수와 앱 실적변수를 통합한 다변량 시계열 분석
◽ 다변량 시계열 분석을 사용해 변수 간 선후행 관계를 분석 (일별 분석을 진행)
◽ 앱을 설치하고자할 때 사용자가 리뷰를 읽을 것이라는 사고하에, 앱 감성리뷰의 일별 점수와 앱 일별 설치 횟수를 비교분석 👉 이 연구에선 감성 변수 중 achieve 와 일일 설치회수의 관계를 순서대로 분석함
1) 최적 시차 Lag 를 도출한다. AIC, HPIC, SBIC 에 의해 결정한다.
2) 최적 시차 Lag = 1 을 도출
3) VAR 모형 적합을 통해 1시차 전 achieve 변수가 설치횟수에 통계적으로 유의한 영향을 주는 것을 확인 , 반면 1시차전 설치횟수가 achieve 변수에 통계적으로 유의한 영향을 주지 못함을 발견
4) 인과관계 검증, 정규성, 자기상관성을 검증 👉 achieve 감성점수가 원인이고 설치자수가 결과로 검증됨

⑤ 연구 시사점
👀 비정형 데이터와 정형 데이터의 통합 과정
👀 머신러닝 기법과 시계열 기법의 통합 사용
'3️⃣ Study at Univ > ○ 논문읽기' 카테고리의 다른 글
[DiD, Matching] Popularity or Proximity (0) | 2023.07.02 |
---|---|
Graph Clustering with Graph Neural Networks (2020) (1) | 2022.12.23 |
DeepWalk (1) | 2022.11.03 |
앱 리뷰 분석에 관한 논문 정리 ③ (0) | 2022.06.16 |
앱 리뷰 분석에 관한 논문 정리 ② (0) | 2022.06.15 |
댓글