본문 바로가기
2️⃣ Study/▢ 필사 | 프로젝트

[kaggle] 필사정리 Note_3

by isdawell 2022. 3. 11.
728x90

필사 노트 링크  : https://colab.research.google.com/drive/1D90kqrX5WMTHxEqo5z1E95f1b3b7nkOn?usp=sharing

 

[kaggle/NLP] Coronavirus tweets NLP - Text Classification.ipynb

Colaboratory notebook

colab.research.google.com

🟨 도메인

: Media (SNS) _ twitter 

: NLP _ text classification 감정분류 

 

🟨 데이터셋 및 분석에 사용된 칼럼 

코로나 바이러스 관련 트윗 내용이 담긴 데이터셋 

  • UserName
  • ScreenName
  • Location
  • Tweet At
  • Original Tweet
  • Sentiment : Positive, Negative, Other

🟨 캐글 노트북 키워드 

1. EDA & Visualization 

 - 종속변수 분포 확인

 - 트윗 글자 길이 분포 시각화 

 - 사용한 단어 개수 시각화 

 - 평균 사용 단어 길이 시각화

 - 불용어 빈도수 시각화 

 - 특수기호 빈도수 시각화 

 - 빈번하게 사용된 해시태그 시각화 

 - 빈번하게 언급된 mention 시각화 

 

2. 전처리 

 - Url, html 등 불필요한 부분 제거 

 - 소문자로 변환 

 - 불용어 및 특수기호 제거

 - 트위터 트윗 내용의 특징 : mention, hashtag 제거 

 - 공백 제거 

 

3. 워드클라우드 시각화 

 

4. N-gram 시각화 

  - Unigram , biagram, tri-gram 

 

5. ML classification model 

  - 벡터화 : TF-IDF 

  - Linear SVC , MultinomialNB, RandomForest 실험 

  - cross validation 👉 Linear CV 의 성능이 가장 높았음 👉 confusion matrix 시각화 

 

🟨 배운점 및 인사이트 

 

📌 N-gram 의 사용 이유 (at 언어를 학습하는 모델을 만드는데 필요한 본질적인 포인트)  

728x90

댓글