필사 노트 링크 : https://colab.research.google.com/drive/1D90kqrX5WMTHxEqo5z1E95f1b3b7nkOn?usp=sharing
🟨 도메인
: Media (SNS) _ twitter
: NLP _ text classification 감정분류
🟨 데이터셋 및 분석에 사용된 칼럼
코로나 바이러스 관련 트윗 내용이 담긴 데이터셋
- UserName
- ScreenName
- Location
- Tweet At
- Original Tweet
- Sentiment : Positive, Negative, Other
🟨 캐글 노트북 키워드
1. EDA & Visualization
- 종속변수 분포 확인
- 트윗 글자 길이 분포 시각화
- 사용한 단어 개수 시각화
- 평균 사용 단어 길이 시각화
- 불용어 빈도수 시각화
- 특수기호 빈도수 시각화
- 빈번하게 사용된 해시태그 시각화
- 빈번하게 언급된 mention 시각화
2. 전처리
- Url, html 등 불필요한 부분 제거
- 소문자로 변환
- 불용어 및 특수기호 제거
- 트위터 트윗 내용의 특징 : mention, hashtag 제거
- 공백 제거
3. 워드클라우드 시각화
4. N-gram 시각화
- Unigram , biagram, tri-gram
5. ML classification model
- 벡터화 : TF-IDF
- Linear SVC , MultinomialNB, RandomForest 실험
- cross validation 👉 Linear CV 의 성능이 가장 높았음 👉 confusion matrix 시각화
🟨 배운점 및 인사이트
📌 N-gram 의 사용 이유 (at 언어를 학습하는 모델을 만드는데 필요한 본질적인 포인트)
'2️⃣ Study > ▢ 필사 | 프로젝트' 카테고리의 다른 글
[kaggle] 2021년 여름방학 필사 스터디 파일 (0) | 2022.04.06 |
---|---|
[kaggle] 필사정리 Note_5 (0) | 2022.04.02 |
[kaggle] 필사 정리 Note_4 (0) | 2022.03.11 |
[kaggle] 필사정리 Note_2 (0) | 2022.02.18 |
[kaggle] 필사정리 Note 1 (0) | 2022.02.14 |
댓글