[kaggle] 필사정리 Note

728x90

필사 노트 링크 : https://colab.research.google.com/drive/1D90kqrX5WMTHxEqo5z1E95f1b3b7nkOn?usp=sharing

[kaggle/NLP] Coronavirus tweets NLP - Text Classification.ipynb

Colaboratory notebook

colab.research.google.com

🟨 도메인

: Media (SNS) _ twitter

: NLP _ text classification 감정분류

🟨 데이터셋 및 분석에 사용된 칼럼

코로나 바이러스 관련 트윗 내용이 담긴 데이터셋

UserName
ScreenName
Location
Tweet At
Original Tweet
Sentiment : Positive, Negative, Other

🟨 캐글 노트북 키워드

1. EDA & Visualization

- 종속변수 분포 확인

- 트윗 글자 길이 분포 시각화

- 사용한 단어 개수 시각화

- 평균 사용 단어 길이 시각화

- 불용어 빈도수 시각화

- 특수기호 빈도수 시각화

- 빈번하게 사용된 해시태그 시각화

- 빈번하게 언급된 mention 시각화

2. 전처리

- Url, html 등 불필요한 부분 제거

- 소문자로 변환

- 불용어 및 특수기호 제거

- 트위터 트윗 내용의 특징 : mention, hashtag 제거

- 공백 제거

3. 워드클라우드 시각화

4. N-gram 시각화

- Unigram , biagram, tri-gram

5. ML classification model

- 벡터화 : TF-IDF

- Linear SVC , MultinomialNB, RandomForest 실험

- cross validation 👉 Linear CV 의 성능이 가장 높았음 👉 confusion matrix 시각화

🟨 배운점 및 인사이트

📌 N-gram 의 사용 이유 (at 언어를 학습하는 모델을 만드는데 필요한 본질적인 포인트)

728x90

'2️⃣ Study > ▢ 필사 | 프로젝트' 카테고리의 다른 글

[kaggle] 2021년 여름방학 필사 스터디 파일 (0)	2022.04.06
[kaggle] 필사정리 Note_5 (0)	2022.04.02
[kaggle] 필사 정리 Note_4 (0)	2022.03.11
[kaggle] 필사정리 Note_2 (0)	2022.02.18
[kaggle] 필사정리 Note 1 (0)	2022.02.14

Getting better

[kaggle] 필사정리 Note_3

🟨 도메인

🟨 데이터셋 및 분석에 사용된 칼럼

🟨 캐글 노트북 키워드

'2️⃣ Study > ▢ 필사 | 프로젝트' 카테고리의 다른 글

댓글

티스토리툴바

[kaggle] 필사정리 Note_3

🟨 도메인

🟨 데이터셋 및 분석에 사용된 칼럼

🟨 캐글 노트북 키워드

'2️⃣ Study > ▢ 필사 | 프로젝트' 카테고리의 다른 글

관련글

댓글

티스토리툴바