본문 바로가기
2️⃣ Study/▢ 필사 | 프로젝트

[kaggle] 필사 정리 Note_4

by isdawell 2022. 3. 11.
728x90

필사 노트 링크  : https://colab.research.google.com/drive/1ZW_iawqPC_FL8QpVyBO3EentvtUz2-PQ?usp=sharing 

 

[kaggle/NLP] Embedding.ipynb

Colaboratory notebook

colab.research.google.com

🟨 도메인

: Media (SNS) _ twitter 

: NLP _ Embedding 

🟨 데이터셋 및 분석에 사용된 칼럼 

항공사 서비스에 대한 만족후기 글 관련 데이터 셋 (목적 : 감정분류) 

  • tweet_id
  • text
  • airline_sentiment 

🟨 캐글 노트북 키워드

단어를 벡터화 하는 방법들 , 장단점 

1. one-hot encoding 

2. BoW

3. Bow of N-gram 

4. TF-IDF

5. Word Embedding 

  - 5.1 Word2vec 

  - 5.2 Glove 

  - 5.3 FastText 

  - 5.4 Visualizeing embedding 

 

🟨 배운점 및 인사이트 

📌 단어를 벡터로 표현하는 방법론들, 각각의 장단점에 대해 개괄적으로 배움 

📌 감정 분석에 대한 방법론들 (어휘 사전 구축, ML 접근 방식, NN 접근방식) 을 배움 : 생각보다 국어/문법 관련 도메인 지식이 중요하구나를 깨달음 

728x90

댓글