728x90
필사 노트 링크 : https://colab.research.google.com/drive/1ZW_iawqPC_FL8QpVyBO3EentvtUz2-PQ?usp=sharing
🟨 도메인
: Media (SNS) _ twitter
: NLP _ Embedding
🟨 데이터셋 및 분석에 사용된 칼럼
항공사 서비스에 대한 만족후기 글 관련 데이터 셋 (목적 : 감정분류)
- tweet_id
- text
- airline_sentiment
🟨 캐글 노트북 키워드
단어를 벡터화 하는 방법들 , 장단점
1. one-hot encoding
2. BoW
3. Bow of N-gram
4. TF-IDF
5. Word Embedding
- 5.1 Word2vec
- 5.2 Glove
- 5.3 FastText
- 5.4 Visualizeing embedding
🟨 배운점 및 인사이트
📌 단어를 벡터로 표현하는 방법론들, 각각의 장단점에 대해 개괄적으로 배움
📌 감정 분석에 대한 방법론들 (어휘 사전 구축, ML 접근 방식, NN 접근방식) 을 배움 : 생각보다 국어/문법 관련 도메인 지식이 중요하구나를 깨달음
728x90
'2️⃣ Study > ▢ 필사 | 프로젝트' 카테고리의 다른 글
[kaggle] 2021년 여름방학 필사 스터디 파일 (0) | 2022.04.06 |
---|---|
[kaggle] 필사정리 Note_5 (0) | 2022.04.02 |
[kaggle] 필사정리 Note_3 (0) | 2022.03.11 |
[kaggle] 필사정리 Note_2 (0) | 2022.02.18 |
[kaggle] 필사정리 Note 1 (0) | 2022.02.14 |
댓글