본문 바로가기

분류 전체보기289

[cs224n] 3강 내용 정리 💡 주제 : Word Window Classification, NN and Matrix Calculus 📌 핵심 Task : 분류 - 개체명 분류 (Named Entity Recognition) 📌 목차 정리 1. Classification Review / introduction NLP 에서의 분류 문제 👉 input data : 단어, 문장, 문서 등 👉 Class : 감정분류, 개체명 분류 (Named entity) , 같은 의미/품사의 단어끼리 분류 등 👉 결정경계 (decision boundary) 를 결정할 Weight 를 학습 지도학습 👉 Train set → Loss function → Validation / Test set 손실함수 👉 예측한 데이터(y hat) 의 확률분포와 실제 데이터(.. 2022. 3. 14.
[cs224n] 2강 내용 정리 💡 주제 : Word vectors and Word Senses 📌 핵심 Task : 단어 임베딩 - Word2vec (2강) , Glove (3강) 📌 목차 정리 1. 최적화 Gradient Descent Stochastic Gradient Descent 학습 데이터 중에서 랜덤하게 샘플을 한개씩 뽑아 gradient 를 계산한 후 업데이트 하는 방식 계산량이 적음 & 학습이 빠름 & local min 에 빠지지 않고 학습될 수 있음 word vector 가 sparse 해짐 → 불필요한 계산 발생 2. Word2vec 의 계산 효율성 높이기 (SGD 외) Negative Sampling 등장 배경 : softmax 를 출력층에서 계산할 때, 전체 단어를 대상으로 벡터 내적과 exp 계산을 취해주어야 .. 2022. 3. 14.
[01,02] 머신러닝 개요 01. 파이썬 기반의 머신러닝과 생태계 이해 import numpy as np 👀 Numpy 함수 및 메서드 np.array() np.arange() np.zeros() np.ones() 👀 인덱싱 [ ] , 슬라이싱 [ : ] 👀 행렬의 정렬 : np.sort() , ndarray.sort(), np.argsort() 👀 선형대수 연산 : np.dot() import pandas as pd 👀 DataFrame 데이터 불러오기 정보 확인하기 👀 정렬, aggregation 함수, Groupby 적용 DataFrame.sort_values( by = , ascending = True, inplace = True) 연산함수 : min , max, sum, median, count (※ axis = 0 행,.. 2022. 3. 13.
[Tableau] 디즈니 데이터로 대시보드 만들어보기 👀 대시보드 결과 📌 태블로 퍼블릭 링크 : https://public.tableau.com/app/profile/.41977356/viz/ing_16456181403870/sheet1_1 📌 활용한 데이터 : https://www.kaggle.com/therealsampat/disney-movies-dataset Disney Movies and Films Dataset Collection of Disney Movies and Films www.kaggle.com 👀 주요 칼럼 (계산된 필드 만들기) 👉Distributed by : 배급사의 경우 하나의 셀 안에 여러개의 값이 (다중값) 포함되어 있었기 때문에, 메인 배급사를 기준으로 그룹화를 진행함 👉 main_producer : TRIM, SPLIT .. 2022. 3. 13.
[kaggle] 필사 정리 Note_4 필사 노트 링크 : https://colab.research.google.com/drive/1ZW_iawqPC_FL8QpVyBO3EentvtUz2-PQ?usp=sharing [kaggle/NLP] Embedding.ipynb Colaboratory notebook colab.research.google.com 🟨 도메인 : Media (SNS) _ twitter : NLP _ Embedding 🟨 데이터셋 및 분석에 사용된 칼럼 항공사 서비스에 대한 만족후기 글 관련 데이터 셋 (목적 : 감정분류) tweet_id text airline_sentiment 🟨 캐글 노트북 키워드 단어를 벡터화 하는 방법들 , 장단점 1. one-hot encoding 2. BoW 3. Bow of N-gram 4. TF-.. 2022. 3. 11.
[kaggle] 필사정리 Note_3 필사 노트 링크 : https://colab.research.google.com/drive/1D90kqrX5WMTHxEqo5z1E95f1b3b7nkOn?usp=sharing [kaggle/NLP] Coronavirus tweets NLP - Text Classification.ipynb Colaboratory notebook colab.research.google.com 🟨 도메인 : Media (SNS) _ twitter : NLP _ text classification 감정분류 🟨 데이터셋 및 분석에 사용된 칼럼 코로나 바이러스 관련 트윗 내용이 담긴 데이터셋 UserName ScreenName Location Tweet At Original Tweet Sentiment : Positive, Nega.. 2022. 3. 11.
[kaggle] 필사정리 Note_2 필사 노트 링크 : https://colab.research.google.com/drive/11ToiXDGfh66-ES60OP3EXgJC4WsiFMBJ?usp=sharing [kaggle] Netflix Visualizations, recommendation, EDA.ipynb Colaboratory notebook colab.research.google.com 🟨 도메인 : OTT (넷플릭스) - Contents / Entertainment 🟨 데이터셋 및 분석에 사용된 칼럼 1. Netflix_titles.csv - title, director, Cast, Country, Date_added(넷플릭스에 추가된 날짜), release_year, Rating(시청등급), Duration(러닝타임 혹은 시.. 2022. 2. 18.
[Tableau] 제주도 음식점 검색 대시보드 필사 : 공간조인, Buffer, Makepoint 📌 태블로 스터디 소개 https://github.com/hopebii/tableau-study_euron GitHub - hopebii/tableau-study_euron Contribute to hopebii/tableau-study_euron development by creating an account on GitHub. github.com 1월 26일부터 2월 27일까지 진행하는 겨울방학 태블로 스터디를 스터디 장 역할을 맡아 진행하고 있다. 처음엔 태블로 툴을 배워보고 싶다는 생각이 들어서 무작정 동아리 부원분들과 인원을 꾸렸다. 무엇부터 시작해야할지 막막했지만, 어느 도전이나 그러하듯 실천해보면서 그림이 점차 그려졌다. 1. 네이버 부스트코스 tableau 강의 수강 2. 인프런 태블로 le.. 2022. 2. 18.
[kaggle] 필사정리 Note 1 https://colab.research.google.com/drive/1VPv0lBGZVXZnU2-eUxS2nu08Tto_vind?usp=sharing 필사 노트 링크 [kaggle/ML] Song Popularity Predict .ipynb Colaboratory notebook colab.research.google.com 🟨 도메인 : 음악 , 엔터테인먼트 🟨 데이터셋 : Spotify dataset 으로 특정 노래에 대한 음악적 특성들이 feature 로 존재한다. 여기서 우리는 회귀분석을 통해 song_popularity , 즉 노래의 인기도를 예측한다. : 노래 샘플을 분해하여 여러 parameter 들을 기록하였다. : 크고 복잡한 데이터이고 피처별로 다중 공선성이 강한 경우가 존재한다... 2022. 2. 14.
728x90