본문 바로가기

2️⃣ Study58

[빅분기] 2과목 빅데이터 탐색 : 2장 데이터 탐색 📌 2장. 데이터 탐색 ⭐ EDA : 데이터의 분포 값을 여러 각도로 검토하며 insight 를 발견 1️⃣ 데이터 탐색 기초 (1) EDA 개요 a. EDA 다양한 차원과 값을 조합하여 특이점이나 의미있는 사실을 도출해 분석의 최종 목적을 달성해가는 과정 데이터 특징, 구조적 관계를 알아내기 위한 기법들의 통칭 도표, 그래프, 통계요약 등을 활용한다. EDA 목적 : 데이터의 온전성 검사를 위해, 결측치나 이상치를 찾기 위해, 데이터를 요약하기 위해 VS 확증적 자료분석 : 전략적인 조사 방법으로 가설검정에 사용되는 추론통계 방법이다. 통계 검정에서 얻은 유의 확률과 신뢰구간을 결과물로 내놓는 분석방법이다. EDA 탐색적 자료 분석은 기술통계를 활용하여 분포도 요약, 상관계수에 의한 변수간 연관성 파악.. 2022. 3. 26.
[빅분기] 2과목 빅데이터 탐색 : 1장 데이터 전처리 📌 1장. 데이터 전처리 ⭐ 데이터 준비 : 결측치, 이상시 식별 👉 필터링, 정제 ⭐ Preprocessing : 변환, 통합, 축소 1️⃣ 데이터 전처리 1. 전처리 필요성 데이터의 질 : 데이터의 다양성, 데이터의 형태 다양성 : 현실을 반영하는 데이터의 필요성 (ex. 정확한 발음의 음성 데이터, 소음이 섞인 음성 데이터) 형태 : 분석이 가능한 형태로 준비되어야 함 (ex. 이미지 데이터의 어노테이션 과정 - 경계선 짓기 + 라벨링) 2. 전처리 유형 데이터 정제 : 이상치, 결측치를 파악해 제거하거나 적절한 값으로 대치 데이터 통합 : 여러 테이블에 있는 데이터를 병합 + 통합하여 적절한 데이터셋 생성 데이터 축소 : 변수 선택, 요약변수 생성 등을 통해 데이터의 차원을 줄임 데이터 변환 : .. 2022. 3. 26.
[Tableau] 디즈니 데이터로 대시보드 만들어보기 👀 대시보드 결과 📌 태블로 퍼블릭 링크 : https://public.tableau.com/app/profile/.41977356/viz/ing_16456181403870/sheet1_1 📌 활용한 데이터 : https://www.kaggle.com/therealsampat/disney-movies-dataset Disney Movies and Films Dataset Collection of Disney Movies and Films www.kaggle.com 👀 주요 칼럼 (계산된 필드 만들기) 👉Distributed by : 배급사의 경우 하나의 셀 안에 여러개의 값이 (다중값) 포함되어 있었기 때문에, 메인 배급사를 기준으로 그룹화를 진행함 👉 main_producer : TRIM, SPLIT .. 2022. 3. 13.
[kaggle] 필사 정리 Note_4 필사 노트 링크 : https://colab.research.google.com/drive/1ZW_iawqPC_FL8QpVyBO3EentvtUz2-PQ?usp=sharing [kaggle/NLP] Embedding.ipynb Colaboratory notebook colab.research.google.com 🟨 도메인 : Media (SNS) _ twitter : NLP _ Embedding 🟨 데이터셋 및 분석에 사용된 칼럼 항공사 서비스에 대한 만족후기 글 관련 데이터 셋 (목적 : 감정분류) tweet_id text airline_sentiment 🟨 캐글 노트북 키워드 단어를 벡터화 하는 방법들 , 장단점 1. one-hot encoding 2. BoW 3. Bow of N-gram 4. TF-.. 2022. 3. 11.
[kaggle] 필사정리 Note_3 필사 노트 링크 : https://colab.research.google.com/drive/1D90kqrX5WMTHxEqo5z1E95f1b3b7nkOn?usp=sharing [kaggle/NLP] Coronavirus tweets NLP - Text Classification.ipynb Colaboratory notebook colab.research.google.com 🟨 도메인 : Media (SNS) _ twitter : NLP _ text classification 감정분류 🟨 데이터셋 및 분석에 사용된 칼럼 코로나 바이러스 관련 트윗 내용이 담긴 데이터셋 UserName ScreenName Location Tweet At Original Tweet Sentiment : Positive, Nega.. 2022. 3. 11.
[kaggle] 필사정리 Note_2 필사 노트 링크 : https://colab.research.google.com/drive/11ToiXDGfh66-ES60OP3EXgJC4WsiFMBJ?usp=sharing [kaggle] Netflix Visualizations, recommendation, EDA.ipynb Colaboratory notebook colab.research.google.com 🟨 도메인 : OTT (넷플릭스) - Contents / Entertainment 🟨 데이터셋 및 분석에 사용된 칼럼 1. Netflix_titles.csv - title, director, Cast, Country, Date_added(넷플릭스에 추가된 날짜), release_year, Rating(시청등급), Duration(러닝타임 혹은 시.. 2022. 2. 18.
[Tableau] 제주도 음식점 검색 대시보드 필사 : 공간조인, Buffer, Makepoint 📌 태블로 스터디 소개 https://github.com/hopebii/tableau-study_euron GitHub - hopebii/tableau-study_euron Contribute to hopebii/tableau-study_euron development by creating an account on GitHub. github.com 1월 26일부터 2월 27일까지 진행하는 겨울방학 태블로 스터디를 스터디 장 역할을 맡아 진행하고 있다. 처음엔 태블로 툴을 배워보고 싶다는 생각이 들어서 무작정 동아리 부원분들과 인원을 꾸렸다. 무엇부터 시작해야할지 막막했지만, 어느 도전이나 그러하듯 실천해보면서 그림이 점차 그려졌다. 1. 네이버 부스트코스 tableau 강의 수강 2. 인프런 태블로 le.. 2022. 2. 18.
[kaggle] 필사정리 Note 1 https://colab.research.google.com/drive/1VPv0lBGZVXZnU2-eUxS2nu08Tto_vind?usp=sharing 필사 노트 링크 [kaggle/ML] Song Popularity Predict .ipynb Colaboratory notebook colab.research.google.com 🟨 도메인 : 음악 , 엔터테인먼트 🟨 데이터셋 : Spotify dataset 으로 특정 노래에 대한 음악적 특성들이 feature 로 존재한다. 여기서 우리는 회귀분석을 통해 song_popularity , 즉 노래의 인기도를 예측한다. : 노래 샘플을 분해하여 여러 parameter 들을 기록하였다. : 크고 복잡한 데이터이고 피처별로 다중 공선성이 강한 경우가 존재한다... 2022. 2. 14.
728x90