본문 바로가기

2️⃣ Study/▢ 필사 | 프로젝트10

[개인 프로젝트] 시계열 이상치 탐지 스터디 ③ - Prophet 📌 교내 융합소프트웨어프로젝트 수업에서 진행한 개인 데이터 분석 프로젝트에 대한 시리즈 글 입니다. 📌 서치한 자료들을 참고하여 프로젝트 데이터에 적용해 실습을 진행해보았습니다. 개인적으로 의문점이 들었던 부분은 이모지로 체크해두었기 때문에 해당 게시물은 참고용으로만 보아주시면 좋을 것 같습니다. 시계열 데이터 분석 기본 모델 👀 정상성 ◽ 정상 프로세스 : 시간에 관계 없이 평균과 분산이 일정한 시계열 데이터 ◽ 비정상 프로세스 : 시간에 관계 없이 평균과 분산이 일정하지 않은 시계열 데이터 👉 가로축을 현재 데이터와의 시점 차이로 y 축을 ACF 로 시각화할 때 특정 패턴이 없으면 정상 프로세스로 간주한다. ◾ AC autocorrelation : 자기 자신의 데이터와의 관계를 의미 👀 시계열 기본 .. 2022. 5. 16.
[개인 프로젝트] 시계열 이상치 탐지 스터디 ② 📌 교내 융합소프트웨어프로젝트 수업에서 진행한 개인 데이터 분석 프로젝트에 대한 시리즈 글 입니다. 📌 https://aifactory.space/competition/detail/2052 를 공부한 내용을 정리하였습니다. 시계열 데이터 이상징후 감지 딥러닝 모델 입문+실전+해커톤 무료 온라인 세미나 aifactory.space * 정리된 내용에 활용된 모든 이미지는 해당 강의 영상에 나와있는 이미지 입니다. 문제가 될 시 게시물을 삭제조치하도록 하겠습니다. 1️⃣ 통신사의 AI 기술 및 해커톤 소개 📌 통신산업 + AI 💨 네트워크 구조 : 유선망, 무선망 💨 네트워크 구축과 운용은 어떻게 이루어지는가 → 가전제품 구매방식과 유사하다 설계 , 구축, 구성, 관리의 4단계 과정으로 정의된다. 기존에는 운.. 2022. 5. 11.
[개인 프로젝트] 시계열 이상치 탐지 스터디 ① 📌 교내 융합소프트웨어프로젝트 수업에서 진행한 개인 데이터 분석 프로젝트에 대한 시리즈 글 입니다. 👀 이상치 탐색 개요 01. 이상치 탐색의 개념 📌 이상치 통계학 측면에서 이상치는 관측치들이 주로 모여있는 곳에서 멀리 떨어져 있는 관측치로 정의됨 이상치 탐색은 탐색 영역에 따라 Outlier detection, Noise detection, Anomaly detection, Novelty detection, Fraud detection, Instrusion detection 등 다양한 용어로 사용된다. 📌 이상치의 구분 비합리적인 이상치 : 입력 오류 등 자료의 오염으로 인해 발생한 이상치 합리적인 이상치 : 정확하게 측정은 되었으나 다른 자료들과 전혀 다른 경향이나 특성을 보이는 이상치를 말한다. .. 2022. 5. 9.
Pycaret - AutoML 📌 필사 노트 링크 : https://colab.research.google.com/drive/10Zt5TD76kS8rApqzHIytv2gjUG-SYuTa?usp=sharing [kaggle] 회귀-필사.ipynb Colaboratory notebook colab.research.google.com 📌 캐글 노트북 링크 : https://www.kaggle.com/code/teampycaret/house-prices-prediction-using-pycaret House Prices Prediction using PyCaret Explore and run machine learning code with Kaggle Notebooks | Using data from House Prices - Advance.. 2022. 4. 13.
[kaggle] 2021년 여름방학 필사 스터디 파일 📌 고객 거래 이상징후 탐지 : https://www.kaggle.com/code/shahules/tackling-class-imbalance/notebook 📌Home Credit Default Risk 👀 정말 공들여서 했었던 필사 스터디 자료..⭐ 2022. 4. 6.
[kaggle] 필사정리 Note_5 📌 필사 노트 링크 : https://colab.research.google.com/drive/1VSgK7OgpsliYQBj7dG2cTb8E_uEistwq?usp=sharing [kaggle] 회귀_파이썬 머신러닝 완벽가이드.ipynb Colaboratory notebook colab.research.google.com 😎 대략의 데이터 가공과 모델 최적화를 수행한 뒤, 다시 이에 기반한 여러가지 기법의 데이터 가공과 파라미터 최적화를 반복적으로 수행하는 것이 바람직한 ML 모델 생성 과정이다! 머신러닝 알고리즘을 적용하기 이전에 완벽하게 데이터의 선처리 작업을 수행하라는 의미가 절대 아니다 ❗ 1️⃣ 자전거 수요예측 🔹 dataset 2011 년 1월부터 2012년 12월까지 날짜/시간, 기온, 습도,.. 2022. 4. 2.
[kaggle] 필사 정리 Note_4 필사 노트 링크 : https://colab.research.google.com/drive/1ZW_iawqPC_FL8QpVyBO3EentvtUz2-PQ?usp=sharing [kaggle/NLP] Embedding.ipynb Colaboratory notebook colab.research.google.com 🟨 도메인 : Media (SNS) _ twitter : NLP _ Embedding 🟨 데이터셋 및 분석에 사용된 칼럼 항공사 서비스에 대한 만족후기 글 관련 데이터 셋 (목적 : 감정분류) tweet_id text airline_sentiment 🟨 캐글 노트북 키워드 단어를 벡터화 하는 방법들 , 장단점 1. one-hot encoding 2. BoW 3. Bow of N-gram 4. TF-.. 2022. 3. 11.
[kaggle] 필사정리 Note_3 필사 노트 링크 : https://colab.research.google.com/drive/1D90kqrX5WMTHxEqo5z1E95f1b3b7nkOn?usp=sharing [kaggle/NLP] Coronavirus tweets NLP - Text Classification.ipynb Colaboratory notebook colab.research.google.com 🟨 도메인 : Media (SNS) _ twitter : NLP _ text classification 감정분류 🟨 데이터셋 및 분석에 사용된 칼럼 코로나 바이러스 관련 트윗 내용이 담긴 데이터셋 UserName ScreenName Location Tweet At Original Tweet Sentiment : Positive, Nega.. 2022. 3. 11.
[kaggle] 필사정리 Note_2 필사 노트 링크 : https://colab.research.google.com/drive/11ToiXDGfh66-ES60OP3EXgJC4WsiFMBJ?usp=sharing [kaggle] Netflix Visualizations, recommendation, EDA.ipynb Colaboratory notebook colab.research.google.com 🟨 도메인 : OTT (넷플릭스) - Contents / Entertainment 🟨 데이터셋 및 분석에 사용된 칼럼 1. Netflix_titles.csv - title, director, Cast, Country, Date_added(넷플릭스에 추가된 날짜), release_year, Rating(시청등급), Duration(러닝타임 혹은 시.. 2022. 2. 18.
[kaggle] 필사정리 Note 1 https://colab.research.google.com/drive/1VPv0lBGZVXZnU2-eUxS2nu08Tto_vind?usp=sharing 필사 노트 링크 [kaggle/ML] Song Popularity Predict .ipynb Colaboratory notebook colab.research.google.com 🟨 도메인 : 음악 , 엔터테인먼트 🟨 데이터셋 : Spotify dataset 으로 특정 노래에 대한 음악적 특성들이 feature 로 존재한다. 여기서 우리는 회귀분석을 통해 song_popularity , 즉 노래의 인기도를 예측한다. : 노래 샘플을 분해하여 여러 parameter 들을 기록하였다. : 크고 복잡한 데이터이고 피처별로 다중 공선성이 강한 경우가 존재한다... 2022. 2. 14.
728x90