2️⃣ Study48 Pycaret - AutoML 📌 필사 노트 링크 : https://colab.research.google.com/drive/10Zt5TD76kS8rApqzHIytv2gjUG-SYuTa?usp=sharing [kaggle] 회귀-필사.ipynb Colaboratory notebook colab.research.google.com 📌 캐글 노트북 링크 : https://www.kaggle.com/code/teampycaret/house-prices-prediction-using-pycaret House Prices Prediction using PyCaret Explore and run machine learning code with Kaggle Notebooks | Using data from House Prices - Advance.. 2022. 4. 13. [빅분기] 3과목 빅데이터 모델링 : 5장 📌 5장. 비정형 데이터 분석 기법 1️⃣ 텍스트 마이닝 (1) 개요 텍스트를 구조화해 그 데이터에서 패턴을 도출한 후 결과를 평가 및 해석 다양한 문서 데이터로부터 텍스트를 획득한 후 문서별 단어의 행렬을 만들어 분석을 수행 (2) 기능 문서분류 : 사전에 분류정보를 알고 있는 상태에서 문서의 내용에 따라 분류하는 것 문서군집 : 성격이 비슷한 문서끼리 같은 군집으로 묶어주는 방법으로 사전에 분류 정보를 모르는 상태에서 수행하는 비지도 학습 방식 정보추출 : 문서에서 중요한 의미를 지닌 정보를 추출 (3) 과정 a. 수집 텍스트 저장소에서 가져오거나 웹페이지 HTML 소스에서 필요한 텍스트 정보를 크롤링 b. 코퍼스 데이터의 정제, 통합, 선택, 변환의 과정을 거친 후 구조화된 텍스트 데이터로 더 이상.. 2022. 4. 7. [kaggle] 2021년 여름방학 필사 스터디 파일 📌 고객 거래 이상징후 탐지 : https://www.kaggle.com/code/shahules/tackling-class-imbalance/notebook 📌Home Credit Default Risk 👀 정말 공들여서 했었던 필사 스터디 자료..⭐ 2022. 4. 6. [빅분기] 3과목 빅데이터 모델링 : 4장 딥러닝 📌 4장. 딥러닝 1️⃣ 딥러닝 개요 (1) 개요 인공신경망에 기반을 둔 머신러닝의 한 종류 연속된 층(layer) 에서 점진적으로 의미있는 표현을 배우는데 강점이 있으며 데이터로부터 표현을 학습한다. ML 은 정형 데이터에 적합한데 비해 딥러닝에 잘 맞는 데이터는 비정형데이터이다. 음성인식, 이미지 인식, 자연어처리, 헬스케어 등 전반적인 분야에 활용되고 있다. 2️⃣ 인공신경망 ANN ⭐⭐ - 딥러닝 구조, 뉴런, 활성화 함수, 신경망 모형 구축 시 고려사항 (1) 개요 인공신경망 : 인간 뇌의 신경망에 착안하여 구현된 컴퓨터 시스템의 총칭 (2) 연구 매컬럭과 피츠 : 신경세포 신호처리 과정을 모형화하여 단순 패턴분류 모형 개발 헵 : 신경세포 사이의 연결강도 weight 를 조정해 학습규칙 개발 .. 2022. 4. 6. [빅분기] 3과목 빅데이터 모델링 : 2장 통계분석 기법_part2 📌 2장. 통계 분석기법 1️⃣ 시계열 분석 ⭐⭐ - 정상성, 여러 시계열 모형 (1) 시계열 자료 시간의 흐름에 따라 관찰된 값 분석을 통해 미래의 값을 예측하고 경향, 주기, 계절성 등을 파악해 활용한다. 🔹 종류 비정상성 시계열 자료 : 다루기 어려운 자료로 대부분의 시계열 자료가 여기에 해당한다. 정상성 시계열 자료 : 비정상 시계열을 핸들링하여 다루기 쉬운 시계열 자료로 변환한 자료이다. (2) 정상성 시계열의 확률적인 성질들이 시간의 흐름에 따라 변하지 않는다는 것을 의미 시계열 분석을 하려면 정상성을 만족해야 한다. 정상 시계열은 어떤 시점에서 평균과 분산, 그리고 특정한 시차의 길이를 갖는 자기공분산을 측정해도 동일한 값을 가진다. 항상 그 평균 값으로 회귀하려는 경향이 있으며 그 평균값 .. 2022. 4. 3. [kaggle] 필사정리 Note_5 📌 필사 노트 링크 : https://colab.research.google.com/drive/1VSgK7OgpsliYQBj7dG2cTb8E_uEistwq?usp=sharing [kaggle] 회귀_파이썬 머신러닝 완벽가이드.ipynb Colaboratory notebook colab.research.google.com 😎 대략의 데이터 가공과 모델 최적화를 수행한 뒤, 다시 이에 기반한 여러가지 기법의 데이터 가공과 파라미터 최적화를 반복적으로 수행하는 것이 바람직한 ML 모델 생성 과정이다! 머신러닝 알고리즘을 적용하기 이전에 완벽하게 데이터의 선처리 작업을 수행하라는 의미가 절대 아니다 ❗ 1️⃣ 자전거 수요예측 🔹 dataset 2011 년 1월부터 2012년 12월까지 날짜/시간, 기온, 습도,.. 2022. 4. 2. [빅분기] 3과목 빅데이터 모델링 : 2장 통계분석 기법_part2 📌 2장. 통계 분석기법 ⭐ 현업에서 알고싶어하는 '어떤 고객이 이탈하느냐', '왜 이탈하느냐' 라는 물음에 대한 답은 데이터를 이용한 통계 검정이나 회귀분석을 통해 답을 구할 수 있다. 다양한 통계분석 기법에 대해 알아보자! 1️⃣ 다차원 척도법 (1) 다차원 척도법 객체간 근접성을 시각화하는 통계기법 군집분석 같이 개체들 사이의 유사성/비유사성을 측정해 개체들을 2차원 공간상에 점으로 표현하는 분석방법 (2) 목적 데이터 속 잠재된 패턴, 구조를 찾아냄 구조를 소수 차원의 공간에 기하학적으로 표현 데이터 축소의 목적으로 사용 👉 데이터에 포함된 정보를 발견 분석을 통해 얻은 결과를 데이터가 만들어진 현상/과정에 고유의 구조로 의미를 부여한다. (3) 분석 방법 개체들의 거리계산 : 유클리드 거리행렬을.. 2022. 3. 31. [빅분기] 3과목 빅데이터 모델링 : 2장 통계 분석기법 Part1 📌 2장. 통계 분석기법 ⭐ 현업에서 알고싶어하는 '어떤 고객이 이탈하느냐', '왜 이탈하느냐' 라는 물음에 대한 답은 데이터를 이용한 통계 검정이나 회귀분석을 통해 답을 구할 수 있다. 다양한 통계분석 기법에 대해 알아보자! 1️⃣ 회귀분석 ⭐⭐ - 개념, 오차항 가정, 결과해석 (1) 회귀분석 개념 a. 개념 독립변수(원인) 가 결과(종속변수)에 미치는 영향을 추정해 식으로 표현할 수 있는 통계기법 인과관계를 밝히고 모형을 적합하여 관심있는 변수를 예측하거나 추론하기 위해 사용하는 기법 독립변수의 개수가 하나이면 단순선형회귀분석, 두 개 이상이면 다중선형회귀분석으로 분석이 가능하다. 독립변수의 경우 명목척도로 측정된 범주형 자료가 사용될 수 있으나 이 땐 독립변수를 dummy 로 변환해야 한다. b... 2022. 3. 30. [빅분기] 3과목 빅데이터 모델링 : 1장 분석모형설계 📌 1장. 분석모형 설계 ⭐ 다양한 모형 구축 기법들과 분석 모형의 선정 및 구축 절차 1️⃣ 분석 모형 구축 (1) 데이터 모델 구축 기법 a. 통계분석 회귀분석 : 종속변수에 대한 독립변수의 선형 함수 관계로부터 새로운 값에 대해 종속변수의 값을 예측한다. 특정 예측변인들이 하나의 결과변인에 미치는 인과성을 밝히는데도 사용할 수 있다. 로지스틱 회귀분석 : 설명변수 값이 주어졌을 때 목표변수값이 특정 부류에 속할 확률이 로지스틱 함수 형태를 따르는 것을 이용해 분류 예측을 진행한다. 판별분석 : 종속변인이 둘 혹은 그 이상의 집단으로 구성되어 있을 때 여러 개의 독립변인으로 집단 관측치를 판별 혹은 예측한다. 주성분 분석 : 서로 상관관계가 높은 변수들의 선형결합으로 만들어진 주성분이라는 새로운 변수.. 2022. 3. 28. [빅분기] 2과목 빅데이터 탐색 : 3장 통계기법의 이해 📌 3장. 통계기법의 이해 ⭐ 기술통계학 : 자료의 수집 정리 및 요약 해석을 통해 모수를 규명 ⭐ 추론 통계학 : 기술통계로 얻은 통계량을 기초로 모수를 추론하고 검정한다. 1️⃣ 기술통계 (1) 표본추출 a. 표본조사 대상집단의 일부를 표본으로 하는 조사 b. 용어정리 모집단 : 조사하고자 하는 대상 집단 전체 원소 : 모집단을 구성하는 개체 표본 : 조사하기 위해 뽑은 모집단의 일부 원소 모수 : 표본관측에 의해 구하고자 하는 정보 표집틀 : 표본추출시 필요한 모집단의 구성요소와 표본 추출 단계별로 표본추출단위가 수록된 목록 c. 표본 추출 과정 모집단 결정 👉 표집틀 선정 👉 표본 추출 방법 결정 👉 표본크기 결정 👉 표본 추출 표집틀은 모집단의 구성 요소를 모두 포함하는 반면 각각의 요소가 이중.. 2022. 3. 27. 이전 1 2 3 4 5 다음 728x90