본문 바로가기

분류 전체보기335

[빅분기] 3과목 빅데이터 모델링 : 2장 통계분석 기법_part2 📌 2장. 통계 분석기법 1️⃣ 시계열 분석 ⭐⭐ - 정상성, 여러 시계열 모형 (1) 시계열 자료 시간의 흐름에 따라 관찰된 값 분석을 통해 미래의 값을 예측하고 경향, 주기, 계절성 등을 파악해 활용한다. 🔹 종류 비정상성 시계열 자료 : 다루기 어려운 자료로 대부분의 시계열 자료가 여기에 해당한다. 정상성 시계열 자료 : 비정상 시계열을 핸들링하여 다루기 쉬운 시계열 자료로 변환한 자료이다. (2) 정상성 시계열의 확률적인 성질들이 시간의 흐름에 따라 변하지 않는다는 것을 의미 시계열 분석을 하려면 정상성을 만족해야 한다. 정상 시계열은 어떤 시점에서 평균과 분산, 그리고 특정한 시차의 길이를 갖는 자기공분산을 측정해도 동일한 값을 가진다. 항상 그 평균 값으로 회귀하려는 경향이 있으며 그 평균값 .. 2022. 4. 3.
[kaggle] 필사정리 Note_5 📌 필사 노트 링크 : https://colab.research.google.com/drive/1VSgK7OgpsliYQBj7dG2cTb8E_uEistwq?usp=sharing [kaggle] 회귀_파이썬 머신러닝 완벽가이드.ipynb Colaboratory notebook colab.research.google.com 😎 대략의 데이터 가공과 모델 최적화를 수행한 뒤, 다시 이에 기반한 여러가지 기법의 데이터 가공과 파라미터 최적화를 반복적으로 수행하는 것이 바람직한 ML 모델 생성 과정이다! 머신러닝 알고리즘을 적용하기 이전에 완벽하게 데이터의 선처리 작업을 수행하라는 의미가 절대 아니다 ❗ 1️⃣ 자전거 수요예측 🔹 dataset 2011 년 1월부터 2012년 12월까지 날짜/시간, 기온, 습도,.. 2022. 4. 2.
Tabnet 0️⃣ Tabnet Tree 기반 모델의 변수 선택 특징을 네트워크 구조에 반영한 딥러닝 모델 1️⃣ 배경 ✔ 기존 딥러닝 모델은 이미지, 음성, 언어와 같은 비정형 데이터에만 적용되었음 ✔ 정형 데이터 Tabular Data 는 최근까지도 kaggle 같은 여러 대회에서 XGBoost, LightGBM, CatBoost와같은 Tree기반의 앙상블 모델을 주로 사용했음 👀 딥러닝의 점진적 학습 특성 + 사전학습 가능성은 새로운 분석 기회를 도출 👀 트리기반 모델 + 신경망 모델 구조 의 장점을 모두 갖는 Tabnet 을 제안 👉 feature selection & engineering + 모델 해석력을 갖춘 신경망 모델 2️⃣ Tabnet 논문 리뷰 🧐 앙상블 모델이 딥러닝 모델보다 우수한 이유 (1) .. 2022. 3. 31.
[빅분기] 3과목 빅데이터 모델링 : 2장 통계분석 기법_part2 📌 2장. 통계 분석기법 ⭐ 현업에서 알고싶어하는 '어떤 고객이 이탈하느냐', '왜 이탈하느냐' 라는 물음에 대한 답은 데이터를 이용한 통계 검정이나 회귀분석을 통해 답을 구할 수 있다. 다양한 통계분석 기법에 대해 알아보자! 1️⃣ 다차원 척도법 (1) 다차원 척도법 객체간 근접성을 시각화하는 통계기법 군집분석 같이 개체들 사이의 유사성/비유사성을 측정해 개체들을 2차원 공간상에 점으로 표현하는 분석방법 (2) 목적 데이터 속 잠재된 패턴, 구조를 찾아냄 구조를 소수 차원의 공간에 기하학적으로 표현 데이터 축소의 목적으로 사용 👉 데이터에 포함된 정보를 발견 분석을 통해 얻은 결과를 데이터가 만들어진 현상/과정에 고유의 구조로 의미를 부여한다. (3) 분석 방법 개체들의 거리계산 : 유클리드 거리행렬을.. 2022. 3. 31.
[빅분기] 3과목 빅데이터 모델링 : 2장 통계 분석기법 Part1 📌 2장. 통계 분석기법 ⭐ 현업에서 알고싶어하는 '어떤 고객이 이탈하느냐', '왜 이탈하느냐' 라는 물음에 대한 답은 데이터를 이용한 통계 검정이나 회귀분석을 통해 답을 구할 수 있다. 다양한 통계분석 기법에 대해 알아보자! 1️⃣ 회귀분석 ⭐⭐ - 개념, 오차항 가정, 결과해석 (1) 회귀분석 개념 a. 개념 독립변수(원인) 가 결과(종속변수)에 미치는 영향을 추정해 식으로 표현할 수 있는 통계기법 인과관계를 밝히고 모형을 적합하여 관심있는 변수를 예측하거나 추론하기 위해 사용하는 기법 독립변수의 개수가 하나이면 단순선형회귀분석, 두 개 이상이면 다중선형회귀분석으로 분석이 가능하다. 독립변수의 경우 명목척도로 측정된 범주형 자료가 사용될 수 있으나 이 땐 독립변수를 dummy 로 변환해야 한다. b... 2022. 3. 30.
[빅분기] 3과목 빅데이터 모델링 : 1장 분석모형설계 📌 1장. 분석모형 설계 ⭐ 다양한 모형 구축 기법들과 분석 모형의 선정 및 구축 절차 1️⃣ 분석 모형 구축 (1) 데이터 모델 구축 기법 a. 통계분석 회귀분석 : 종속변수에 대한 독립변수의 선형 함수 관계로부터 새로운 값에 대해 종속변수의 값을 예측한다. 특정 예측변인들이 하나의 결과변인에 미치는 인과성을 밝히는데도 사용할 수 있다. 로지스틱 회귀분석 : 설명변수 값이 주어졌을 때 목표변수값이 특정 부류에 속할 확률이 로지스틱 함수 형태를 따르는 것을 이용해 분류 예측을 진행한다. 판별분석 : 종속변인이 둘 혹은 그 이상의 집단으로 구성되어 있을 때 여러 개의 독립변인으로 집단 관측치를 판별 혹은 예측한다. 주성분 분석 : 서로 상관관계가 높은 변수들의 선형결합으로 만들어진 주성분이라는 새로운 변수.. 2022. 3. 28.
[빅분기] 2과목 빅데이터 탐색 : 3장 통계기법의 이해 📌 3장. 통계기법의 이해 ⭐ 기술통계학 : 자료의 수집 정리 및 요약 해석을 통해 모수를 규명 ⭐ 추론 통계학 : 기술통계로 얻은 통계량을 기초로 모수를 추론하고 검정한다. 1️⃣ 기술통계 (1) 표본추출 a. 표본조사 대상집단의 일부를 표본으로 하는 조사 b. 용어정리 모집단 : 조사하고자 하는 대상 집단 전체 원소 : 모집단을 구성하는 개체 표본 : 조사하기 위해 뽑은 모집단의 일부 원소 모수 : 표본관측에 의해 구하고자 하는 정보 표집틀 : 표본추출시 필요한 모집단의 구성요소와 표본 추출 단계별로 표본추출단위가 수록된 목록 c. 표본 추출 과정 모집단 결정 👉 표집틀 선정 👉 표본 추출 방법 결정 👉 표본크기 결정 👉 표본 추출 표집틀은 모집단의 구성 요소를 모두 포함하는 반면 각각의 요소가 이중.. 2022. 3. 27.
[빅분기] 2과목 빅데이터 탐색 : 2장 데이터 탐색 📌 2장. 데이터 탐색 ⭐ EDA : 데이터의 분포 값을 여러 각도로 검토하며 insight 를 발견 1️⃣ 데이터 탐색 기초 (1) EDA 개요 a. EDA 다양한 차원과 값을 조합하여 특이점이나 의미있는 사실을 도출해 분석의 최종 목적을 달성해가는 과정 데이터 특징, 구조적 관계를 알아내기 위한 기법들의 통칭 도표, 그래프, 통계요약 등을 활용한다. EDA 목적 : 데이터의 온전성 검사를 위해, 결측치나 이상치를 찾기 위해, 데이터를 요약하기 위해 VS 확증적 자료분석 : 전략적인 조사 방법으로 가설검정에 사용되는 추론통계 방법이다. 통계 검정에서 얻은 유의 확률과 신뢰구간을 결과물로 내놓는 분석방법이다. EDA 탐색적 자료 분석은 기술통계를 활용하여 분포도 요약, 상관계수에 의한 변수간 연관성 파악.. 2022. 3. 26.
[빅분기] 2과목 빅데이터 탐색 : 1장 데이터 전처리 📌 1장. 데이터 전처리 ⭐ 데이터 준비 : 결측치, 이상시 식별 👉 필터링, 정제 ⭐ Preprocessing : 변환, 통합, 축소 1️⃣ 데이터 전처리 1. 전처리 필요성 데이터의 질 : 데이터의 다양성, 데이터의 형태 다양성 : 현실을 반영하는 데이터의 필요성 (ex. 정확한 발음의 음성 데이터, 소음이 섞인 음성 데이터) 형태 : 분석이 가능한 형태로 준비되어야 함 (ex. 이미지 데이터의 어노테이션 과정 - 경계선 짓기 + 라벨링) 2. 전처리 유형 데이터 정제 : 이상치, 결측치를 파악해 제거하거나 적절한 값으로 대치 데이터 통합 : 여러 테이블에 있는 데이터를 병합 + 통합하여 적절한 데이터셋 생성 데이터 축소 : 변수 선택, 요약변수 생성 등을 통해 데이터의 차원을 줄임 데이터 변환 : .. 2022. 3. 26.
[05. 회귀] 선형회귀, 다항회귀, 규제회귀, 로지스틱회귀, 회귀트리 👀 회귀분석 - 데이터 값이 평균과 같은 일정한 값으로 돌아가려는 경향을 이용한 통계학 기법 - 여러 개의 독립변수와 한 개의 종속변수 간의 상관관계를 모델링 하는 기법을 통칭한다. - 종속변수는 숫자값(연속값) 이다. - 머신러닝 회귀 예측의 핵심은 '최적의 회귀계수' 를 찾아내는 것! 독립변수의 개수 회귀 계수의 결합 1개 : 단일회귀 선형 : 선형 회귀 여러개 : 다중 회귀 비선형 : 비선형 회귀 - 회귀 분석의 objective : RSS (오차제곱합) 을 최소로하는 회귀 변수 (w) 찾기 03. 경사하강법 📌 개요 💡 경사하강법 데이터를 기반으로 알고리즘이 스스로 학습한다는 개념을 가능하게 만들어준 핵심 기법 점진적으로 반복적인 계산을 통해 W 파라미터 값을 업데이트하면서 오류 값이 최소가 되는.. 2022. 3. 25.
728x90