본문 바로가기

분류 전체보기328

[빅분기] 2과목 빅데이터 탐색 : 2장 데이터 탐색 📌 2장. 데이터 탐색 ⭐ EDA : 데이터의 분포 값을 여러 각도로 검토하며 insight 를 발견 1️⃣ 데이터 탐색 기초 (1) EDA 개요 a. EDA 다양한 차원과 값을 조합하여 특이점이나 의미있는 사실을 도출해 분석의 최종 목적을 달성해가는 과정 데이터 특징, 구조적 관계를 알아내기 위한 기법들의 통칭 도표, 그래프, 통계요약 등을 활용한다. EDA 목적 : 데이터의 온전성 검사를 위해, 결측치나 이상치를 찾기 위해, 데이터를 요약하기 위해 VS 확증적 자료분석 : 전략적인 조사 방법으로 가설검정에 사용되는 추론통계 방법이다. 통계 검정에서 얻은 유의 확률과 신뢰구간을 결과물로 내놓는 분석방법이다. EDA 탐색적 자료 분석은 기술통계를 활용하여 분포도 요약, 상관계수에 의한 변수간 연관성 파악.. 2022. 3. 26.
[빅분기] 2과목 빅데이터 탐색 : 1장 데이터 전처리 📌 1장. 데이터 전처리 ⭐ 데이터 준비 : 결측치, 이상시 식별 👉 필터링, 정제 ⭐ Preprocessing : 변환, 통합, 축소 1️⃣ 데이터 전처리 1. 전처리 필요성 데이터의 질 : 데이터의 다양성, 데이터의 형태 다양성 : 현실을 반영하는 데이터의 필요성 (ex. 정확한 발음의 음성 데이터, 소음이 섞인 음성 데이터) 형태 : 분석이 가능한 형태로 준비되어야 함 (ex. 이미지 데이터의 어노테이션 과정 - 경계선 짓기 + 라벨링) 2. 전처리 유형 데이터 정제 : 이상치, 결측치를 파악해 제거하거나 적절한 값으로 대치 데이터 통합 : 여러 테이블에 있는 데이터를 병합 + 통합하여 적절한 데이터셋 생성 데이터 축소 : 변수 선택, 요약변수 생성 등을 통해 데이터의 차원을 줄임 데이터 변환 : .. 2022. 3. 26.
[05. 회귀] 선형회귀, 다항회귀, 규제회귀, 로지스틱회귀, 회귀트리 👀 회귀분석 - 데이터 값이 평균과 같은 일정한 값으로 돌아가려는 경향을 이용한 통계학 기법 - 여러 개의 독립변수와 한 개의 종속변수 간의 상관관계를 모델링 하는 기법을 통칭한다. - 종속변수는 숫자값(연속값) 이다. - 머신러닝 회귀 예측의 핵심은 '최적의 회귀계수' 를 찾아내는 것! 독립변수의 개수 회귀 계수의 결합 1개 : 단일회귀 선형 : 선형 회귀 여러개 : 다중 회귀 비선형 : 비선형 회귀 - 회귀 분석의 objective : RSS (오차제곱합) 을 최소로하는 회귀 변수 (w) 찾기 03. 경사하강법 📌 개요 💡 경사하강법 데이터를 기반으로 알고리즘이 스스로 학습한다는 개념을 가능하게 만들어준 핵심 기법 점진적으로 반복적인 계산을 통해 W 파라미터 값을 업데이트하면서 오류 값이 최소가 되는.. 2022. 3. 25.
[cs224n] 6강 내용 정리 💡 주제 : Language models and RNN (Recurrent Neural Network) 📌 핵심 Task : 문장이 주어질 때 지금까지 나온 단어들 이후에 나올 단어를 예측 RNN : 다음에 올 단어를 예측하는 과제를 효과적으로 수행하기 위해 도입한 NN 의 일종 📌 목차 / 내용 1. Language model (1) Language model 이란 ✔ 정의 단어의 시퀀스(문장) 에 대해 얼마나 자연스러운 문장인지를 '확률' 을 이용해 예측하는 모델 Language modeling = 주어진 단어의 시퀀스에 대해 다음에 나타날 단어가 어떤 것인지를 예측하는 작업 특정 문장에 확률을 할당한다. 문장의 단어 w(1), w(2) , ... w(t) 가 주어졌을 때 다음에 올 단어 w(t+1).. 2022. 3. 24.
[cs224n] 5강 내용 정리 💡 주제 : Dependency Parsing 📌 핵심 Task : 문장의 문법적인 구성, 구문을 분석 Dependency Parsing : 단어 간 관계를 파악하여 단어의 수식 (문법) 구조를 도출해내기 📌 목차 1. Dependency Parsing 이란 (1) Parsing ✔ 정의 각 문장의 문법적인 구성이나 구문을 분석하는 과정 주어진 문장을 이루는 단어 혹은 구성 요소의 관계를 결정하는 방법으로, parsing의 목적에 따라 Consitituency parsing과 Dependency parsing으로 구분 ✔ 비교 토크나이징 : 문장이 들어오면 의미를 가진 단위로 쪼개주는 것 pos-tagging : 토큰들에 품사 tag 를 붙여주는 과정 Paring : 문장 분석 결과가 Tree 형태로 나.. 2022. 3. 22.
[04. 분류] LightGBM, 스태킹 앙상블, Catboost 07. LightGBM 📌 개요 💡 LightGBM XGBoost 와 예측 성능은 비슷하지만 학습에 걸리는 시간이 훨씬 적으며 다양한 기능을 보유하고 있다. 카테고리형 피처의 자동 변환(원핫인코딩을 하지 않아도 됨) 과 최적 분할 수행 균형 트리 분할 방식이 아닌 리프 중심 트리 분할 방식을 사용한다. 그러나 적은 데이터 세트 (10,000건 이하) 에 적용할 경우 과적합이 발생하기 쉽다. 리프중심 트리 분할 Leaf wise : 트리의 균형을 맞추지 않고 최대 손실값을 가지는 리프노드를 지속적으로 분할한다. 학습의 반복을 통해 결국 균형트리 분할 방식보다 예측 오류 손실을 최소화할 수 있게 된다. 📌 하이퍼 파라미터 LightGBM 은 XGBoost 와 파라미터가 매우 유사하지만, 주의할점은 리프노드가.. 2022. 3. 20.
[cs224n] 4강 내용 정리 💡 주제 : Backpropagation and Computation Graphs 📌 목차 정리 1. Matrix gradient for NN (1) NN 의 과정 feedforward : X * W = output vector = predict 값 backpropagation : output vector 를 weight matrix 에 대해 미분 (2) 가중치 행렬 (parameter) 의 미분 Chain Rule : 함수의 연쇄법칙을 기반으로 이루어지는 계산 규칙 (합성함수의 미분) NN 은 chain rule 을 이용해 최종 scalar 값을 weight 로 미분해가며 가중치를 업데이트 하는 방식으로 학습을 진행한다. dz/dw 를 계산하는 과정 (3) Gradient Tips 변수를 잘 정의하고 .. 2022. 3. 18.
NLP deep learning 👀 위키독스 : https://wikidocs.net/35476 의 딥러닝 개요 파트 공부한 것 정리 (이미지 출처는 모두 위키독스 홈페이지) 📌 소프트맥스 회귀 로지스틱회귀 : 이진 분류 문제 VS 소프트맥스 회귀 : 다중 클래스 분류 문제 대표적인 다중 클래스 분류 예제 : iris 붓꽃 품종 분류 (k=3) Softmax function 클래스의 개수가 k 개일 때, k 차원의 벡터를 입력받아 각 클래스에 대한 확률을 추정한다. zi : k차원의 벡터에서 i 번째 원소 pi : i 번째 클래스가 정답일 확률 k 차원의 벡터를 입력 → 벡터 원소 값을 0과 1 사이의 값으로 변경 → 다시 k 차원의 벡터를 반환 👀 샘플 데이터 벡터(4차원) 을 소프트맥스 함수의 입력벡터 3차원으로 축소하는 방법? 👉.. 2022. 3. 15.
[04. 분류] GBM, XGboost 05. GBM 📌 개요 및 실습 💡 부스팅 알고리즘 여러개의 약한 학습기를 순차적으로 학습 - 예측하면서 잘못 예측한 데이터에 가중치 부여를 통해 오류를 개선해 나가면서 학습하는 방식이다. 대표 알고리즘 : AdaBoost, Gradient Booting Machine(GBM), XGBoost, LightGBM, CatBoost 1️⃣ AdaBoost → 오류 데이터에 가중치를 부여하면서 부스팅을 수행하는 대표적인 알고리즘 (교재 그림 확인) from sklearn.ensemble import AdaBoostClassifier from sklearn.metrics import accuracy_score clf = AdaBoostClassifier(n_estimators=30, random_state=10.. 2022. 3. 14.
[cs224n] 3강 내용 정리 💡 주제 : Word Window Classification, NN and Matrix Calculus 📌 핵심 Task : 분류 - 개체명 분류 (Named Entity Recognition) 📌 목차 정리 1. Classification Review / introduction NLP 에서의 분류 문제 👉 input data : 단어, 문장, 문서 등 👉 Class : 감정분류, 개체명 분류 (Named entity) , 같은 의미/품사의 단어끼리 분류 등 👉 결정경계 (decision boundary) 를 결정할 Weight 를 학습 지도학습 👉 Train set → Loss function → Validation / Test set 손실함수 👉 예측한 데이터(y hat) 의 확률분포와 실제 데이터(.. 2022. 3. 14.
728x90