🐳 Introduction to statistical learning 교재를 공부한 내용을 정리하였습니다.
📌 summary
chapter 2. Statistical learning
💙 실습 데이터셋에 대한 설명
2 - 1️⃣ What is statistical learning
🔹 Advertising data example
▢ 광고와 매출 사이의 관계 : 광고예산에 따른 매출 예측 모델 생성하기
→ input : X1 (TV 광고 예산) , X2 (라디오 광고 예산), X3 (신문 광고 예산)
→ output : Y (매출액)
▢ input 의 동의어
- predictors
- independent variables
- features
- variables
▢ output 의 동의어
- response
- dependent variable
▢ Statistical learning = f 를 추정하는 것에 대한 접근법
🔹 Whay estimate f ?
function f 를 추정하는 이유는 크게 prediction 과 inference 2가지가 있다.
1. Prediction
▢ Y 값의 예측에 관한 이야기
- Y hat 의 정확도는 reducible (줄일 수 있는) error 와 irreducible (줄일 수 없는) error 두 가지 수치에 관해 결정된다.
▢ reducible error
- f̂ 와 f의 불일치로 발생하는 오류로, 예측 수행 시 향상된 방법 등을 통해서 갭을 줄여나갈 수 있음
▢ irreducible error , ϵ
- Irreducible errors는 X들로는 완전히 Y에 대해 결정할 수 없다라는점에서 도출되는 오류
- X와는 의존적이지 않지만, Y에 영향을 미치는 요소들을 Irreducible errors 라고 함
- Irreducible errors를 개선하기 위한 방법은 이러한 요소들을 식별하고 예측변수로 (즉 X로) 변환하는 방법이 유일
- irreducible error 는 항상 Y 의 예측 정확도의 upper bound 에 위치하므로 값을 모르는 경우가 많다.
2. Inference
▢ Y 가 X1,...,Xp 가 변화할 때 영향을 받는지에 관한 이야기 → Relationship between X and Y
👉 Understanding how Y changes as a function of X1, .., Xp
1. 어떤 독립변수가 종속변수와 관련이 있나 : Y 와 관련있는 중요한 변수 X 를 도출
2. 각 X 에 관해 Y 와 어떤 관계를 가지고 있나 : positive or negative
3. X와 Y 의 관계를 linear 선형 방정식으로 표현할 수 있는가 아니면 더 복잡한 수식으로 표현해야 하는가
💨 예측과 추론을 동시에 요하는 modeling task 도 존재함
🔹 How do we estimate f ?
f 를 추정하는 방법에는 Parametric 과 non-paramatic 한 방법이 있다.
▢ linear and non-linear approaches for estimating unknown funciton f
▢ training data : x (input), y(output)
1. parametric
Fist step. 함수 형태에 대한 가정을 도입한다.
▢ 가령 선형함수를 모델로 선택했다면 우리는 모델에 대한 차원을 고려할 필요 없이 단순히 계수 추정만 진행하면 된다.
Second step. 선택된 모델에 관해 trainng data 로 모델을 훈련시킨다.
▢ 선택된 모델에 대해 training data 로 훈련을 진행하면 파라미터를 추정할 수 있다. 선형모델에서는 주로 least square 방식을 통해 계수를 추정한다.
🙄 Parametric 한 방법은 f 를 추정하는데 고려할 요소가 적어 편리하지만, unknown 한 실제 f 와 잘 맞지 않는다면 잘못된 추정을 진행할 수도 있다. flexible 한 모델을 찾기 위해 다양한 함수를 적용해볼 수 있으나, 통상적으로 flexible 한 모델은 많은 수의 파라미터를 추정해야하며 더 복잡한 모델 구조는 오버피팅을 불러와 error 나 noise 를 발생시킬 수 있다.
2. non-parametric
▢ 함수 형태에 대한 명확한 가정을 도입하지 않는다. 대신 데이터를 잘 설명할 수 있는 f 를 추정한다.
▢ parametric 한 방법처럼 명확한 가정을 도입하지 않음으로써 가능한 f 모형에 대해 더 정확한 함수를 적용하게 될 수도 있다.
▢ non-parametric 한 방법은 f 를 추정하는 것에 관한 문제까지 포함해야하기 때문에, 정확한 f 를 추정하기 위해선 많은 관측과 시도가 필요하다.
▢ Example : thin-plate spline
- f 에 관한 구체적인 모델 형태를 사전에 정의하지 않고, 최대한 관측된 데이터에 fit 하도록 추정되는 f 를 만든다.
- 위와 같은 spline 형태를 훈련시킴으로써 모델의 smootheness 정도를 선택할 수 있게 된다.
- 그러나 spline 형태도 다양하게 적용될 수 있기 때문에 오버피팅이 될 수 있으므로 유의해야 한다.
'1️⃣ AI•DS > ⚾ 계량경제•통계' 카테고리의 다른 글
계량경제학 스터디 CH7,8,9,10정리 (0) | 2023.03.31 |
---|---|
계량경제학 스터디 CH3,4,5,6 정리 (0) | 2023.03.19 |
계량경제학 스터디 CH1,2 정리 (1) | 2023.03.13 |
Mathematical Statistics with application : chapter 2 (0) | 2022.07.20 |
Mathematical Statistics with application : chapter 1 (0) | 2022.07.18 |
댓글