본문 바로가기
1️⃣ AI•DS/⚾ 계량경제•통계

Introduction to statistical learning - ch2

by isdawell 2022. 8. 2.
728x90

🐳 Introduction to statistical learning 교재를 공부한 내용을 정리하였습니다. 

 

 

📌 summary 

 

 

 

 

 

 

 

 

 

chapter 2.  Statistical learning 

 

 

 

 

 

💙 실습 데이터셋에 대한 설명 

 

 

 

 

 

 

2 - 1️⃣  What is statistical learning 


 

🔹  Advertising data example

 

▢ 광고와 매출 사이의 관계 : 광고예산에 따른 매출 예측 모델 생성하기 

 

→ input : X1 (TV 광고 예산) , X2 (라디오 광고 예산), X3 (신문 광고 예산) 

→ output : Y (매출액) 

 

▢ input 의 동의어 

  • predictors 
  • independent variables 
  • features 
  • variables 

 

▢ output 의 동의어 

  • response 
  • dependent variable 

 

 

 

 

 

▢ Statistical learning = f 를 추정하는 것에 대한 접근법 

 

 

 

🔹  Whay estimate f ? 

 

function f 를 추정하는 이유는 크게 prediction 과 inference 2가지가 있다. 

 

1.  Prediction 

 

▢ Y 값의 예측에 관한 이야기 

 

 

 

  • Y hat 의 정확도는 reducible (줄일 수 있는) error irreducible (줄일 수 없는) error 두 가지 수치에 관해 결정된다. 

 

 

 

▢ reducible error

 

  •  f̂ 와 f의 불일치로 발생하는 오류로, 예측 수행 시 향상된 방법 등을 통해서 갭을 줄여나갈 수 있음

 

▢ irreducible error , ϵ

 

  • Irreducible errors는 X들로는 완전히 Y에 대해 결정할 수 없다라는점에서 도출되는 오류
  • X와는 의존적이지 않지만, Y에 영향을 미치는 요소들을 Irreducible errors 라고 함
  • Irreducible errors를 개선하기 위한 방법은 이러한 요소들을 식별하고 예측변수로 (즉 X로) 변환하는 방법이 유일
  • irreducible error 는 항상 Y 의 예측 정확도의 upper bound 에 위치하므로 값을 모르는 경우가 많다. 

 

 

 

2. Inference 

 

▢ Y 가 X1,...,Xp 가 변화할 때 영향을 받는지에 관한 이야기 → Relationship between X and Y 

 

👉 Understanding how Y changes as a function of X1, .., Xp

 

 

1. 어떤 독립변수가 종속변수와 관련이 있나 : Y 와 관련있는 중요한 변수 X 를 도출
2. 각 X 에 관해 Y 와 어떤 관계를 가지고 있나 : positive or negative 
3. X와 Y 의 관계를 linear 선형 방정식으로 표현할 수 있는가 아니면 더 복잡한 수식으로 표현해야 하는가 

 

 

💨 예측과 추론을 동시에 요하는 modeling task 도 존재함 

 

 

 

 

🔹  How do we estimate f ? 

 

f 를 추정하는 방법에는 Parametric 과 non-paramatic 한 방법이 있다. 

 

linear and non-linear approaches for estimating unknown funciton f 

 

training data : x (input), y(output) 

 

 

 

 

1. parametric 

 

 

Fist step. 함수 형태에 대한 가정을 도입한다.

 

 

▢ 가령 선형함수를 모델로 선택했다면 우리는 모델에 대한 차원을 고려할 필요 없이 단순히 계수 추정만 진행하면 된다. 

 

 

Second step. 선택된 모델에 관해 trainng data 로 모델을 훈련시킨다. 

 

 

▢ 선택된 모델에 대해 training data 로 훈련을 진행하면 파라미터를 추정할 수 있다. 선형모델에서는 주로  least square 방식을 통해 계수를 추정한다. 

 

 

🙄 Parametric 한 방법은 f 를 추정하는데 고려할 요소가 적어 편리하지만, unknown 한 실제 f 와 잘 맞지 않는다면 잘못된 추정을 진행할 수도 있다. flexible 한 모델을 찾기 위해 다양한 함수를 적용해볼 수 있으나, 통상적으로 flexible 한 모델은 많은 수의 파라미터를 추정해야하며 더 복잡한 모델 구조는 오버피팅을 불러와 error 나 noise 를 발생시킬 수 있다. 

 

 

 

 

 

2. non-parametric 

 

 

▢ 함수 형태에 대한 명확한 가정을 도입하지 않는다. 대신 데이터를 잘 설명할 수 있는 f 를 추정한다. 

 

▢ parametric 한 방법처럼 명확한 가정을 도입하지 않음으로써 가능한 f 모형에 대해 더 정확한 함수를 적용하게 될 수도 있다. 

 

▢ non-parametric 한 방법은 f 를 추정하는 것에 관한 문제까지 포함해야하기 때문에, 정확한 f 를 추정하기 위해선 많은 관측과 시도가 필요하다. 

 

 

▢ Example : thin-plate spline 

 

 

  • f 에 관한 구체적인 모델 형태를 사전에 정의하지 않고, 최대한 관측된 데이터에 fit 하도록 추정되는 f 를 만든다.

 

 

  • 위와 같은 spline 형태를 훈련시킴으로써 모델의 smootheness 정도를 선택할 수 있게 된다. 
  • 그러나 spline 형태도 다양하게 적용될 수 있기 때문에 오버피팅이 될 수 있으므로 유의해야 한다. 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

728x90

댓글