본문 바로가기
2️⃣ Study/▢ 자격증 | 교육

[빅분기] 3과목 빅데이터 모델링 : 2장 통계분석 기법_part2

by isdawell 2022. 4. 3.
728x90

📌 2장. 통계 분석기법

 

1️⃣ 시계열 분석 ⭐⭐ - 정상성, 여러 시계열 모형 

(1) 시계열 자료 

  • 시간의 흐름에 따라 관찰된 값 
  • 분석을 통해 미래의 값을 예측하고 경향, 주기, 계절성 등을 파악해 활용한다. 

🔹 종류 

  • 비정상성 시계열 자료 : 다루기 어려운 자료로 대부분의 시계열 자료가 여기에 해당한다. 
  • 정상성 시계열 자료 : 비정상 시계열을 핸들링하여 다루기 쉬운 시계열 자료로 변환한 자료이다. 

 

(2) 정상성 

  • 시계열의 확률적인 성질들이 시간의 흐름에 따라 변하지 않는다는 것을 의미
  • 시계열 분석을 하려면 정상성을 만족해야 한다. 
  • 정상 시계열은 어떤 시점에서 평균과 분산, 그리고 특정한 시차의 길이를 갖는 자기공분산을 측정해도 동일한 값을 가진다. 항상 그 평균 값으로 회귀하려는 경향이 있으며 그 평균값 주변의 변동은 대체로 일정한 폭을 갖는다. 
  • 정상 시계열이 아닌 경우, 특정 기간의 시계열 자료로부터 얻은 정보를 다른 시기로 일반화 할 수 없다. 

 

🔹 정상성의 조건 

  • 평균이 일정 : 모든 시점에 대해 평균이 일정해야 한다. 일정하지 않은 시계열은 '차분' 을 통해 정상화 한다. 
  • 분산이 일정 : 시점에 의존하지 않고 일정해야 한다. 일정하지 않은 경우 '변환' 을 통해 정상화 한다. 
  • 공분산도 일정 : 단지 시차에만 의존하고 특정 시점인 t,s 에는 의존하지 않는다. 

🔹 차분이란

  • 현 시점의 자료에서 전 시점의 자료를 빼는 것 
  • 일반차분 : 바로 전 시점의 자료를 빼는 방법 
  • 계절 차분 : 여러 시점 전의 자료를 빼는 방법. 주로 계절성을 갖는 자료를 정상화 하는데 사용한다. 

 

(3) 분석 방법

  • 회귀분석 방법, Box-Jenkins 방법, 지수 평활법, 시계열 분해법 등 

🔹 자료의 형태에 따른 분석 방법 

  • 일변량 시계열 분석 : Box Jenkins (ARMA) , 지수평활법, 시계열 분해법, 주가/소매물가지수 등 하나의 변수에 관심을 갖는 경우의 시계열 분석 
  • 다중 시계열 분석 : 계량경제 모형, 전이함수모형, 개입분석, 상태공간 분석, 다변량 ARIMA 등에 해당하며 여러개의 시간(t) 에 따른 변수들을 활용하는 시계열 분석이다. 

 

🔹 이동평균법 

  • 과거로부터 현재까지의 시계열 자료를 대상으로 일정기간 별 '이동평균' 을 계산하고 이들의 추세를 파악해 다음 기간을 예측하는 방법이다. 
  • 시계열 자료에서 계절변동과 불규칙 변동을 제거해 추세변동과 순환변동만 가진 시계열로 변환하는 방법으로도 사용된다. 
  • m : 이동평균한 특정 기간 👉 적절한 m 의 개수를 결정하는 것이 중요하다. 
  • 간단하고 쉽게 미래를 예측 가능
  • 자료의 수가 많고 안정화된 패턴을 보이는 경우 예측의 품질이 높다. 
  • 특정 기간 안에 속하는 시계열에 대해서는 동일한 가중치를 부여한다. 
  • 시계열 자료에 뚜렷한 추세가 있거나 불규칙 변동이 심하지 않은 경우에는 짧은 기간의 평균을 사용한다 (반대는 긴 기간의 평균) 

 

🔹 지수 평활법 

  • 모든 시계열 자료를 사용해 평균을 구하며, 시간의 흐름에 따라 최근 시계열에 더 많은 가중치를 두어 미래를 예측하는 방법이다. 
  • 지수평활계수가 과거로 갈수록 지수형태로 감소한다. 
  • 단기간에 발생하는 불규칙 변동을 평활하는 방법이다. 
  • 자료의 수가 많고 안정화된 패턴을 보이는 경우일수록 예측 품질이 높다. 
  • α : 지수평활계수 👉 불규칙 변동이 큰 시계열의 경우 작은값을 부여한다. 0.05~0.3의 값 사이로 부여 
  • 지수평활계수는 예측오차를 비교해 예측오차가 가장 작은 값을 선택하는 것이 바람직 
  • 지수평활계수는 불규칙변동의 영향을 제거하는 효과가 있으며 중기 예측 이상에 주로 사용된다. 

 

(4) 시계열 모형 

 

🔹 자기회귀모형 AR

  • p 시점 전의 자료가 현재 자료에 영향을 주는 특성 '자기상관성' 이라고 하며 자기회귀모형이란 자기 상관성을 시계열 모형으로 구성한 것이다. 
  • 자기상관함수 ACF : 시계열 데이터의 자기상관성을 파악하기 위한 함수이다. 
  • αt : 백색잡음과정으로 오차항에 해당한다. 
  • AR(1) 모형 : 바로 직전 데이터가 다음 데이터에 영향을 준다고 가정한 모형이다. 
  • AR(2) 모형 : 2시점 전의 데이터가 현재 데이터에 영향을 준다고 가정한 모형으로 연속된 2시점 정도의 데이터로 분석을 진행한다. 
  • ACF 는 빠르게 감소, 부분자기함수 PACF 는 어느 시점에서 절단점을 가진다. 

 

➕ 참고 

  • 자기상관계수 : k 기간 떨어진 값들의 상관계수 
  • 부분자기상관계수 : 서로 다른 두 시점 사이의 관계를 분석할 때, 중간에 있는 값들의 영향을 제외시킨 상관관계 개념 

 

🔹 이동평균 모형 MA 

  • 이동평균 모형 MA 모형이란, 시간이 지날수록 관측치의 평균값이 지속적으로 증가하거나 감소하는 경향을 표현한 시계열 모형이다. 
  • 현 시점의 자료를 유한한 개수의 백색잡음의 결합으로 표현하므로 언제나 정상성을 만족한다. 
  • AR 모형과 반대로 ACF 에서 절단점을 가지고 PACF 가 빠르게 감소한다. 

 

🔹 자기회귀누적이동평균 모형 ARIMA(p,d,q) 

  • 자기회귀와 이동 평균을 모두 고려하는 모형으로 과거값과 과거 예측오차를 통해 현재값을 설명한다. 
  • ARIMA 모형은 비정상 시계열 모형이므로 차분이나 변환을 통해 AR 모형이나 MA 모형 이 둘을 합친 ARMA 모형으로 정상화할 수 있다. 
  • p : AR 모형, q : MA 모형, d : 차분의 횟수 
  • 시계열 Zt 의 d 번 차분한 시계열 ARMA(p,q) 모형이면 시계열 Zt 는 차수가 p,d,q 인 ARIMA 모형을 갖는다고 한다. 
  • d=0 👉 ARMA(p,q) 모형이라 부르고 정상성을 만족 
  • p=0 👉 IMA(d,q) 모형이라 부르고 d번 차분하면 MA(q) 모형을 따른다. 
  • q=0 👉 ARI(d,q) 모형이라 부르고 d번 차분하면 AR(p) 모형을 따른다. 

 

 

 

🔹 분해시계열

  • 시계열에 영향을 주는 일반적인 요인을 시계열에서 분리해 분석하는 방법을 말하며 회귀분석적인 방법을 주로 사용한다. 
  • Zt = f (Tt, St, Ct, It)
  • Tt : 경향요인으로 자료가 오르거나 내리는 추세, 선형, 이차식 형태, 지수식 형태 등 
  • St : 계절요인. 요일, 월, 분기에 의한 변화 등 고정된 주기에 따라 자료가 변하는 경우 
  • Ct : 순환요인. 경제적이거나 자연적인 이유 없이 알려지지 않은 주기를 가지고 변화하는 자료 
  • It : 불규칙 요인. 위의 세 가지 요인으로 설명할 수 없는 오차에 해당하는 요인 

 

2️⃣ 비모수 통계 ⭐ - 개념, 모수적 통계와 비교 

 

(1) 개요 

  • 모집단의 모수 
  • 모수적 검정 : 모집단의 분포에 대한 가정을 하고 그 가정 하에서 검정통계량과 검정통계량의 분포를 유도해 검정을 실시하는 방법 
  • 비모수적 검정 : 추출된 모집단의 분포에 대한 아무 제약을 가하지 않고 검정을 실시. 자료가 특정 분포를 따른다고 가정할 수 없는 경우에 이용한다. 관측된 자료의 수가 많지 않거나 (30개 미만) 자료가 개체간의 서열관계를 나타내는 경우에 이용한다. 
  모수적 검정 비모수 검정
가설설정 가정된 분포의 모수에 대해 가설설정 가정된 분포가 없으므로 단지 '분포의 형태가 동일하다'와 같은 분포의 형태에 대해 설정한다. 
검정방법 관측된 자료를 이용해 구한 표본평균, 표본 분산 등을 이용해 검정을 실시  관측값의 절대적인 크기에 의존하지 않는 관측값들의 순위나 두 관측 값 차이의 부호를 이용해 검정 

 

 

(2) Kolmogorov-Smirnov 검정 (단일표본) 

  • 관측치들이 정규분포, 포아송분포 등과 같은 특정한 분포를 따르는지에 대해 검정하는 방법 
  • 데이터는 순위자료 이상이여야 하며, 연속적 분포를 가정할 수 있어야 한다. 
  • H0 : 주어진 자료의 분포는 00 분포를 따른다. 
  • 검정통계량 Z가 작을수록 귀무가설을 기각하지 못하게 된다. 
  • 누적관측분포와 누적이론적 분포와의 가장 큰 차이로부터 검정통계량이 계산된다. 

 

 

(3) Mann-Whitney U 검정 (독립 두 표본) : 순위합

  • 두 집단의 분포가 동일한지를 조사하는 기법 
  • 두 집단의 관측치를 통합해 크기순으로 정렬한 뒤 순위를 부여한다. 만약 두 관측치 값이 동일하면 가운데 순위가 부여된다. 
  • 집단별로 그 순위의 합을 구해 두 집단의 순위합 크기가 통계적으로 차이가 있는지를 검정하는 방법이다. 
  • Wilcoxon rank sum 검정과 검정통계량은 다르지만 검정 결과는 동일하다. 
  • H0 : 두 집단의 순위합은 동일하다 (차이가 없다) 
  • 독립된 두 집단의 평균차이를 비교하고자 할 때, 정규성 가정을 만족하면 독립표본 t 검정을 사용하고 정규성 가정을 만족하지 않으면 비모수적 검정 방법에서 Mann-Whitney U 검정 혹은 Wilcoxon rank sum 검정을 사용한다. 

 

 

(4) Wilcoxon signed-rank test (대응 두 표본) : 중앙값 차이 

  • 대응되는 (쌍을 이루는) 두 데이터의 중위수에 차이가 있는지를 검정하는 비모수 통계기법 
  • 각 쌍의 차이의 부호와 크기에 대한 정보를 토대로 분포를 비교한다. 
  • H0 : 두 집단의 중앙값은 동일하다. 

 

(5) Run test (런 검정) 

  • 일련의 연속적인 관측값들이 임의적으로 나타난 것인지를 검정하는 방법 
  • 관측값들이 얻어진 순서에 근거하여 표본의 독립성을 판단하는 비모수적 검정 방법이다. 
  • Run : 한 집단이 시작하여 끝날 때까지의 한 덩어리 
  • 예시) ( A A A B B A B B B A ) → AAA / BB / A / BBB / A → 런의 개수는 5개 
  • 양의 계열상관이 있으면 이전 시점의 값이 이후에도 지속되는 경향을 보인다. (음의 계열 상관은 반대) 
  • 표본이 독립성은 런이 중앙값 선을 어떻게 지나가느냐에 따라 결정되는데, 런이 중앙선을 기준으로 할 때 교차가 너무 많이 일어나거나 매우 적게 일어나는 경우에는 독립성을 보장하지 못한다. 
  • 표본이 독립이라는 귀무가설이 참이면 런의 수 R은 근사적으로 정규분포를 따르게 된다. 
  • H0 : 일련의 관측치는 랜덤이다 (표본은 독립이다) 

 

728x90

댓글