728x90
📌 2장. 통계 분석기법
1️⃣ 시계열 분석 ⭐⭐ - 정상성, 여러 시계열 모형
(1) 시계열 자료
- 시간의 흐름에 따라 관찰된 값
- 분석을 통해 미래의 값을 예측하고 경향, 주기, 계절성 등을 파악해 활용한다.
🔹 종류
- 비정상성 시계열 자료 : 다루기 어려운 자료로 대부분의 시계열 자료가 여기에 해당한다.
- 정상성 시계열 자료 : 비정상 시계열을 핸들링하여 다루기 쉬운 시계열 자료로 변환한 자료이다.
(2) 정상성
- 시계열의 확률적인 성질들이 시간의 흐름에 따라 변하지 않는다는 것을 의미
- 시계열 분석을 하려면 정상성을 만족해야 한다.
- 정상 시계열은 어떤 시점에서 평균과 분산, 그리고 특정한 시차의 길이를 갖는 자기공분산을 측정해도 동일한 값을 가진다. 항상 그 평균 값으로 회귀하려는 경향이 있으며 그 평균값 주변의 변동은 대체로 일정한 폭을 갖는다.
- 정상 시계열이 아닌 경우, 특정 기간의 시계열 자료로부터 얻은 정보를 다른 시기로 일반화 할 수 없다.
🔹 정상성의 조건
- 평균이 일정 : 모든 시점에 대해 평균이 일정해야 한다. 일정하지 않은 시계열은 '차분' 을 통해 정상화 한다.
- 분산이 일정 : 시점에 의존하지 않고 일정해야 한다. 일정하지 않은 경우 '변환' 을 통해 정상화 한다.
- 공분산도 일정 : 단지 시차에만 의존하고 특정 시점인 t,s 에는 의존하지 않는다.
🔹 차분이란
- 현 시점의 자료에서 전 시점의 자료를 빼는 것
- 일반차분 : 바로 전 시점의 자료를 빼는 방법
- 계절 차분 : 여러 시점 전의 자료를 빼는 방법. 주로 계절성을 갖는 자료를 정상화 하는데 사용한다.
(3) 분석 방법
- 회귀분석 방법, Box-Jenkins 방법, 지수 평활법, 시계열 분해법 등
🔹 자료의 형태에 따른 분석 방법
- 일변량 시계열 분석 : Box Jenkins (ARMA) , 지수평활법, 시계열 분해법, 주가/소매물가지수 등 하나의 변수에 관심을 갖는 경우의 시계열 분석
- 다중 시계열 분석 : 계량경제 모형, 전이함수모형, 개입분석, 상태공간 분석, 다변량 ARIMA 등에 해당하며 여러개의 시간(t) 에 따른 변수들을 활용하는 시계열 분석이다.
🔹 이동평균법
- 과거로부터 현재까지의 시계열 자료를 대상으로 일정기간 별 '이동평균' 을 계산하고 이들의 추세를 파악해 다음 기간을 예측하는 방법이다.
- 시계열 자료에서 계절변동과 불규칙 변동을 제거해 추세변동과 순환변동만 가진 시계열로 변환하는 방법으로도 사용된다.
- m : 이동평균한 특정 기간 👉 적절한 m 의 개수를 결정하는 것이 중요하다.
- 간단하고 쉽게 미래를 예측 가능
- 자료의 수가 많고 안정화된 패턴을 보이는 경우 예측의 품질이 높다.
- 특정 기간 안에 속하는 시계열에 대해서는 동일한 가중치를 부여한다.
- 시계열 자료에 뚜렷한 추세가 있거나 불규칙 변동이 심하지 않은 경우에는 짧은 기간의 평균을 사용한다 (반대는 긴 기간의 평균)
🔹 지수 평활법
- 모든 시계열 자료를 사용해 평균을 구하며, 시간의 흐름에 따라 최근 시계열에 더 많은 가중치를 두어 미래를 예측하는 방법이다.
- 지수평활계수가 과거로 갈수록 지수형태로 감소한다.
- 단기간에 발생하는 불규칙 변동을 평활하는 방법이다.
- 자료의 수가 많고 안정화된 패턴을 보이는 경우일수록 예측 품질이 높다.
- α : 지수평활계수 👉 불규칙 변동이 큰 시계열의 경우 작은값을 부여한다. 0.05~0.3의 값 사이로 부여
- 지수평활계수는 예측오차를 비교해 예측오차가 가장 작은 값을 선택하는 것이 바람직
- 지수평활계수는 불규칙변동의 영향을 제거하는 효과가 있으며 중기 예측 이상에 주로 사용된다.
(4) 시계열 모형
🔹 자기회귀모형 AR
- p 시점 전의 자료가 현재 자료에 영향을 주는 특성을 '자기상관성' 이라고 하며 자기회귀모형이란 자기 상관성을 시계열 모형으로 구성한 것이다.
- 자기상관함수 ACF : 시계열 데이터의 자기상관성을 파악하기 위한 함수이다.
- αt : 백색잡음과정으로 오차항에 해당한다.
- AR(1) 모형 : 바로 직전 데이터가 다음 데이터에 영향을 준다고 가정한 모형이다.
- AR(2) 모형 : 2시점 전의 데이터가 현재 데이터에 영향을 준다고 가정한 모형으로 연속된 2시점 정도의 데이터로 분석을 진행한다.
- ACF 는 빠르게 감소, 부분자기함수 PACF 는 어느 시점에서 절단점을 가진다.
➕ 참고
- 자기상관계수 : k 기간 떨어진 값들의 상관계수
- 부분자기상관계수 : 서로 다른 두 시점 사이의 관계를 분석할 때, 중간에 있는 값들의 영향을 제외시킨 상관관계 개념
🔹 이동평균 모형 MA
- 이동평균 모형 MA 모형이란, 시간이 지날수록 관측치의 평균값이 지속적으로 증가하거나 감소하는 경향을 표현한 시계열 모형이다.
- 현 시점의 자료를 유한한 개수의 백색잡음의 결합으로 표현하므로 언제나 정상성을 만족한다.
- AR 모형과 반대로 ACF 에서 절단점을 가지고 PACF 가 빠르게 감소한다.
🔹 자기회귀누적이동평균 모형 ARIMA(p,d,q)
- 자기회귀와 이동 평균을 모두 고려하는 모형으로 과거값과 과거 예측오차를 통해 현재값을 설명한다.
- ARIMA 모형은 비정상 시계열 모형이므로 차분이나 변환을 통해 AR 모형이나 MA 모형 이 둘을 합친 ARMA 모형으로 정상화할 수 있다.
- p : AR 모형, q : MA 모형, d : 차분의 횟수
- 시계열 Zt 의 d 번 차분한 시계열 ARMA(p,q) 모형이면 시계열 Zt 는 차수가 p,d,q 인 ARIMA 모형을 갖는다고 한다.
- d=0 👉 ARMA(p,q) 모형이라 부르고 정상성을 만족
- p=0 👉 IMA(d,q) 모형이라 부르고 d번 차분하면 MA(q) 모형을 따른다.
- q=0 👉 ARI(d,q) 모형이라 부르고 d번 차분하면 AR(p) 모형을 따른다.
🔹 분해시계열
- 시계열에 영향을 주는 일반적인 요인을 시계열에서 분리해 분석하는 방법을 말하며 회귀분석적인 방법을 주로 사용한다.
- Zt = f (Tt, St, Ct, It)
- Tt : 경향요인으로 자료가 오르거나 내리는 추세, 선형, 이차식 형태, 지수식 형태 등
- St : 계절요인. 요일, 월, 분기에 의한 변화 등 고정된 주기에 따라 자료가 변하는 경우
- Ct : 순환요인. 경제적이거나 자연적인 이유 없이 알려지지 않은 주기를 가지고 변화하는 자료
- It : 불규칙 요인. 위의 세 가지 요인으로 설명할 수 없는 오차에 해당하는 요인
2️⃣ 비모수 통계 ⭐ - 개념, 모수적 통계와 비교
(1) 개요
- 모집단의 모수
- 모수적 검정 : 모집단의 분포에 대한 가정을 하고 그 가정 하에서 검정통계량과 검정통계량의 분포를 유도해 검정을 실시하는 방법
- 비모수적 검정 : 추출된 모집단의 분포에 대한 아무 제약을 가하지 않고 검정을 실시. 자료가 특정 분포를 따른다고 가정할 수 없는 경우에 이용한다. 관측된 자료의 수가 많지 않거나 (30개 미만) 자료가 개체간의 서열관계를 나타내는 경우에 이용한다.
모수적 검정 | 비모수 검정 | |
가설설정 | 가정된 분포의 모수에 대해 가설설정 | 가정된 분포가 없으므로 단지 '분포의 형태가 동일하다'와 같은 분포의 형태에 대해 설정한다. |
검정방법 | 관측된 자료를 이용해 구한 표본평균, 표본 분산 등을 이용해 검정을 실시 | 관측값의 절대적인 크기에 의존하지 않는 관측값들의 순위나 두 관측 값 차이의 부호를 이용해 검정 |
(2) Kolmogorov-Smirnov 검정 (단일표본)
- 관측치들이 정규분포, 포아송분포 등과 같은 특정한 분포를 따르는지에 대해 검정하는 방법
- 데이터는 순위자료 이상이여야 하며, 연속적 분포를 가정할 수 있어야 한다.
- H0 : 주어진 자료의 분포는 00 분포를 따른다.
- 검정통계량 Z가 작을수록 귀무가설을 기각하지 못하게 된다.
- 누적관측분포와 누적이론적 분포와의 가장 큰 차이로부터 검정통계량이 계산된다.
(3) Mann-Whitney U 검정 (독립 두 표본) : 순위합
- 두 집단의 분포가 동일한지를 조사하는 기법
- 두 집단의 관측치를 통합해 크기순으로 정렬한 뒤 순위를 부여한다. 만약 두 관측치 값이 동일하면 가운데 순위가 부여된다.
- 집단별로 그 순위의 합을 구해 두 집단의 순위합 크기가 통계적으로 차이가 있는지를 검정하는 방법이다.
- Wilcoxon rank sum 검정과 검정통계량은 다르지만 검정 결과는 동일하다.
- H0 : 두 집단의 순위합은 동일하다 (차이가 없다)
- 독립된 두 집단의 평균차이를 비교하고자 할 때, 정규성 가정을 만족하면 독립표본 t 검정을 사용하고 정규성 가정을 만족하지 않으면 비모수적 검정 방법에서 Mann-Whitney U 검정 혹은 Wilcoxon rank sum 검정을 사용한다.
(4) Wilcoxon signed-rank test (대응 두 표본) : 중앙값 차이
- 대응되는 (쌍을 이루는) 두 데이터의 중위수에 차이가 있는지를 검정하는 비모수 통계기법
- 각 쌍의 차이의 부호와 크기에 대한 정보를 토대로 분포를 비교한다.
- H0 : 두 집단의 중앙값은 동일하다.
(5) Run test (런 검정)
- 일련의 연속적인 관측값들이 임의적으로 나타난 것인지를 검정하는 방법
- 관측값들이 얻어진 순서에 근거하여 표본의 독립성을 판단하는 비모수적 검정 방법이다.
- Run : 한 집단이 시작하여 끝날 때까지의 한 덩어리
- 예시) ( A A A B B A B B B A ) → AAA / BB / A / BBB / A → 런의 개수는 5개
- 양의 계열상관이 있으면 이전 시점의 값이 이후에도 지속되는 경향을 보인다. (음의 계열 상관은 반대)
- 표본이 독립성은 런이 중앙값 선을 어떻게 지나가느냐에 따라 결정되는데, 런이 중앙선을 기준으로 할 때 교차가 너무 많이 일어나거나 매우 적게 일어나는 경우에는 독립성을 보장하지 못한다.
- 표본이 독립이라는 귀무가설이 참이면 런의 수 R은 근사적으로 정규분포를 따르게 된다.
- H0 : 일련의 관측치는 랜덤이다 (표본은 독립이다)
728x90
'2️⃣ Study > ▢ 자격증 | 교육' 카테고리의 다른 글
[빅분기] 3과목 빅데이터 모델링 : 5장 (0) | 2022.04.07 |
---|---|
[빅분기] 3과목 빅데이터 모델링 : 4장 딥러닝 (0) | 2022.04.06 |
[빅분기] 3과목 빅데이터 모델링 : 2장 통계분석 기법_part2 (0) | 2022.03.31 |
[빅분기] 3과목 빅데이터 모델링 : 2장 통계 분석기법 Part1 (0) | 2022.03.30 |
[빅분기] 3과목 빅데이터 모델링 : 1장 분석모형설계 (0) | 2022.03.28 |
댓글