DeepAR: Mastering Time-Series Forecasting with Deep Learning
Amazonโs autoregressive deep network
towardsdatascience.com
๐ Summary
โธ DeepAR : Amazon's autoregressive deep network (work on multiple time series)
โข first successful model to combine Deep learning with traditional Probabilistic Forecasting
https://arxiv.org/pdf/1704.04110.pdf
๐น ๋ค๋ณ๋ ์๊ณ์ด
โข ๊ฐ ์๊ฐ ๋จ์๋ง๋ค ์ฌ๋ฌ ๊ฐ์ ๊ฐ์ ๊ฐ์ง๋ ๋ฐ์ดํฐ. ํ๋์ ๋ณ์๊ฐ ์๋ 2๊ฐ ์ด์์ ๋ณ์์ ์๊ณ์ด์ ์ด์ฉํด ๊ฐ ๋ณ์๊ฐ ์๊ณ์ด์ ๋ฐ๋ผ ์ํฅ์ ๋ฏธ์น๋ ์ ๋๋ฅผ ํ์ .
โข ๋จ๋ณ๋ ์๊ณ์ด๊ณผ ๋ค๋ณ๋ ์๊ณ์ด์ ์ฐจ์ด๋, ์์ธก์ ์ํด ์ฌ์ฉํ๋ ์๊ณ์ด ๋ณ์๋ฅผ X๋ผ๊ณ ํ๋ค๋ฉด, X ๋ณ์์ ์๊ณ์ด ์์ ์๋ค. X์ ์๊ณ์ด์ด 1๊ฐ์ด๋ฉด ๋จ๋ณ๋ ์๊ณ์ด์ด๊ณ 2๊ฐ ์ด์์ด๋ฉด ๋ค๋ณ๋ ์๊ณ์ด์ด๋ค. ์์ธกํ๊ณ ์ ํ๋ ๋ณ์์ ์๊ด์์ด X์ ๊ฐ์๊ฐ ์ค์ํ๋ค. ๋จ์ผ ์๊ณ์ด์ ๊ณผ๊ฑฐ๊ฐ (X_t-1) ์ ์ด์ฉํด ๊ทธ ์๊ณ์ด์ ๋ฏธ๋๊ฐ (X_t) ๋ฅผ ์์ธกํ๋ ๋ถ์์ ๋จ๋ณ๋ ์๊ณ์ด ๋ถ์์ด๋ผ ํ๋ค. ์์ธกํ๊ณ ์ ํ๋ ๋ณ์๋ ๋ฌด์กฐ๊ฑด 1๊ฐ์ด๋ค.
https://m.blog.naver.com/2sat/221168219214
[์๊ณ์ด ๋ถ์์ ๊ธฐ์ด] ์๊ณ์ด ๋ชจํ์ ์ข ๋ฅ-2
[์๊ณ์ด ๋ถ์์ ๊ธฐ์ด] ์๊ณ์ด ๋ชจํ์ ์ข ๋ฅ-2 (1) ํฌ์ ๋ ๋ณ์์ ๊ฐ์์ ๋ฐ๋ผ &nb...
blog.naver.com
โข Multiple time series VS Multivariate time series
โช ์์๋ก ์ฝ๊ฒ ์ค๋ช ํ์๋ฉด, ๋ง์ฝ ์ฌ๋ฌ ์ง๋จ์ ํ์๋ค์ ์ฒด์ค์ ๋ชจ๋ํฐ๋ง ํ๋ ์ํฉ์ด๋ผ๋ฉด, ๊ฐ ํ์๋ง๋ค ๋งค์ผ ์ฒด์ค ๊ฐ์ ์ธก์ ํ๊ฒ ๋๋ฉด์ ๊ฐ ํ์๋ณ๋ก ์ฌ๋ฌ ๊ฐ์ ์๊ณ์ด ๋ฐ์ดํฐ๊ฐ ์ป์ด์ง๊ฒ ๋ ๊ฒ์ธ๋ฐ, ์ด๊ฒ์ด ๋ฐ๋ก Multiple time series ์ด๋ค. ๋ฐ๋ฉด, ํน์ ํ์ ํ๋ช ์ ๊ฑด๊ฐ์ํ๋ฅผ ๋ชจ๋ํฐ๋ง ํ๋ ์ํฉ์ด๋ผ๋ฉด, ํ์์ ๋งค์ผ ์ฒด์ค, ์ฒด์จ, ํ์, ์ฝ๋ ์คํ ๋กค ์์น ๋ฑ์ ์ธก์ ํ๊ณ ๊ณ ๋ คํด์ผ ํ๋๋ฐ ์ด๊ฒ์ด ๋ฐ๋ก Multivariate time series ์ด๋ค.
๐น DeepAR
โฐ DeepAR ์ ํน์ง
โข Multiple time series ๋ฅผ ์ง์ํ๋ ๋ชจ๋ธ๋ก, global ํ ํน์ฑ์ ํ์ตํด ์์ธก ์ฑ๋ฅ์ ๋์ธ๋ค.
โข Extra covariates (features) ๋ฅผ ์ง์ํ๋ค. ๊ฐ๋ น ๊ธฐ์จ์ ์์ธกํ๋ค๊ณ ํ์ ๋, ์ต๋, ๊ธฐ์ ๋ฑ์ ๋ณ์๋ฅผ ์ถ๊ฐํด์ ์์ธก์ ์งํํ ์ ์๋ค.
โข ๋จ์ผํ ์์ธก๊ฐ์ ๊ฒฐ๊ณผ๋ก ๋ด๋ฑ์ง ์๊ณ , Probabilistic output ์ ๊ฒฐ๊ณผ๋ก ๊ฐ์ ธ์จ๋ค.
โข ์ฌ๋ฌ ๊ฐ์ ์๊ณ์ด์ ๊ฐ์ง๊ณ ํ์ต์ ์งํํ๊ธฐ ๋๋ฌธ์, ๊ฐ ์๊ณ์ด ๊ฐ์ ์ ์ฌ์ฑ์ ๊ณต์ ํ์ฌ, ์ด์ ์ ํ์ต๋์ง ์์ ๋ฐ์ดํฐ๋ ์์ธก์ ์งํํ ์ ์๋ค.
โฐ LSTM in Deep AR
โข DeepAR ์ Probabilistic ํ ๊ฒฐ๊ณผ๋ฅผ ๋ด๋ฑ๊ธฐ ์ํด LSTM ๋คํธ์ํฌ ๊ตฌ์กฐ๋ฅผ ์ฌ์ฉํ๋ค. LSTM ๋ฅผ ์ง์ ์ ์ผ๋ก ์ฌ์ฉํ๊ธฐ ๋ณด๋จ, ๊ฐ์ฐ์์ ๊ฐ๋ฅ๋ ํจ์๋ฅผ ๋งค๊ฐ๋ณ์ํ (parameterize) ํ๊ธฐ ์ํด ์ฌ์ฉํ๋ค. ์ฆ, ๊ฐ์ฐ์์ ํจ์์ ฮธ = (ฮผ, ฯ) ํ๋ผ๋ฏธํฐ๋ฅผ ์ถ์ ํ๊ธฐ ์ํด ์ฌ์ฉํ๋ค.
โข ์์ฐ์ด์ฒ๋ฆฌ ๋ถ์ผ์์ Transformer ๊ตฌ์กฐ๊ฐ ์ง๋ฐฐ์ ์ด๋ ์๊ณ์ด ๋ถ์ผ, local temporal data (์๊ฐ ๋ฐ์ดํฐ) ๋ฅผ ๋ค๋ฃฐ ๋, LSTM ์ ์ฑ๋ฅ์ด ํจ์ฌ ๋ ๋ฐ์ด๋๋ค.

โฐ DeepAR ์ ๊ตฌ์กฐ in traning

โช ์๊ณ์ด i ์ ๋ํด ํน์ time step t ์ ์๋ค๊ณ ๊ฐ์ ํด๋ณด์.
(1) LSTM cell ์ feature ๋ณ์ x(i,t) ์ ๋ชฉ์ ๋ณ์ z(i, t-1) ์ ์ ๋ ฅ์ผ๋ก ๋ฐ๋๋ค. ๋ํ hidden state ์ธ h(i, t-1) ์ ์ด์ time step ๊ฒฐ๊ณผ๋ก๋ถํฐ ์ ๋ฌ ๋ฐ๋๋ค.
(2) LSTM cell ์ h(i,t) ๋ฅผ ๊ฒฐ๊ณผ๋ก ๋ด๋ฑ๊ณ ๋ค์ time step ์ ์ด ๊ฐ์ ์ ๋ฌํ๋ค.
(3) h(i,t) ๋ฅผ ๊ณ์ฐํ ๋, ฮผ, ฯ ๋ ๊ณ์ฐ๋๋๋ฐ, ์ด๋ ๊ฐ์ฐ์์ ๊ฐ๋ฅ๋ ํจ์ p(y_i|ฮธ_i)= l(z_i,t|ฮฮน,t) ์ ํ๋ผ๋ฏธํฐ ๊ฐ์ด ๋๋ค. ๋ชจ๋ธ์ ๋ชฉ์ ๋ณ์ z(i,t) ๊ฐ ์ค์ ์ ๋ต๊ฐ๊ณผ ๊ฐ๊น์ธ ์ ์๋๋ก ํ๋ ๋ชจ์๋ฅผ ์ฐพ๊ธฐ ์ํด ํ์ต์ ์งํํ๋ค.
โช DeepAR ์ ๊ฐ time ๋ง๋ค ๋จ์ผํ data point ์ ๋์์ผ๋ก ํ์ต์ ์งํํ๊ธฐ ๋๋ฌธ์ autoregressive (AR, ์๊ธฐํ๊ท๋ชจ๋ธ : ๋ณ์์ ๊ณผ๊ฑฐ ๊ฐ์ ์ ํ ์กฐํฉ์ ์ด์ฉํด ๊ด์ฌ์๋ ๋ณ์๋ฅผ ์์ธก) ๋ผ๊ณ ๋ถ๋ฅธ๋ค.
โฐ DeepAR ์ ๊ตฌ์กฐ in inference

โช inference ๋จ๊ณ์์๋ ์ด์ ๋จ๊ณ์ predicted output (training ์ ํตํด ํ์ต๋ ๋ชจ๋ธ๋ก๋ถํฐ ์ป์ด์ง sample) ์ ๋ค์ ๋จ๊ณ์ input ์ผ๋ก ํ์ฉํ๋ค๋ ์ ์์ ์ฐจ์ด๊ฐ ์กด์ฌํ๋ค.
โฐ Gaussian Likelihood
โข MLE ๋ชฉํ : sample data ๋ฅผ ๋ ์ ์ค๋ช ํด์ค ์ ์๋ ํ๋ฅ ๋ถํฌ์ ์ต์ ์ ํ๋ผ๋ฏธํฐ ๊ฐ์ ์ฐพ๋ ๋ฐฉ๋ฒ
โข ๊ฐ์ฐ์์ (์ ๊ท) ๋ถํฌ ๋ ฮผ ์ ฯ ๋ฅผ ๋ชจ์๋ก ๊ฐ๋ ๋ถํฌ์ด๋ค.

โข ๋ชจ์ ์ถ์ ๋จ๊ณ๋ ๋ค์๊ณผ ๊ฐ๋ค. LSTM cell ์ด hidden state h(t) ๋ฅผ ๊ณ์ฐํ ํ, ฮผ ๋ฅผ ๊ณ์ฐํ๊ธฐ ์ํด dense layer W_ฮผ ๋ฅผ ํต๊ณผํ๋ค. ๋ง์ฐฌ๊ฐ์ง๋ก ฯ์ ๋ํด์๋ dense layer W_ ฯ ๋ฅผ ํต๊ณผํ๋ค. ์ด๋ฅผ ํตํด ์ป์ ๋ชจ์ ๊ฐ์ผ๋ก ๊ฐ์ฐ์์ ๋ถํฌ๋ฅผ ์์ฑํ์ฌ sample ์ ๋ง๋ ๋ค. ์ด sample ๊ฐ์ด ์ค์ ์ ๋ต ๊ด์ธก๊ฐ z(i,t) ์ ์ผ๋ง๋ค ์ ์ฌํ์ง ๊ณ์ฐํ๋ฉด์ training ์ด ์ด์ด์ง๋ค. LSTM cell ์ ๊ฐ์ค์น์ 2๊ฐ์ dense layer W_ฮผ , W_ ฯ ๋ ์ญ์ ํ๋ฅผ ํตํด ๊ฐ์ด ์ ๋ฐ์ดํธ ๋๋ค. inference ๋จ๊ณ์์๋ z(i,t) ๋ฅผ ์ฌ์ฉํ์ง ์์์ ์ฃผ์ํ์.
โฐ Auto Scaling
โข ์ฌ๋ฌ ๊ฐ์ ์ด์ง์ ์ธ time series ๋ฅผ ๋ค๋ฃจ๋ ๊ฒ์ ๊น๋ค๋กญ๋ค. ๊ฐ๋ น ์ํ ๋งค์ถ ๋ฐ์ดํฐ๋ผ๊ณ ํ๋ค๋ฉด, ํน์ ์ํ์ ๋งค์ถ ๋จ์๋ ์ฒ์๋ ์ผ ์ ์๊ณ , ๋ค๋ฅธ ์ํ์ ๋งค์ถ ๋จ์๋ ๋ช์ญ์ต ๋จ์์ผ ์๋ ์๋ค. ์ด๋ฌํ ๋จ์์ ์ฐจ์ด๋ ๋ชจ๋ธ์ด ํ์ตํ ๋ ๋ฐฉํด๊ฐ ๋ ์ ์๋ค. ์ด๋ฅผ ๋ฐฉ์งํ๊ธฐ ์ํด DeepAR ์ auto-scaling ๋ฉ์ปค๋์ฆ์ ๋์ ํ๋ค. ๊ฐ time step t ๋ง๋ค ๊ฒฐ๊ณผ๋ก ๋์ถ๋๋ z(i,t) ๋ฅผ v(i) ๋ก rescaling ํด์ค๋ค.

โข DeepAR ์ auto-scaling ์ผ๋ก ์๋์ ์ผ๋ก ์ ๊ทํ๋ฅผ ํด์ฃผ์ง๋ง, ์ ๋ ฅ์ผ๋ก ๋ฃ๊ธฐ ์ ์ ๋จผ์ ์ง์ ์ ๊ทํ๋ฅผ ํด์ฃผ๋ฉด ๋ชจ๋ธ์ ์ฑ๋ฅ์ด ํจ์ฌ ํฅ์๋ ์ ์๋ค๋ ์ ์ ์ฐธ๊ณ ํ์.
โฐ ์ฅ๋จ์
โข DeepAR ์ ARIMA ์ ๊ฐ์ ์ ํต์ ์ธ ์๊ณ์ด ๋ชจํ๋ณด๋ค ์ฑ๋ฅ์ด ๋ฐ์ด๋๋ฉฐ, ์ ์์ฑ ๋ณํ๊ณผ ๊ฐ์ ์ถ๊ฐ์ ์ธ feature preprocessing ๊ณผ์ ์ด ํ์ ์๋ค๋ ์ฅ์ ์ด ์๋ค.
โข DeepAR ๋ชจ๋ธ์ด ๋ฑ์ฅํ๊ณ ๋์, Temporal Fusion Transformer (TFT) ๊ฐ์ ๋ชจ๋ธ๋ค์ด ๋ฑ์ฅํ๋๋ฐ, ์ด ๋์ ์ฐจ์ด์ ์ ๋ํด ์์๋ณด์.
โช Multiple time series : DeepAR ์ ๊ฐ ์๊ณ์ด ์๋ฒ ๋ฉ์ ๋ถ๋ฆฌํด ๊ณ์ฐํ๊ณ ์ด๋ฅผ LSTM ์ feature ๋ก ํ์ฉํด ์๋ก๋ค๋ฅธ ์๊ณ์ด ๋ฐ์ดํฐ๋ฅผ ๊ตฌ๋ณํ ์ ์๋ค. TFT ๋ LSTM ๊ตฌ์กฐ๋ฅผ ์ฌ์ฉํ์ง๋ง, TFT ๋ ์๋ฒ ๋ฉ์ LSTM ์ ์ด๊ธฐ hidden state h_0 ์ ๊ตฌ์ฑํ๊ธฐ ์ํด ํ์ฉํ๋ค๋ ์ ์์ ์ฐจ์ด๊ฐ ์กด์ฌํ๋ค.
โช Type of Forecasting : TFT ๋ AR ๋ชจ๋ธ์ด ์๋๋ค. TFT ๋ multi-horizon forecasing model ์ด๋ค. ๋ฐ๋ผ์ AR ๋ชจ๋ธ์ฒ๋ผ one by one ์ผ๋ก output ์ ์ ๊ณตํ์ง ์๊ณ ํ๋ฒ์ prediction ๊ฐ์ ๋ด๋๋๋ค.
๐ Vocab
โข natively : ๊ธฐ๋ณธ์ ์ผ๋ก
โข milestone : ์ค์ํ ๋จ๊ณ
โข intervals : ๊ฐ๊ฒฉ, ์ฌ์ด, ์์
โข decisively : ๊ฒฐ์ ์ ์ผ๋ก
โข versatile : ๋ณํ๊ธฐ ์ฌ์ด
'๐ธ ๊ธฐํ > ๐ ์์ด' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[Daily English] Nostalgic cartoon characters fuel retailers in recession (0) | 2023.02.10 |
---|---|
[Daily English] As AI war rages, Korea seeks a place among giants (0) | 2023.02.09 |
[Blog] Time Series Transformation Package : scalecast (0) | 2023.01.27 |
[Blog] ChatGPT ์ ๋ฐ์ดํฐ์ฌ์ด์ธ์ค (0) | 2023.01.26 |
[2023] ์์ด ๊ณต๋ถ ๊ณํ (0) | 2023.01.25 |
๋๊ธ