?

時間序列預測與深度學習:文獻綜述與應用實例

2020-10-15 12:14杜守國
計算機應用與軟件 2020年10期
關鍵詞:出口額上海市神經網絡

李 文 鄧 升 段 妍 杜守國

1(上海對外經貿大學統計與信息學院 上海 201620) 2(上海市人力資源和社會保障局信息中心 上海 200051)

0 引 言

時間序列預測旨在基于給定的時間序列觀測值估計未來時間點上的取值或概率分布,這是風險管理和決策的關鍵任務,它在許多領域中發揮了重要作用,包括統計學、機器學習、數據挖掘、計量經濟學、運籌學等。例如,預測產品的供需可用于優化庫存管理、車輛調度和拓撲規劃,這對于供應鏈優化的大多數方面都至關重要[1-2]。

傳統的時間序列預測模型包括ARIMA模型、指數平滑方法和狀態空間模型(SSM)等,其中ARIMA模型、指數平滑方法都可以表示成狀態空間模型的形式,SSM提供了時間序列建模的通用框架,由狀態方程和觀察值方程組成[2]。

在現代預測應用中,傳統的SSM模型無法從相似的時間序列數據集合中推斷出共享模式,這就產生了繁重的計算任務和大量人力勞動需求。因此,深度神經網絡(Deep Neural Networks,DNN)憑借其提取高階特質的能力走進了人們的視野。通過深度神經網絡,可以識別時間序列內部和時間序列之間的復雜模式,并且能夠從原始時間序列的數據集合中進行識別,所需的人力要少得多。然而,由于這些模型所作的結構假設較少,它們通常需要更大的訓練數據集來學習得到準確的模型[2]。

為了彌補這兩種方法各自的不足,將傳統統計模型與深度學習融合,產生了一些新的預測方法。Chung等[3]和Fraccaro等[4]使用循環神經網絡(Recurrent Neural Networks,RNN)在SSMs和變分自編碼器(Variational Auto Encoding,VAE)之間建立聯系。Krishnan等[5]利用深度卡爾曼濾波器(Deep Kalman Filters,DKF)在SSM中引入外生變量。在預測方面,Rangapuram等[2]使用RNN在每個時間步上生成線性高斯狀態空間模型(LGSSM)的參數,提出了深度狀態空間模型(Deep State Space Model,DSSM)。對于非線性SSM,Eleftheriadis等[6]提出非線性高斯過程狀態空間模型(Gaussian Process State Space Model, GPSSM)。Salinas等[7]研究了多元時間序列預測問題。Salinas等[8]的深度自回歸模型(DeepAR)是建立在對時間序列數據進行深度學習的基礎上,為概率預測問題設計了一個類似的基于LSTM(Long Short-Term Memory)的自回歸RNN架構。而Vaswani等[9]提出的Transformer利用Attention Mechanism來處理數據。與基于RNN的方法不同,Transformer允許模型訪問歷史的任何部分,而不考慮距離,這使得它更適合于捕捉具有長期依賴性的循環結構。

徐超等[10]提出一種集成自回歸綜合移動平均(ARIMA)模型與自適應過濾法的組合預測模型。該組合強調ARIMA模型對時間序列數據特征識別與參數估計的優勢,同時引入自適應過濾法的“權數”調整思想,對ARIMA模型的參數進行調整,以減少預測誤差,提高預測精度。沈旭東[11]對近年來基于深度學習的時間序列分析方法進行討論,從應用、網絡架構、思想等方面總結了最新的時間序列預測、分類、異常檢測等任務的深度學習方法,為了解時間序列深度學習解決方案的技術和發展趨勢提供了參考。吳雙雙[12]利用卷積神經網絡、循環神經網絡、雙通道神經網絡對數據進行了預測,并取得了不錯的預測效果。權鉦杰[13]利用長短期記憶網絡和卷積神經網絡對數據進行預測,并針對深度神經網絡模型訓練不穩定的問題,研究了將集成學習方法應用于對深度神經網絡預測模型的改進,提出了基于噪聲擾動集成方法的深度神經網絡集成模型。劉峰等[14]提出了一種組合聚類分析和神經網絡的預測方法。王慧健等[15]提出一種新的時間序列短期趨勢預測方法,通過對時序數據進行離散化,用字符表示各個時間段數據的范圍,并利用神經網絡語言模型預測得到下一個字符。李潔等[16]基于真實的民航旅客歷史出行記錄,根據其時序數據的特征建立基于后向傳播算法的循環神經網絡(RNN)預測模型,對未來時段的日客流量進行預測。在此基礎上考慮到時序數據在不同時間尺度呈現不同的變化規律,建立多時間尺度的預測模型對旅客出行的周期性和趨勢性進行建模,提升預測精度。蔣倩儀[17]根據震蕩盒理論提出一種新的適應于與機器學習相結合的交易邊界模型,通過結合基于距離的多核極限學習機(DBMK-ELM)與交易邊界模型,構建基于時間序列預測的股票交易決策建議系統,使得在股票交易中能穩定獲得較高的收益率并保持較低的投資風險。

本文旨在介紹近年來提出的與深度學習相結合的時間序列預測方法。本文介紹三種時間序列預測模型:深度狀態空間模型(DSSM)、深度自回歸模型(DeepAR)、Transformer模型(Transformer),并運用上海市出口額數據的預測實例說明它們的應用效果。實驗結果表明,基于深度學習的時間序列預測效果明顯優于傳統的ARIMA模型。

1 時間序列預測問題

(1)

2 時間序列模型

2.1 深度狀態空間模型(DSSM)

傳統的SSM模型利用時間序列的潛在狀態lt∈RL對數據結構進行建模,該狀態可用于編制時間序列的組成部分(如水平、趨勢和季節性構成),并通常應用于單個時間序列的預測。一般的SSM包含了定義潛在狀態隨時間演變的隨機轉移概率p(lt|lt-1)的狀態轉移模型,以及給定潛在狀態的觀測條件概率p(zt|lt)的觀測模型。

狀態轉移方程的形式為:

lt=Ftlt-1+gtεt

(2)

式中:εt~N(0,1);在時間t潛在狀態lt-1代表關于水平、趨勢以及季節性因素的信息,通過確定的轉移矩陣Ft和隨機創新gtεt進行遞歸計算;轉移矩陣Ft和創新強度gt確定了由潛在狀態lt編制的時間序列構成。

狀態空間模型完全由參數指定Θt=(μ0,Σ0,Ft,gt,at,bt,σt),?t>0,并假定為時不變的,即Θt=Θ,?t>0。通用的估計方法是最大邊際似然估計,即:

(3)

(4)

(5)

圖1 狀態空間模型的框架

(6)

(7)

通過訓練參數Φ得到極大似然估計后,就可以對每個給定的時間序列進行概率預測。給定Φ可以計算每個時間序列在預測范圍內的聯合分布,該聯合分布是多元高斯分布。在實踐中用K個蒙特卡洛樣本來表示預測分布通常更為方便,公式為:

k=1,2,…,K

(8)

為了從狀態空間模型生成預測樣本,從樣本lT~p(lT|z1:T)開始,遞歸地應用:

t=1,2,…,τ

lT+t~FT+tlT+t-1+gT+tεT+tεT+t~N(0,1)

t=1,2,…,τ-1

在DSSM中,與經典的SSM和基于深度學習的自回歸模型(如DeepAR)相比,目標值并沒有直接用作輸入,這就帶來了幾個優點。首先,目標值只是適當考慮噪聲的似然項的合并,故模型對噪聲更為魯棒;然后,簡單地刪除相應的似然項,就可以很容易地處理丟失的目標值;最后,生成預測樣本路徑的計算效率也更高,因為整個預測過程中RNN只需要展開一次(與樣本數無關)。

2.2 深度自回歸模型(DeepAR)

DeepAR由一個RNN(使用LSTM或GRU單元)組成,該RNN以序列滯后值和協變量作為輸入,訓練和預測遵循自回歸模型的一般方法。

與傳統模型不同的是,DeepAR不僅將最后的目標值作為輸入,而且還將一些滯后項作為輸入。例如,對于小時數據,滯后可能是1(前一小時)、1×24(前一天)、2×24(前兩天)、7×24(前一周)等。

用zi,t表示時間序列i在時間t的值,在給定過去{zi,1,zi,2,…,zi,t0-2,zi,t0-1}:=zi,t0-1的前提下,建立未來每個時間序列{zi,t0,zi,t0+1,…,zi,T}:=zi,t0:T的條件概率分布:

p(zi,t0:T|zi,1:t0-1,xi,1:T)

式中:t0表示預測開始的時間點;xi,1:T為在所有時間點都已知的協變量。

假設模型分布p(zi,t0:T|zi,1:t0-1,xi,1:T)由似然因子的乘積組成(無邊界條件):

(9)

由輸出hi,t參數化的自回歸遞歸網絡,hi,t=h(hi,t-1,zi,t-1,xi,t,Θ),其中h是由具有LSTM單元的多層遞歸神經網絡實現的函數。該模型是自回歸的,最后時刻的觀測值zi,t-1以及遞歸網絡的先前輸出hi,t-1都會作為下一時刻的輸入。似然函數l(zi,t|θ(hi,t,Θ))是一個固定分布,其參數由網絡輸出hi,t的函數θ(hi,t,Θ)給出。

zi,1:t0-1中的觀測值信息通過初始狀態hi,t0-1傳遞到預測范圍。在sequence-to-sequence的設置中,此初始狀態是編碼器網絡的輸出。一般來說,這個編碼器網絡可以有不同的結構,在這里選擇在條件區間和預測區間(對應于sequence-to-sequence模型中的編碼器和解碼器)中對模型使用相同的結構。此外,它們之間共享權重,以便計算t=1,2,…,t0-1時解碼器的初始狀態hi,t0-1。編碼器hi,0以及zi,0的初始狀態初始化為零。

圖2 DeepAR模型摘要

2.3 Transformer 模型

Transformer完全基于Attention Mechanisms,而不需要遞歸和卷積。遞歸模型通常沿輸入和輸出序列的符號位置進行因子計算。將位置與計算的時間步對齊,生成隱藏狀態ht的序列,作為先前隱藏狀態ht-1和位置t的輸入函數。這種固有的序列性質使得訓練無法并行化,而在較長的序列研究中,因為內存約束限制,并行化至關重要。Transformer完全依賴于Attention Mechanisms來繪制輸入和輸出之間的全局依賴關系,允許更顯著的并行化[18]。

時間序列概率預測的目標是建立以下條件概率分布:

p(zi,t0+1:t0+τ|zi,1:t0,xi,1:t0+τ;Φ)=

(10)

具體預測過程中將此問題簡化為學習一步預測模型p(zt|z1:t-1,x1:t;Φ),其中Φ表示由所有時間序列集合共享的可學習參數。為了充分利用觀測值和外生變量,將它們連接起來得到一個增廣矩陣(無邊界條件)

yt[zt-1°xt]∈Rd+1,Yt=[y1,y2,…,yt]T∈Rt×(d+1)

式中:° 代表兩個向量的拼接。觀測值和外生變量作為整體輸入變量,探討一個合適的zt~f(Yt)模型來預測給定Yt條件下zt的概率分布。

利用multi-head self-attention機制,用Transformer實例化f,因為self-attention使Transformer能夠捕獲長期和短期依賴,并且不同的attention heads學習時間模型的不同方面。這些優點使Transformer成為時間序列預測的一個很好的預選方法。

圖3為Transformer模型概述。大多數競爭性神經序列轉導模型都具有編碼器-解碼器結構。這里,編碼器將由符號表示的輸入序列(x1,x2,…,xn)映射到連續表示的序列z=(z1,z2,…,zn)。給定z,解碼器一次生成一個符號的輸出序列(y1,y2,…,yn)。每一步,模型都是自回歸的,在生成下一步時,將先前生成的符號作為附加輸入。Transformer遵循這個總體架構,使用堆疊的self-attention和point-wise作為編碼器和解碼器完全連接層,如圖3所示。

圖3 Transformer模型摘要

其中attention函數可以描述為將query和一組鍵值對映射到輸出,query、鍵、值和輸出都是向量。輸出是值的加權和,分配給每個值的權重由query的兼容函數和相應的鍵計算得出。

Oh=Attention(Qh,Kh,Vh)=

(11)

為了避免將來的信息泄漏,使用mask矩陣M通過將所有上三角元素設置為-∞來過濾rightward attention。之后,O1,O2,…,OH被串聯起來,再次線性投影。在attention輸出端,疊加一個位置前饋子層,該子層具有兩層完全連接的網絡,中間有一個ReLU激活[19]。

3 實證分析

3.1 研究背景

2018年3月,美國使用“232措施”對進口鋼、鋁產品分別加征25%和10%關稅。2018年6月,美國貿易代表辦公室公布修訂版的“301”對華加征25%關稅的產品清單,并在2018年7月和8月分兩批對從中國進口的500億美元商品加征25%關稅,涉及的行業主要有通用設備、電氣機械、專用設備、通信電子設備、儀器儀表等5個設備制造業,其余為橡膠和塑料制品業、金屬制品業等行業。2018年9月又對2 000億中國輸美產品征收10%的關稅(《關于中美經貿摩擦的事實與中方立場》白皮書2018)。為了了解中美貿易摩擦對上海市出口貿易的影響,利用深度學習方法預測上海市出口額數據,探究在中美貿易摩擦不斷升溫背景下上海市出口額的變化發展規律。

3.2 數 據

本文使用的數據來自“上海海關數據庫”(http://shanghai.customs.gov.cn),數據集是上海市總出口額和上海市對美國市場的出口額數據,該數據集一共有72個時間點的數據,涵蓋了從2014年1月份開始到2019年12月結束的每個月上海市總出口額和上海市對美國市場的出口貿易額信息。每個時間點以月為單位,出口額的單位是億元人民幣。圖4和圖5分別為上海市總出口額和上海市對美國市場出口額的時序圖。

圖4 上海市總出口額

圖5 上海市對美國市場出口額

可以看出,上海市總出口額和上海市對美國市場的出口額兩者存在相似的趨勢,并且時序圖的走勢存在一定的周期性規律,在每年年初和年末的時候會出現下降的趨勢,而年中大部分時間存在上升的趨勢。

3.3 計量方法

本文采用五種模型對上海市總出口額和上海市對美國市場的出口額作預測,分別是自回歸求和移動平均模型(ARIMA)[20]、條件時序卷積模型(Wavenet)[21]、深度狀態空間模型(DSSM)、深度自回歸模型(DeepAR)和Transformer模型(Transformer),并對五種模型的預測效果進行比較。用連續分級概率評分(CRPS)對模型的預測效果進行評價。

連續分級概率評分(Continuous Ranked Probability Score,CRPS)或“連續概率排位分數”是一個函數或統計量,可以度量概率分布F(由分位數函數F-1表示)與觀測值z的相容性[22]。CRPS可視為平均絕對誤差(Mean Absolute Error, MAE)在連續概率分布上的推廣。CRPS可以作為概率模型的損失函數和評價函數,應用于概率天氣預報、誤差分析、異常值檢測(Anomaly Detection)等現實問題。作為評價函數時,按CRPS評價概率模型所得的(優劣)結果與按MAE評價概率模型的數學期望所得的結果等價。

在分位數水平為α∈[0,1]且預測的第α分位數為q的條件下,pinball損失(或分位數損失)定義為:

Λα(q,z)=(α-I(z

(12)

式中:z是觀測值;I(z

(13)

CRPS作為一個適用的評分規則[22],意味著當預測分布等于從實際數據中得出的分布時,CRPS值最小。CRPS值越小,說明預測分布與觀測值分布相近,預測性能越好。

3.4 實證結果

本文使用GluonTS時間序列預測框架進行預測(http://gluon-ts.mxnet.io/index.html),GluonTS是亞馬遜推出的一種使用 Gluon API 的 MXNet 時間序列分析工具包。

利用以上五種模型對上海市每月貿易總出口額(TS1)和上海市每月對美國市場的貿易出口額(TS2)進行預測和預測效果評估,樣本數據區間是2014年1月到2019年12月,訓練期是2014年1月到2018年12月,測試期是2019年1月到2019年12月。表1給出五種預測模型CRPS值,可以看出,深度狀態空間模型(DSSM)、深度自回歸模型(DeepAR)和Tansformer模型的預測CRPS值相對較小,表明這三種方法預測效果較好,并且預測效果都明顯優于傳統的自回歸求和移動平均模型(ARIMA),其中Transformer模型的預測效果是相對最優。圖6和圖7是Transformer模型的預測效果圖。

表1 五種模型預測CRPS值

圖6 利用Transformer模型預測上海市總出口額

圖7 利用Transformer模型預測出口市場為美國的上海市出口額

4 結 語

盡管傳統的統計建模方法將結構假設合并到模型中,使得模型易于解釋,但是在現代預測應用中,傳統統計模型對時間序列單獨建模,這就需要大量的勞動和計算成本。深度學習方法恰好可以識別時間序列內部和時間序列之間的復雜模式,所需的人力要少得多,但是這些模型所做的結構假設較少,很難解釋,通常需要更大的訓練數據集來學習得到準確的模型。由此產生了將傳統統計模型與深度學習融合的一些新的預測方法,這些方法較好地克服兩方面的不足。它們既允許模型自動提取特征并學習復雜的時間模式,同時也可以實施和利用時間平滑等假設,使模型可解釋。本文在綜述時間序列預測與深度學習文獻的基礎上,重點介紹三種與深度學習相結合的時間序列預測模型,并利用這些模型預測中美貿易摩擦背景下的上海市出口額數據。實驗結果表明,相比于傳統的時間序列預測方法(ARIMA模型),基于深度學習的時間序列預測方法的預測CRPS值顯著降低,預測效果更優。

猜你喜歡
出口額上海市神經網絡
上海市能源經濟相關信息
——2022年1-6月
基于神經網絡的船舶電力系統故障診斷方法
MIV-PSO-BP神經網絡用戶熱負荷預測
基于改進Hopfield神經網絡的對地攻擊型無人機自主能力評價
上海市風華初級中學
上海市房地產學校
基于神經網絡的中小學生情感分析
2014年4月1-15日越南胡椒出口額達7 830萬美元
2014年第1季度越南農林水產品出口額達69億美元
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合