?

基于注意力機制LSTM的電離層TEC預測

2024-02-04 07:06劉海軍雷東興袁靜樂會軍單維鋒李良超王浩然李忠袁國銘
地球物理學報 2024年2期
關鍵詞:電離層差分注意力

劉海軍,雷東興,袁靜*,樂會軍,單維鋒,李良超,王浩然,李忠,袁國銘

1 防災科技學院,河北廊坊 065201 2 中國科學院地質與地球物理研究所中國科學院地球與行星物理重點實驗室,北京 100029

0 引言

電離層是地球空間的一個重要區域,向上與磁層耦合,向下受低層大氣的影響(Li et al.,2022).電離層還受到太陽活動和地磁活動的影響,因此電離層具有非常復雜的時空變化(Sivavaraprasad et al.,2020).電離層中有許多帶電粒子,它們對無線電波的傳播有著重要的影響(Kaselimi et al.,2020).電離層影響短波通信、導航和定位(譚述森等,2011).總電子含量(TEC)是電離層的一個重要參數(Sharma et al.,2017).TEC越大,無線電波通過它的延遲就越大(Tang et al.,2022).因此,對總電子含量的監測和預測是空間天氣的重要研究內容(Karpov et al.,2019;Jiang et al.,2019).

電離層短期預報主要有兩大類方法:第一類方法是將觀測數據與電離層理論模型相結合的方法(孔慶顏等,2010; 樂新安等,2010),另一類是基于大量觀測數據的神經網絡方法(Yue et al.,2008; Habarulema et al.,2009; 劉先冬等,2010; Ratnam et al.,2012; 翁利斌等,2012;Qiao et al.,2021).其中神經網絡方法以其強大的非線性表示能力,已成為電離層TEC建模和預測中的熱門工具(Akhoondzadeh,2013; 熊波等,2022;Wen et al.,2022; Hu et al.,2024).目前應用于電離層TEC預測的神經網絡主要包括淺層神經網絡和深層神經網絡兩大類,其中淺層神經網絡包括人工神經網絡(Artificial Neural Network,ANN)、徑向基函數神經網絡(Radial Basis Function Neural Network,RBF-NN)等(Cander,1998; Tulunay et al.,2006).如Unnikrishnan等(2018)采用ANN模型預測印度赤道站上TEC的日效應和季節效應.Watthanasangmechai等(2012)提出了一個神經網絡模型來預測泰國的TEC.然而,TEC數據為時間序列數據,其前后數據具有很強的時間相關性,基于淺層人工神經網絡類的TEC預測方法只考慮數據的空間位置,無法表征數據前后的時間相關特性,這將導致較大的預測誤差.Inyurt和Sekertekin(2019)表明,ANN模型不能反映數據的時間序列特征,導致不同季節的預測誤差較大,預測精度較低;Huang和Yuan(2014)的研究表明,RBF神經網絡對TEC的日變化不敏感,導致模型在夜間的TEC預測誤差較大;Habarulema等(2007)的研究表明,ANN模型容易受到太陽活動的干擾,TEC預測誤差在太陽活動高年和低年變化較大,模型對TEC的季節變化不敏感,導致預測精度較低.深層神經網絡包括循環神經網絡(Recurrent Neural Network,RNN)、長短期記憶神經網絡(Long Short-Term Memory,LSTM)等(Hochreiter and Schmidhuber,1997; Sun et al.,2017).RNN模型是一種以序列數據作為輸入,在序列的演進方向不斷進行遞歸(recursion)的鏈式連接的神經網絡,是一種既能表征數據的空間特征又能表征數據的時間特征的深度學習模型,是目前時間序列建模的主流算法(Ruwali et al.,2021).袁天嬌等(2018)表明RNN可以預測TEC,但在長時間序列預測時,RNN會出現梯度消失現象,導致其無法表示長時間跨度的非線性關系,即無法解決數據的長期依賴問題.為了解決數據長期依賴問題,LSTM通過精心設置的三種門控結構,來記住長時間序列中的信息(Tang et al.,2020).Galassi等(2021)使用LSTM模型來預測TEC,但是由于LSTM建模時對歷史時間序列同等對待,不能自適應關注重要特征,其預測精度有限;為了解決LSTM不能自適應精細化關注特征問題,本文在LSTM中添加了注意力機制.注意機制可以重新分配輸入到網絡中的多個特征向量的權重,提高重要信息的權重(Ren et al.,2021),并在自然語言處理和其他領域取得了巨大成功(Li et al.,2021;Liu et al.,2022).本文在經典的LSTM中添加注意力機制,對電離層TEC數據進行建模,稱之為注意力機制LSTM模型(Attentional LSTM,Att-LSTM).為了驗證模型性能,論文在北半球100°E線上,從0°到北緯87.5°,每2.5°選擇一個位置,共計36個位置進行了未來2小時的TEC預測實驗,并與常見的時間序列預測模型如DNN、RNN、LSTM進行了對比.論文還討論了緯度對模型預測性能的影響、磁靜期和磁暴期對預測性能的影響及對未來多個時間點的預測效果.

1 基于注意力機制的長短期記憶網絡模型

1.1 長短期記憶網絡(LSTM)

電離層TEC是典型的時間序列數據,其預測屬于典型的seq2seq問題.LSTM就是解決該類問題的經典模型.LSTM(Graves,2012)是一種循環神經網絡,由若干LSTM單元構成,一個LSTM單元包括三種門結構,如圖1所示,分別為輸入門it,遺忘門ft和輸出門ot,這三種門結構通過記憶細胞單元狀態ct連接起來,實現對網絡中的特征進行有目的性的選擇.LSTM單元種各個模塊的計算公式如下:

it=σ(Wi×[ht-1,xt]+bi),

(1)

ft=ot(Wf×[ht-1,xt]+bf),

(2)

(3)

ot=σ(Wo×[ht-1,xt]+bo),

(4)

(5)

ht=ot*tanh(ct),

(6)

1.2 基于注意力機制的LSTM模型

采用LSTM模型對TEC數據建模時,歷史序列中任意位置的數據對未來數據的預測權重都相等,無法自適應精確建模.為解決該問題,本文添加了在自然語言處理領域廣泛使用的注意力機制(Wang et al.,2020),為各個輸入序列重新自適應分配權值,使模型有選擇地關注歷史序列,降低模型的預測誤差.Att-LSTM的TEC預測模型如圖2所示.

圖2 Att-LSTM網絡結構圖

該模型共包括五個層:輸入層、網絡層、注意力層、回歸層和輸出層.

輸入層接收樣本的特征.每個樣本包含特征和回歸值兩部分,其中第n個樣本的特征用xn表示,回歸值用yn表示.本文采用連續24小時數據去預測未來2個小時,即用連續的13個TEC值去預測第14個TEC值,因此xn為含有13個連續觀測值的TEC序列,yn是該序列對應的回歸值(即第14個TEC值).樣本的詳細制作過程見2.2.4.[xn,yn]的表達公式如下:

[xn,yn]=[xn,xn+1,xn+2,…,xn+12,yn=xn+13],

(7)

網絡層用于對數據進行建模,包括兩個獨立的LSTM神經元層,分別處理輸入層輸出的TEC序列,通過拼接函數(concat)將兩個LSTM層輸出的TEC特征向量進行拼接,作為網絡層的輸出hn,計算公式如下:

kn=LSTM([xn,yn]),

(8)

mn=LSTM([xn,yn]),

(9)

hn=concat([kn,mn]),

(10)

其中kn表示第一個LSTM層的輸出,mn表示第二個LSTM層的輸出,hn表示將kn和mn拼接后的向量.

注意力層:注意力層用來依據輸入信息的重要程度分配不同的權重參數,即注意力值.網絡層的輸出[h0,h1,…,hn]作為注意力層的輸入,首先通過注意力函數來計算輸入向量中每個特征與回歸值之間的相似度,本文中所選用的注意力函數計算公式如下:

score(hn,yn)=VTtanh[Whn+Uyn],

(11)

其中W,V,U神經網絡訓練過程中可學習的參數.得到注意力函數之后,接著采用softmax函數對注意力進行歸一化處理,得到注意力的概率分布,具體計算公式如下:

an=softmax(score(hn,yn)),

(12)

其中an是注意力分布值.最后將an與hn進行矩陣點乘運算,得注意力值為

tn=hn×an.

(13)

回歸層包含4個全連接層(Dense層),用于將前面輸入的結果映射成預測值,為了防止過擬合,每個全連接層后添加了Dropout層.

輸出層:輸出輸入序列對應的預測值.

2 實驗設置

2.1 數據集介紹

本文中使用的電離層數據來自歐洲軌道確定中心(Center for Orbit Determination of Europe,CODE)TEC網格數據,該數據時間分辨率為2 h.為了研究中國不同經緯度地區的預測性能,選擇北半球100°E,北緯0°到北緯87.5°之間,每2.5°選擇一個位置,累計36個位置作為研究對象.每個位置上,選擇實驗數據的時間范圍為2002年1月1日0∶00—2014年12月30日24∶00,累計13年的TEC觀測數據.

所選位置經緯度描述如表1所示.其中部分位置(A11)2002年1月1日0∶00—2014年12月30日24∶00的TEC值如圖3所示.

表1 本文實驗選取的所有地區

圖3 表1中A11地區2002—2014年的TEC值

2.2 數據預處理

某一確定位置的TEC數據是一種典型的時間序列數據,只有平穩的非隨機時間序列方可預測,因此在對TEC數據預測之前,需要進行一系列預處理.本文對所選電離層TEC數據的預處理包括TEC數據平穩性檢驗、差分處理、純隨機平穩性檢驗、TEC數據歸一化等過程.這些預處理完成之后,再進行樣本制作.

2.2.1 TEC數據平穩性檢驗和差分處理

時間序列平穩性是時間序列分析的基本假設,平穩時間序列是指時間序列的均值和方差不隨時間改變.因此,在進行TEC預測之前,首先需要檢驗時間序列的平穩性.本文采用單位根檢驗(Augmented Dickey-Fuller,ADF)方法對TEC序列進行平穩性性檢驗.36個地區的平穩性檢驗結果均為非平穩時間序列,因此需要對其進行一階差分處理.將其轉化為平穩序列.一階差值的計算公式如下:

Δxt=xt-xt-1,

(14)

其中,Δ為一階差分算子,xt為t時刻的觀測數據.圖4為圖3中A11區域的TEC數據的一階差分的結果.一階差分處理后,再對36個地區差分后的TEC數據進行ADF檢驗,36個地區均通過檢驗,即36個地區的一階差分數據為平穩時間序列.

圖4 表1中A11區域一階差分后的TEC值

2.2.2 純隨機平穩性檢驗

平穩時間序列并非一定可以預測,純隨機平穩時間序列就是不可預測的.因此還需要檢驗差分后的TEC序列的純隨機性.本文采用LB(Ljung-Box)方法來檢測時間序列的純隨機性.LB檢驗結果表明,經過一階差分處理后的TEC數據不是純隨機數據,可以進行預測.

2.2.3 TEC數據歸一化

經過一階差分處理后,原始TEC數據變成平穩的非隨機時間序列,可以進行預測.但是,整個數據空間的數據仍然有很大的變化,這將影響數據預測的結果,需要將該數據進行歸一化.本文使用Min-Max歸一化將一階差分后的TEC數據映射在0和1之間.該計算公式如下:

(15)

其中xi為某一位置時刻i的TEC觀測值,yi為該位置時刻i歸一化后的TEC值,x為某一位置所有TEC觀測值.

2.2.4 樣本制作

經過前面的平穩性檢驗、差分處理、純隨機性檢驗和TEC數據歸一化處理后,接下來制作實驗樣本.本文選取36個中國地區2002年1月1日0∶00—2014年12月30日24∶00之間的TEC觀測數據,每個位置觀測點總數為61711個.經過一階差分處理后,變成61710個數據點.采用滑動窗口為14的分割方法,將歸一化后數據制成樣本.其中第i個滑動窗口中前13個點是樣本的輸入xi,第14個點是該樣本的輸出yi.依次制作滑動窗口,共計61697個滑動窗口樣本,其中前90%TEC數據作為訓練樣本(55527個訓練樣本),剩余10%TEC數據作為測試樣本(6170個測試樣本).樣本制作過程如圖5所示.

圖5 樣本制作過程

樣本制作完成后,利用訓練樣本對本文所提出的模型進行訓練,然后利用測試樣本進行預測,對預測結果進行反歸一化和反一階差分處理,得到最終的結果作為預測值.整個實驗流程如圖6所示.

圖6 實驗流程圖

2.3 實驗環境

基于python 3.6使用keras機器學習庫構建Att-LSTM模型.實驗設備配置為:Intel i5-7200u CPU、8G內存、500G固態硬盤,GPU卡為NVIDIA Geforce 940MX.

2.4 評價指標

為了檢驗各種模型預測電離層TEC的性能,使用兩個評價指標來評價模型:均方根誤差(Root Mean Square Error,RMSE)和R-Square,其計算公式如式(16)和式(17)所示:

(16)

(17)

其中,n為測試樣本的數量,ytruei為測試樣本的真實值,yprei為測試樣本的預測值,ymean為測試樣本的平均值.RMSE用于描述預測的誤差,其值越小,模型預測性能越好;R-Square用于描述預測值與真實值的擬合程度,其越接近1,則該模型對TEC觀測數據的擬合能力越好.

3 實驗結果與討論

3.1 模型的參數選擇

使用Att-LSTM進行TEC建模時,首先需要確定模型的最優參數,論文采用網格搜索法(Grid-Search),搜索到本文模型最優超參數設置如表2所示.

表2 Att-LSTM參數設置

3.2 不同模型對未來2小時TEC的預測

首先采用Att-LSTM模型對TEC數據建模,采用過去24小時TEC觀測序列來預測未來兩小時TEC值,并與經典的時間序列模型DNN、RNN、LSTM進行了對比實驗.四種模型分別按照2.2小節處理后的數據集上進行訓練,再進行預測.預測數據選取2013年9月12日8∶00—2014年12月30日24∶00共6170個TEC觀測值,占總樣本個數的10%.DNN、RNN、LSTM以及本文所提出的Att-LSTM在表1中所有地區TEC預測的RMSE和R-Square預測結果如圖7所示.該四種模型在表1中所有地區TEC預測的RMSE和R-Square的均值、最小值及最大值如表3所示的數據(加黑的數據為最優結果).

表3 四種模型在表1所有地區TEC預測性能對比

圖7 不同模型在表1的A1—A36地區預測性能對比

從表3可以看出,在本文所選擇的36個地區,Att-LSTM模型的預測誤差RMSE的均值、最小值、最大值均遠遠低于對比模型,其預測誤差最小僅為0.0495 TECU,最大為4.7105 TECU,在所有所選地區預測誤差RMSE的均值為1.4007,與DNN、RNN、LSTM三個模型相比,本文所提出的Att-LSTM平均預測誤差RMSE分別降低4.017 TECU,3.1984 TECU,0.6218 TECU;Att-LSTM預測擬合度R-Square在所有地區中最低為0.9493,最高為0.9999,平均值為0.9869,與DNN、RNN、LSTM三個模型相比,平均擬合度分別提高0.3467、0.1772、0.0167.圖7以柱狀圖的形式直觀展示了本文模型與3個對比模型在所選的36個地區預測誤差RMSE與擬合度R-Square的情況.可以看出,無論是在哪個地區,本文所提出的模型預測誤差及模型擬合度均明顯優于對比模型.

本文所提出的Att-LSTM模型預測性能超過DNN、RNN、LSTM,主要原因在于本文模型中添加了注意力機制.將注意力機制添加到LSTM層和回歸層之間,這樣輸入序列中不同的數據經過LSTM層處理之后,進入到注意力層.該層中的注意力機制能自適應的為LSTM處理后的各個數據分配不同的權值,使模型有選擇地關注歷史序列,從而提高模型的預測精度.而其他對比模型如DNN、RNN和LSTM,將所有輸入序列中所有的觀測數據同等處理,因而精度有限.

圖8給出了Att-LSTM模型在36個地區的絕對誤差分布圖(絕對誤差=預測值-真實值),可以看出,本文的Att-LSTM模型在6170個訓練樣本上,絕對誤差主要分布在0.00~0.80 TECU之間.

圖8 在0°—87.5°N緯度區域的Att-LSTM模型的TEC預測值與TEC真實值的絕對誤差分布圖

圖9給出了Att-LSTM預測性能隨緯度的變化情況.可以看出,在北緯60°之前,隨著緯度的增加,Att-LSTM模型預測的誤差RMSE緩慢增加,但始終保持在1TECU以內,預測值與真實值的擬合度也比較高,均在0.99以上.在北緯62.5°到87.5°地區,模型的預測性能出了擾動,預測誤差增加到了3~5 TECU,預測擬合度在0.95~0.98之間,預測效果比0~60°稍差,引起預測性能擾動的原因不詳.

圖9 Att-LSTM模型對未來2小時TEC預測效果

3.3 Att-LSTM模型在磁靜期和磁暴期TEC的預測性能

為了進一步驗證Att-LSTM模型的預測性能,在100°E,30°N地區的TEC觀測數據為例,對比了該模型在磁暴期和磁靜期的預測效果.訓練數據選取2002年1月1日0∶00—2012年9月14日16∶00,共50826個TEC觀測值,測試數據選取2012年9月14日18∶00—2013年11月22日24∶00,共5646個TEC觀測值,在此期間,將地磁指標Kp>3以及-100

圖10 磁靜期和磁暴期絕對誤差分布直方圖

圖11展示了一個磁靜日(2012年10月11日0∶00—2012年10月11日24∶00)和一個磁暴日(2012年10月12日0∶00—2012年10月12日24∶00)的預測效果,可以看出,無論是在在磁靜期還是磁暴期,Att-LSTM預測值與TEC真實觀測值擬合程度均較好.分析其原因,主要在于本文對原始的TEC數據進行了預處理,經過差分處理和規范化處理之后,無論是磁靜期還是磁暴期的TEC數據,均變成了平穩的時間序列數據,本文的Att-LSTM模型對處理后的平穩TEC數據進行建模,預測,再將預測的結果進行反規范化和反差分,得到最終的預測值.這種預處理方法可以消除原始數據不平穩所帶來的預測誤差波動大問題.

圖11 磁靜期(a)和磁暴期(b)Att-LSTM模型的TEC預測性能對比(Att-LSTM代表Att-LSTM模型的TEC預測值,CODE代表原始TEC觀測值)

3.4 Att-LSTM模型對未來多時間段TEC的預測

論文還選擇了100°E,25°N—100°E,45°N之間9個地區(A11—A19)進行未來多點預測實驗(本文分別選擇預測未來第4、6、8、10時),即預測未來第2、3、4、5個點.訓練數據選取各地區2002年1月1日0∶00—2013年9月12日6∶00共55539個TEC觀測值,預測數據選取該9個地區2013年9月12日8∶00—2014年12月30日24∶00共6171個TEC觀測值,樣本制作方法與圖5類似,不同的是多時間點預測時采用13+num的滑動窗口(num為未來預測樣本點數),第i個滑動窗口中前13個做為第i個樣本的輸入向量xi,后面的num個數據作為該樣本的輸出向量yi.各個地區未來多個時間段TEC預測效果如圖12所示.

圖12 Att-LSTM模型對A11—A19地區未來多個時間段TEC的預測效果

從圖12可以看出,隨著預測時間點的增加,Att-LSTM模型在各個地區的預測誤差RMSE逐漸升高,而R-Square逐漸降低.即隨著預測時間的增加,模型預測性能下降,預測未來4個小時的時候,預測擬合度R-Square在0.95以上,預測6個小時的時候,R-Square降低到0.75~0.8之間,而預測未來10個小時的時候,R-Square下降到0.7左右,可見本文所提出的Att-LSTM模型在預測未來2、4小時的TEC值十分可靠,預測未來6、8、10個小預測結果不可靠.

未來多點預測的具體實驗結果如表4所示.從表4可以看出,模型的預測誤差隨著預測時間的增加而逐漸增加,模型擬合度逐漸降低,預測未來4個小時,模型預測誤差較小,在9個地區中,最高為A14地區,為1.5852 TECU,最低為A18地區,僅為0.9083 TECU.未來4小時預測擬合度較高,在所選擇的9個地區,該模型預測擬合度最低為0.9545,最高為0.9850.在預測未來6個小時,R-Square明顯下降,以A13地區為例,未來6小時預測擬合度降低至0.7667,與預測未來4小時相比,R-Square降幅為20.82%;而預測誤差RMSE升高至3.8501 TECU,與第4小時預測RMSE相比,RMSE增幅為200.3%.

表4 Att-LSTM模型對A11—A19地區未來多個時間段TEC的預測性能(加黑部分為最優結果)

圖13給出了未來多點預測的絕對誤差分布圖.其中圖13(a、b、c、d)分別表示預測未來4、6、8、10時的絕對誤差分布.從圖13中可以直觀的看出,預測未來4小時的時候,絕對誤差分布比較集中,主要集中在-1 TECU到1 TECU之間,而預測未來第6、8、10小時,絕對誤差甚至有相當一部分比例達到了±4 TECU及以上.這說明應用Att-LSTM模型,采用過去24小時預測未來2、4小時基本可靠,而預測更久的時間,則結果不可靠.

圖13 Att-LSTM模型對A11—A19地區未來多個時間段TEC真實值與觀測值的絕對誤差分布直方圖

4 結論

本文將注意力機制引入到 LSTM 神經網絡,構建了基于注意力機制的LSTM電離層 TEC 預測模型(Att-LSTM),并應用該模型在36個所選地區中,采用過去24小時TEC觀測數據預測未來2小時TEC值,并與經典時間序列模型DNN、RNN,LSTM模型進行了對比實驗.結果表明,本文所提出的Att-LSTM模型性能明顯優于對比模型.論文討論了緯度對TEC預測的影響,發現在0°到北緯60°之間,隨著緯度的增加,Att-LSTM模型預測的誤差RMSE緩慢增加,但始終保持在1 TECU以內,在該范圍內模型預測值與真實值的擬合度比較高,均在0.99以上.在北緯62.5°到87.5°地區,模型的預測性能出了擾動,預測誤差增加到了3~5 TECU,預測擬合度在0.95~0.98之間,預測效果比0~60°稍差.進一步討論了Att-LSTM模型在磁靜期及磁暴期的預測效果,結果表明,無論是磁靜期還是磁暴期,采用過去24 h預測未來2 h的時候,Att-LSTM模型預測RMSE均較小,不足1 TECU,模型預測效果均很好.還采用Att-LSTM模型對未來多點的TEC進行預測,預測結果表明,本文所提出的Att-LSTM模型對未來2、4個小時的預測擬合度均超過0.95,十分可靠,而對未來第6、8、10個小時的預測最高為0.7934,預測擬合度迅速下降,預測結果不可信.

未來將研究采用更長的歷史TEC觀測序列,添加混合注意力機制,來對未來多點TEC值進行更精準的預測.

猜你喜歡
電離層差分注意力
讓注意力“飛”回來
一種電離層TEC格點預測模型
數列與差分
Kalman濾波估算電離層延遲的一種優化方法
“揚眼”APP:讓注意力“變現”
電離層對中高軌SAR影響機理研究
A Beautiful Way Of Looking At Things
Linux Shell語言在電離層解算中的應用
基于差分隱私的大數據隱私保護
相對差分單項測距△DOR
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合