?

基于改進Informer的蒸汽管網流量預測

2024-01-08 06:49盧文博黃云峰
上海電力大學學報 2023年6期
關鍵詞:注意力蒸汽卷積

盧文博, 黃云峰, 李 崢, 王 欣

(上海電力大學 自動化工程學院, 上海 200090)

蒸汽是綜合能源系統的重要能源之一,廣泛應用于企業生產和日常生活中[1]。對蒸汽管網流量(以下簡稱“蒸汽流量”)和壓力進行合理有效預測,有助于維持整個系統能源資源平衡,減少能源浪費[2]。蒸汽管網具有能源設備多、流量變化快等特點[3],難以根據其機理建立蒸汽流量預測模型。隨著自動化和數據庫技術的進步,實現了對歷史實時數據的及時采集,使得建立數據驅動的蒸汽流量預測模型成為可能[4]。目前,應用最廣泛的預測方法是BP(Back Propagation)神經網絡。但傳統的BP算法存在局部最優陷阱問題,泛化能力一般[5]。循環神經網絡(Recurrent Neural Network,RNN)在深度學習中可以適應連續時間步驟之間的依賴關系[6],但容易出現梯度消失或爆炸問題。長短期記憶網絡(Long Short-Term Memory,LSTM)通過引入門控單元來解決梯度問題,提高了預測模型的效率和穩定性[7-8]。文獻[9-10]分析了基于LSTM模型在短期電力負荷預測方面的性能。然而,在某些應用場景中,需要利用大量歷史時間序列數據進行長期預測。由于傳統LSTM只能通過逐步遞歸的方式獲取全局信息,很難捕捉到長期依賴關系,因此LSTM模型的效果可能會受到限制[11]。

Transformer模型作為一種深度學習模型[12],在自然語言處理和計算機視覺領域取得了廣泛的應用。但其存在時間復雜度高、內存利用率高以及在時間序列預測中會出現預測率驟降等問題,無法直接應用于時間序列預測,因此研究人員對其進行了一些改進。文獻[13]考慮了注意力矩陣的稀疏分解。文獻[14]提出了一種新的自注意力機制,以降低時空復雜度。文獻[15]提出了Transformer的變體Informer,并在4個大規模數據集上進行了測試,驗證了其出色的性能。這些研究為時間序列預測問題提供了一種不同的解決方案。文獻[16]將Informer模型應用于電機軸承震動時間序列預測任務中,得到了令人滿意的預測結果。文獻[17]將Informer模型成功應用于風力發電預測領域。文獻[18]將Informer模型與卷積神經網絡模型相結合,成功應用于鋰離子電池充電樁的電荷狀態估計領域。

綜上所述,Informer被認為是目前較為先進的時間序列預測模型。為了研究Informer在蒸汽流量預測中的性能,本文選擇上海閔行區某供熱管網采集的蒸汽管網數據作為研究對象,并以日期、溫度、天氣數據、歷史蒸汽壓力和歷史蒸汽流量作為輸入特征,將Informer模型應用于蒸汽流量預測任務。通過引入3種算法,對Informer模型進行改進,并最終提出了Informer_BEST模型。

1 相關理論介紹

1.1 Transformer模型簡介

作為一種革命性的序列建模方法,Trans-former模型采用了編碼器-解碼器結構。通過自注意力機制的運用,Transformer模型在各種任務中展現出了卓越的性能。

自注意力機制是通過3個權重矩陣將序列中每個元素轉化為3個不同功能的矩陣,分別為查詢矩陣Q、鍵矩陣K和值矩陣V。其中,Q∈RLQ×d,K∈RLK×d,V∈RLV×d,d為輸入維度,LQ、LK、LV分別為Q、K、V的行維度。通過計算K與Q的相似度,為每個查詢矩陣賦予相應的重要性分數,并利用這些分數對V進行加權,從而實現對上下文信息特征的有效融合。

自注意力機制的公式為

(1)

式中:O——自注意力機制輸出;A(·)——自注意力計算函數;S(·)——Softmax計算函數。

自注意力機制的具體計算流程如圖1所示。其中,b1為經過自注意力機制計算后的輸出序列列向量,ax為輸入序列x列的列向量,qx、kx、vx分別為輸入序列x列對應的查詢向量、鍵向量和值向量,αx,y為ax和ay的相關性分數。

圖1 自注意力機制計算流程

編碼器由多個相同的自注意力模塊堆疊而成,每個自注意力模塊包含自注意力層和前饋神經網絡2個子層。解碼器也由多個自注意力模塊堆疊而成,與編碼器略有不同,每個解碼器的自注意力模塊包含自注意力層、編碼器-解碼器注意力層和前饋神經網絡3個子層。

1.2 Informer模型簡介

Informer模型是一種基于Transformer模型的時間序列預測模型。為了提高在長序列時間預測(Long Sequence Time Series Forecasting,LSTF)問題中的預測能力,相較于傳統Transformer模型,Informer模型進行了如下改進:提出了ProbSparse自注意力算法,只允許關注重要查詢矩陣,以提高運算效率;在編碼器內設計了自注意力蒸餾結構,該結構利用卷積網絡來連接兩個自注意力模塊,可實現輸出長度下采樣,并進一步提高運算效率;針對傳統解碼器在推理階段中誤差的累計傳播問題,Informer提出了生成式推理解碼器,該解碼器通過一個前向過程即可生成完整的長序列預測結果。

Informer編碼器中的自注意力蒸餾結構如圖2所示,其中L為輸入序列長度。

圖2 Informer編碼器中的自注意力蒸餾結構

從j層到j+1層的蒸餾過程公式為

Lj+1=M(E(C([Lj]AB)))

(2)

式中:Lj、Lj+1——第j層和第j+1層自注意力模塊輸入;

M(·)——最大池化層函數;

E(·)——激活函數;

C(·)——卷積網絡函數;

[·]AB——自注意力模塊。

Informer模型結構如圖3所示。

圖3 Informer模型結構

2 Informer模型的改進

本文引入以下3種算法,對Informer模型進行改進:第1種為擴展的因果卷積擴展的因果卷積(Dilated Causal Convolutional Network,DCCN)網絡,取代了Informer蒸餾結構中的正則卷積網絡,模型記為Informer_DCC;第2種為相對位置編碼方法,將其與季節特征編碼相結合,作為Informer模型的編碼輸入特征,模型記為Informer_REL;第3種為梯度中心化(Gradient Centralization,GC)技術,將其嵌入到Adam優化器中,以改進模型的訓練過程,模型記為Informer_GC。

2.1 擴展的因果卷積網絡

正則卷積層在時間序列預測中存在兩個主要缺陷:一是在網絡深度增加時只能回顧有限的歷史數據,在處理極長序列時效果有限;二是正則卷積層沒有考慮時間視角,這可能導致未來信息的泄露?;贒CCN在時間序列預測任務中的優點[19-20],本文采用DCCN替代傳統的正則卷積,以應對時間序列預測中正則卷積網絡存在的缺陷。DCCN在時間序列預測中具有獨特的優勢。它通過擴大卷積核的接受域,使得模型可以更好地捕捉長期的依賴關系。同時,因果卷積保持了時間維度上的因果性,避免了未來信息泄露的問題,確保了模型在時間序列預測任務中的有效性和可靠性。

蒸餾結構通過在每兩個自注意力模塊之間插入卷積層和最大池化層來修剪輸入長度,為后一個自注意力模塊提供更緊湊的特征映射。為了進一步提升模型的性能和預測準確性,本文對蒸餾結構中的輸出下采樣進了壓縮處理,將其壓縮為輸入序列長度的1/3。蒸餾結構自注意力層中Q和K的相關性熱力圖如圖4所示。

圖4 蒸餾結構自注意力層中Q和K的相關性熱力圖

圖4(a)~(c)顯示了傳統蒸餾結構下每一層自注意力模塊中Q和K的相關性,而圖4(d)~(f)顯示了使用輸出下采樣壓縮處理方法后的Q和K相關性。通過對比可以清晰地觀察到,壓縮處理后蒸餾結構的效果更好、效率更高,保持了大部分特征的完整性,而且所提取的特征更加明顯和集中。

2.2 相對位置編碼及季節特征編碼

2.2.1 相對位置編碼

為了將自注意力機制無法捕捉的序列順序信息納入模型,傳統Informer模型采用位置編碼作為模型的輸入特征之一。位置編碼公式為

(3)

(4)

式中:PE——二維向量,用于保存位置編碼信息;pS——元素在輸入序列中的位置,pS=0,1,2,…,L-1;

i——在輸入序列維度d上的索引。

將位置編碼加入到自注意力機制,計算公式為

(5)

式中:Ai,j——加入位置編碼信息的自注意力機制計算量;

Wq、Wk——Q和K的權重矩陣;

xi、xj——權重矩陣中第i個和第j個位置的元素;

Exi、Exj——xi和xj的數據嵌入向量;

Ui、Uj——第i個和第j個位置的位置嵌入向量。

因式分解后得到:

(6)

(7)

式中:Wk,E、Wk,R——鍵矩陣k基于數據和基于位置分離的鍵向量;

Ri-j——第i個和第j個位置的相對位置信息嵌入向量;

u、v——不包含位置信息的可學習參數向量,u∈Rd,v∈Rd。

2.2.2 季節特征編碼

時間序列預測問題中,是否充分挖掘時間信息特征,對于預測結果的影響十分重大。因此,本文將時間數據分解為年、月、日、周、季節、節假日,采用Trigonometric編碼方式進行特征編碼,并融合相對位置編碼共同作為模型的輸入特征編碼。

2.3 GC技術

Adam優化器在深度學習領域被廣泛應用。它能夠根據梯度的變化情況動態調整學習率的大小,但缺點是過度依賴學習率調整和對小批量樣本的不穩定性等。為了解決這些問題,本文引入了GC技術來改進Adam優化器。GC技術最初由YONG H W等人[23]于2020年提出,核心思想是將梯度集中到均值為零的位置,以避免梯度分布的不穩定性。通過對梯度的中心化處理,GC技術能夠消除不同參數之間的相關性,使得訓練過程更加平穩,并減少過擬合的風險。

假設梯度是通過反向傳播得到,則對于梯度為?wiZ(i=1,2,3,…,l)的權重向量wi,GC的作用過程可用ΦGC表示。其公式為

ΦGC(?wiZ)=?wiZ-μ?wiZ

(8)

(9)

式中:Z——目標函數;wi——權重矩陣W∈Rm×n的第i列權重向量。

因此,只需要計算權重矩陣列向量的均值,然后去除每個列向量的均值。

3 實驗過程與結果分析

3.1 實驗準備

實驗數據來自上海閔行區某供熱管網采集系統,包含2019年10月1日至2020年9月15日各用戶信息。流量預測對象為系統中的某化工公司,采樣間隔設為2 min,數據總數為18萬。該化工公司的歷史蒸汽流量如圖5所示。

圖5 某化工公司的歷史蒸汽流量

蒸汽流量預測模型的實驗框架如圖6所示。其中,Informer_BEST模型為同時應用3種改進算法的模型。

圖6 蒸汽流量預測模型的實驗框架

在實驗框架中,首先進行了數據預處理。由于數據采集可能受多種因素的影響,本文采用箱線圖法來檢測和排除歷史蒸汽流量及特征中的異常值,并使用線性插值來填充缺失值。特征之間的數值范圍差異較大,因此對數據進行了零均值歸一化處理。通過數據預處理和相關性分析可以獲得5個特征變量,包括日期、溫度、天氣、蒸汽壓力和瞬時蒸汽流量。其中,日期列可作為時間信息輸入到目標模型中。將數據分割成訓練集、驗證集和測試集時,采用傳統的7∶1.5∶1.5的數據分割比例。在模型訓練階段,使用傳統的Informer模型以及經過優化的Informer模型,在相同數據集上采用相同的超參數進行訓練,并將預測結果進行記錄和保存。

在模型驗證階段,采用誤差評價方法對各個模型的預測結果進行對比分析,以確定性能最佳的模型。誤差評價方法包括平均絕對誤差EMA、均方誤差EMS和均方根誤差ERMS等指標,具體公式為

(10)

(11)

(12)

式中:N——預測總數,即預測序列長度;tn——實際流量值;yn——預測流量值。

3.2 實驗結果分析

在相同的數據集上,本文將傳統的Informer模型與優化后的Informer模型進行了對比實驗。其中對3種改進方法進行了消融實驗,實驗中,為5種模型設置了相同的超參數,如表1所示。

表1 模型超參數

各個模型在同一數據集上的評價結果如表2所示。其中,將最佳結果用粗體字標識。

由表2可以看出,3種方法對Informer模型的性能都有不同程度的提升。其中,引入相對位置和季節特征編碼的方法對模型性能的提升效果最為顯著,融合了3種改進方法的Informer_BEST模型在性能方面的總體表現最為出色。

5種模型的預測曲線如圖7所示。

圖7 5種模型的預測曲線

由圖7可以看出,5種模型都成功地預測了實際數據的趨勢,并且沒有出現時間延遲問題。但相較于傳統的Informer模型,Informer_BEST模型在擬合實際數據方面表現更好,這將對供熱管網蒸汽調度提供很大的幫助。需要指出的是,這些模型在擬合實際數據中跳躍性較大的部分仍存在一定的不足。

4 結 語

本文將時間序列預測模型Informer應用于蒸汽管網預測領域,并引入了3種方法來改進Informer模型,進而提出了Informer_BEST模型。為了突出改進方法的有效性,對Informer_BEST模型進行了消融實驗,并采用3種誤差評價指標對實驗結果進行了評價和分析。根據實驗結果可知,Informer模型在供熱管網蒸汽預測任務中表現良好,能夠成功預測實際數據趨勢,但在擬合實際數據方面存在一定的欠缺。通過使用3種方法改進模型,這一缺陷得到了改善。其中,相對位置和季節特征編碼的改進方法表現最為突出,而且在解決擬合實際數據缺陷方面具有顯著效果。模型預測效果的提升對供熱管網蒸汽調度能夠起到積極的指導作用,對于提高系統的安全性、減少能源浪費以及促進節能減排具有重要意義。

猜你喜歡
注意力蒸汽卷積
核電廠蒸汽發生器一次側管嘴堵板研發和應用
讓注意力“飛”回來
基于3D-Winograd的快速卷積算法設計及FPGA實現
從濾波器理解卷積
基于傅里葉域卷積表示的目標跟蹤算法
“揚眼”APP:讓注意力“變現”
一種新型蒸汽發生器結構設計
第一艘蒸汽輪船
蒸汽閃爆
A Beautiful Way Of Looking At Things
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合