?

基于張量鏈的電網大數據多模態預測方法

2024-05-03 09:44陳彬徐歡鄒文景
沈陽工業大學學報 2024年1期
關鍵詞:馬爾科夫張量高階

陳彬 徐歡 鄒文景

摘要:為了優化大數據預測系統的準確率和運算耗時,在張量理論的基礎上,提出了一種適用于電網領域的多模態預測方法。通過綜合運用張量和馬爾科夫理論,設計了一種具有較強適應性的多元多階馬爾科夫模型,以及無假設前提的馬爾科夫轉移方法。在此基礎上,基于張量鏈理論的短期預測和長期預測算法,提出了具有較低計算復雜度的大數據多模態預測方法。相關仿真驗證結果表明,與經典馬爾科夫預測方法相比,基于張量鏈的多模態預測方法具有更高的預測準確率與更少的運算耗時。

關鍵詞:大數據;張量鏈;主特征值;多模態預測;并行計算;馬爾科夫模型;復雜度分析;預測準確度

中圖分類號:TM711 文獻標志碼:A 文章編號:1000-1646(2024)01-0013-06

隨著物聯網和云計算等技術的快速發展,智能電網的數據呈現增長迅速、種類廣泛、規模擴大和聯系復雜等多種特點。在此背景下,傳統的表示與分析方法逐漸難以適應電網多種類型數據的實際處理需求。為了實現多種形式數據的處理,研究人員利用張量模型實現多種復雜大數據的表示、處理和分析等過程,這一方法也逐漸被廣泛應用于工業、農業和電力等研究領域。然而,電網系統的大數據分析方法仍存在大量的問題未能解決。其中,高維度大數據和硬件設備的低計算能力之間的匹配問題,逐漸成為智能電網中大數據研究所面臨的重要問題之一。在硬件設備的計算能力限制下,為了盡量提升高維度大數據的預測準確率,研究者嘗試從增量、并行和綠色計算等角度提出相應的預測方法。在增量計算方面,SARWAR等利用奇異值理論,實現快速增長數據流的降維處理與分析;在并行計算方面,DING等在Hadoop模型的基礎上,提出了基于張量的高階奇異值預測算法,從而實現大數據的分布式處理方法;在綠色計算方面,LIN等利用DVFS技術制定了切實可行的任務調度算法,將大數據的預測與分析任務分解至多個計算設備,從而大幅度降低了整體系統的實際能耗。然而,以上預測方法仍難以應對維度不斷增加的大數據分析和處理現狀,準確率有待提高。

本文通過引入多元馬爾科夫模型,提出了多元多階的馬爾科夫轉移方法。在張量鏈的基礎上,分別提出了多元馬爾科夫的短期預測與長期預測算法,從而大幅提高了電網大數據預測系統的準確率。此外,本文還對預測算法進行了復雜度分析與具體實驗,結果表明,所提算法的預測準確率更高且執行時間更短。

1 多元馬爾科夫模型

通常一元馬爾科夫鏈主要描述隨時間變化的模型狀態轉移關系。例如,PageRank算法將網站設置為模型的狀態,網站之間的跳轉動作即為狀態的轉移動作。隨著特征向量的逐漸增多,多元馬爾科夫鏈得到了廣泛應用。其核心原理是利用張量和馬爾科夫理論,實現多種形式數據的表示以及狀態轉移的計算。

此時,在K階的維度上,轉移概率張量P與t時刻的狀態概率分布張量X,進行張量愛因斯坦乘運算,則可獲取t+1時刻的狀態概率分布張量Xt+1,從而實現模型中的狀態轉移。

令P表示轉移概率張量,Xt和Xt+1分別表示第t和t+1時刻的狀態概率分布張量,則狀態轉移動作的過程可表示為

狀態轉移的具體運算過程,如圖1所示。

2 多元馬爾科夫轉移方法

由于結合了多種實際影響因素,多元馬爾科夫模型可以實現更加精準的預測。在計算過程中,P與Xt之間的階數并不相同,這大幅降低了愛因斯坦乘的執行效率。為了克服這一問題,本文使用張量鏈實現馬爾科夫模型的存儲與計算。原因如下:1)與傳統方法相比,基于張量鏈的愛因斯坦乘只須對低階張量核進行操作,即可實現并行的混合計算,從而大幅提高張量的計算效率,節省模型的計算時間;2)基于張量鏈的愛因斯坦乘的計算過程僅需存儲具有較低階數的張量核,其內存開銷大幅度減少??傊?,基于張量鏈的多元馬爾科夫狀態轉移模型計算效率高且運行時間短。

3 短期預測算法

利用多元馬爾科夫模型,可以極大地緩解高階張量的維度災難問題?;谶@一原則,本文分別設置用戶(A1)、起始時刻(A2)和起始地點(A3)等多種系統狀態。在此基礎上,提出了基于多元馬爾科夫模型的短期預測算法,輸入為第t時刻的狀態張量Xt和轉移張量P;輸出為第t+m時刻的狀態張量Xt+m,或特定情況的預測結果。具體步驟如下:

1)分別將狀態張量X,與轉移張量P轉換為狀態張量鏈CX't和轉移張量鏈p';

2)基于狀態張量鏈X't轉移張量鏈P',利用愛因斯坦乘獲取第t+1時刻的狀態張量鏈X't+1;

3)反復運行基于張量鏈的愛因斯坦乘m次,獲取狀態張量鏈X't+m;

4)按照實際問題情況,利用水平并行模式對第t+m時刻的狀態張量鏈X't+m提取相應向量值,并獲取各個狀態的預測概率值;

5)對所有的預測概率值進行必要的排序,實現短期的多模態預測;

6)輸出第t+m時刻的狀態張量鏈X't+m或具體預測結果。

其中,在步驟3)中,基于張量鏈的愛因斯坦乘可以利用兩種混合并行計算的方式實現。通常針對狀態張量鏈X't和轉移張量鏈P',混合并行計算主要由“先水平后垂直”與“先垂直后水平”組成,則狀態張量鏈X't+1的“先水平后垂直”和“先垂直后水平”規則公式分別為

4 長期預測算法

在多元馬爾科夫模型中,利用短期預測算法和f時刻的狀態張量鏈X't,可得到t+m時刻的狀態張量鏈X't+m;而當m趨向于無窮大時,模型使用愛因斯坦乘方法可獲取符合穩態分布的轉移概率張量鏈,最終得到相應的主特征張量。在這一過程中,為了避免轉移張量出現震蕩和過擬合狀態,文中對轉移張量進行必要的素性修正,令E為平均轉移概率張量,β為概率對最終穩態的影響程度,則不可約轉移張量P,的素性修正方法可表示為

Pi=βP+(1-β)E (6)

在素性修正預處理后,文中提出愛因斯坦乘的迭代方法,從而完成規范的長期預測算法,輸入為轉移張量P∈RA1×…×Ak×A1×…×Ah的張量鏈P‘和收斂閾值δ;輸出為轉移張量P的主特征張量鏈X或特定情況的預測結果。具體步驟如下:

1)隨機選擇初始的狀態張量Xo,其元素均為1/(A1×A2×…×Ak),此時∑X0=1;

2)將狀態張量X0轉換為張量鏈形式X0;

3)第n時刻的轉移張量鏈X'n由初始狀態張量鏈X'0賦值;

4)將張量鏈P'和X'n進行愛因斯坦乘運算,使用P'中前k個張量核X'0進行模乘,獲取第n+1時刻的X'n+1;

5)計算X'n與X'n+1之間的范數差norm,若norm(X'n+1-X'n)>δ,則轉向步驟4);

6)獲取主特征張量鏈的結果,即令X'=X'n+1;

7)按照實際情況,纖維還原主特征張量鏈X',獲取預測目標值的概率;

8)按照概率計算結果,對預測結果進行排序;

9)返回目標概率值最大的主特征張量鏈X',即獲取概率最大的預測結果。

5 復雜度分析

為了進一步實現短期和長期預測的算法對比與分析,設轉移張量的維度為I,其張量鏈的秩為r。文中對短期和長期預測算法的基本步驟進行必要的復雜度分析。

首先,短期和長期預測算法均須對狀態概率張量進行張量鏈的分解動作。在短期和長期預測算法中,設第n時刻的狀態概率張量為Xn,坐標為(i1,i2,…,ik)的張量元素被設置為1,其余均為0,則其張量鏈的秩為l,每個張量核中X(i,ik,1)=1,且操作的時間復雜度均為O(1)。

其次,短期和長期預測算法須利用張量鏈完成愛因斯坦乘運算。若選擇“先垂直后水平”的計算方式,其順序為:1)該算法須執行1bk個時間復雜度為O(r6)的四階張量的多模乘;2)算法須執行,次復雜度為O(r4)的三階張量的多模乘運算,即該算法的單次迭代時間復雜度為O(r61bk+Ir4)。同理,利用同樣的分析方法,使用“先水平后垂直”的計算順序。該算法具有更高的執行效率,其時間復雜度為O(Ik/2+1r3+2Ikr2)。

最終,短期和長期預測算法均須在指定的模態下執行纖維還原。在纖維還原的過程中,算法須執行,I1bk次三階張量的通信操作,而每次的時間復雜度為O(r3),單次的時間復雜度為O(Ir31bk)。

總之,若選擇“先垂直后水平”的計算順序,短期和長期預測算法執行M次轉移,其總體時間復雜度為O(M(r61bk+Ir4)+Ir31bk);若選擇“先水平后垂直”的計算順序,則算法執行M次轉移的總體時間復雜度為O(M(/k/2+1r3+2Ikr2)+Ir31bk)。通過這兩種時間復雜度的比較可知,當狀態概率分布張量的階數k較小時,預測算法使用“先水平后垂直”計算順序的時間復雜度更低,且執行效率更高;而當k較大時,預測算法使用“先垂直后水平”計算順序的時間復雜度更低,其具有更高的執行效率。

6 仿真實驗

為了驗證和測試基于張量鏈的多模態預測算法,本文使用預測準確度與運算耗時等評價指標,對傳統預測算法和基于張量鏈的多模態預測算法進行對比。

6.1 實驗設計

在實驗硬件方面,本文使用6臺型號為IntelXeon E5-2630的服務器主機,利用局域網進行連接形成集群,其包含1臺內存為125GB的Master主機和5臺內存為50GB的Slave主機;在實驗數據方面,本文選用來自于微軟亞洲研究院的GeoLife數據集,該數據集由11個用戶在一定空間范圍之內的GPS軌跡數據組成,興趣點為226個;在時間維度上,將這些用戶的某一天軌跡數據分為4、6、8、10和12等多個時間段。實驗將90%的GeoLife數據集作為訓練數據,剩余的10%作為測試數據,從而完成傳統預測算法、高階奇異值預測算法與基于張量鏈的多模態預測算法的多項參數對比。需要說明的是,設由K個元素組成的預測結果集合為Qs={v1,v2,…,vk},由n個元素組成的測試目標序列集合為T={T1,T2,…,Tn},若測試目標序列集合Ts中的任何一個元素Ti∈Qs,則預測結果命中一次。通過總結預測結果集合的命中次數,可以衡量其預測準確率。第i個測試集元素Ti的命中次數的計算方法如式(7)所示。通過計算所有的測試目標序列集合的命中次數,可計算出預測算法的預測準確率,具體計算方法如式(8)所示。

6.2 短期預測實驗對比

為了驗證基于張量鏈的短期預測算法的準確率和運算耗時,本文通過選取相同的數據分解精度(10-5),利用不同數量的預測結果集合,獲取不同預測算法的準確率與運算耗時結果,從而充分地比較經典馬爾科夫預測方法、高階奇異值預測算法和基于張量鏈的短期預測算法。預測準確率與運算耗時的統計結果,分別如圖2、3所示。

從圖2中可以看出,在預測算法的運行過程中,當預測結果集合數量增加時,經典預測算法、高階奇異值預測算法與基于張量鏈的短期預測算法的預測準確率均逐漸提高。但短期預測算法和高階奇異值預測算法的準確率提升速度更快,經典預測算法的準確率上升較慢,當預測結果集合數量相同時,與經典預測算法和高階奇異值預測算法相比,短期預測算法具有更高的預測準確率。從圖3中可以看出,隨著預測結果集合數量的增加,經典預測算法的運算耗時逐漸增加,當預測結果集合數量大于5之后,經典預測算法的運算耗時急劇增加。與經典預測算法不同的是,高階奇異值預測算法和短期預測算法在預測結果集合數量達到3之后,其運算耗時不再有明顯增長,分別穩定在15s和11s左右,此外,當預測結果集合數量相等時,與高階奇異值預測算法相比,短期預測算法具有較低的運行耗時。換言之,短期預測算法的運算耗時普遍較低,且幾乎不受預測結果集合數量的影響。綜上所述,與經典馬爾科夫預測算法和高階奇異值預測算法相比,在相同的仿真實驗條件下,基于張量鏈的短期預測算法具有更高的預測準確率與更低的運算耗時。

6.3 長期預測實驗對比

與短期預測算法的驗證過程相似,本文也對長期預測算法進行了必要的驗證與比較。即在不同數量的預測結果集合條件下,對比經典馬爾科夫預測算法、高階奇異值預測算法和基于張量鏈的長期預測算法的預測準確率與運算耗時,結果如圖4、5所示。

從圖4中可以看出,隨著預測結果集合數量的逐漸增加,經典預測算法、高階奇異值預測算法和基于張量鏈的長期預測算法的預測準確率逐漸提高,且后者的提升速度更快。與經典預測算法和高階奇異值預測算法相比,當預測結果集合數量相同時,長期預測算法的準確率更高。從圖5中可以看出,隨著預測結果集合數量的增加,經典預測算法的運算耗時不斷增長,且其提升速度也逐漸增加。當預測結果集合數量達到2之后,長期預測算法的運算耗時基本達到平穩,其數值大約為500s,當預測結果集合數量達到6之后,高階奇異值預測算法的運算耗時約為1000s。當預測結果集合數量相等時,與高階奇異值預測算法和經典預測算法相比,長期預測算法的運算耗時更少。綜上所述,與經典預測算法和高階奇異值預測算法相比,基于張量鏈的長期預測算法具有更高的預測準確率與更少的運算耗時。

7 結束語

在張量鏈理論的基礎上,本文提出了適用于電網大數據分析的短期預測和長期預測算法。相關仿真實驗結果表明,在預測準確率和運算耗時指標方面,基于張量鏈的多模態預測算法優于經典的馬爾科夫預測算法。然而,由于受實驗環境和硬件設備等外部條件的限制,本文未能實現多種預測算法的運行內存統計與對比,這將影響所提預測算法的實際應用和推廣,后續的研究會解決這一問題。

(責任編輯:楊樹英 文審校:尹淑英)

猜你喜歡
馬爾科夫張量高階
基于疊加馬爾科夫鏈的邊坡位移預測研究
有限圖上高階Yamabe型方程的非平凡解
偶數階張量core逆的性質和應用
高階各向異性Cahn-Hilliard-Navier-Stokes系統的弱解
四元數張量方程A*NX=B 的通解
滾動軸承壽命高階計算與應用
基于改進的灰色-馬爾科夫模型在風機沉降中的應用
一類完整Coriolis力作用下的高階非線性Schr?dinger方程的推導
擴散張量成像MRI 在CO中毒后遲發腦病中的應用
馬爾科夫鏈在教學評價中的應用
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合