?

基于多變量自動回歸的電力大數據異常值檢測平臺設計*

2022-11-28 12:25李英俊喬斌強
自動化技術與應用 2022年10期
關鍵詞:層面變量檢測

劉 濤,李英俊,邢 峰,喬斌強,劉 斌

(烏蘭察布電業局,內蒙古 烏蘭察布 012000)

1 引言

為了加速現代電網智能化,在電網中廣泛安裝了多種數據采集裝置與信息管理系統,例如智能電表、遠程測控終端和同步測量裝置、配電管理系統、能量管理系統、用戶管理系統和電廠管理系統等,這些裝置和系統產生了大量數據,是智能電網大數據的主要來源[1-2]。對于這些大數據進行分析,能夠為電網的運行控制提供科學的決策依據,以保證電網的安全穩定運行。在此過程中,為提升電網管理水平,以電力大數據為依托利用先進的技術手段進行電網的實時監測與分析,并對其運行狀態進行預測,由此也產生了海量實時數據流[3-4]。但數據流中異常值的存在會使得數據分析結果產生較大偏差,甚至有可能會造成一些決策失誤[5]。因此為了解決這些問題,需要設計一種快速且準確的異常值檢測方案。

國外主要是上下文對數據類別進行劃分,在根據機器學習中的監督、非監督以及半監督學習方法對數據異常進行檢測,但國內的方法并不拘泥于以上幾種,而是采用了更加多樣化的方法進行數據異常檢測。例如董澤[6]等人提出基于EWT-LOF的數據異常值檢測平臺設計方法,該方法結合密度檢測方法以及信號分解法對大數據中異常數值進行檢測。首先對收集的數據進行小波變換處理,提取數據的時間變化趨勢。通過LOF 局部離群因子和箱型圖分別完成對所有采集數據中的局部異常數值以及序列中的異常點的獲取。金鵬[7]等人提出基于深度信念網絡的數據異常值檢測方法,為解決高維度數據在異常值在線檢測過程中困難程度相對較高的問題,通過深度信念網絡對原始數據進行降維,并對上述高維度數據的特征和降維后的原始數據分別進行提取以及異常值檢測處理。將滑動窗口模型以及QSSVM 進行結合后應用于數據異常值的檢測處理中,從而實現數據中異常值的在線檢測。

為了進一步提高電力大數據異常值檢測準確率,縮短檢測耗時,本文提出了基于多變量自動回歸的電力大數據異常值檢測平臺設計方法,并通過對比實驗,對該平臺的有效性進行了驗證。

2 平臺架構

為解決電力大數據中異常值檢測問題,設計平臺各層面以及具體功能如下:

(1) 首先是由網絡數據流、日志、告警數據以及大量安全數據等所組成的數據源層面[8];

(2) 其次由網絡數據流、告警數據以及日志接入服務所組成的數據收集層面,該層面可以對數據進行讀取識別,并根據不同的電力數據采取不同的接入方法。利用工具Gopacket 以及Avro 獲取數據,從中提取出數據的維度特征并將特征數據傳輸到平臺;

(3) 實時計算層面,又稱實時分析層面,該層面主要利用處理工具Flink對數據進行低延遲的處理,可對收集的數據進行統計、分析、重組,提取數據的特征,并將所提取的特征輸入到平臺中;

(4) 利用集群Kafka所構成的數據管道層面,可通過該層面將實時分析層面與數據收集層面進行連接。Kafka所擁有的緩存數據功能具有著可靠性高、吞吐力強的特點;

(5) 由Elasticsearvh、HDFS 所構建成的數據存儲層面,為所獲取的大量數據提供可靠的存儲服務以及吞吐性較高的讀寫服務;

(6) 最后是數據分析,該層面由數據的挖掘、網絡異常數據檢測模型、關聯分析和回溯取證等功能模塊所組成。

各層面之間分工明確,首先將收集到的數據投放至數據管道,最后將經過Flink處理工具讀取識別的數據移至Elasticsearvh以及HBase進行數據分析處理。具體如下圖1。

3 多變量自動回歸數據異常檢測

通過多變量自動回歸的方法對實驗所需的電力數據進行收集,并對獲取到的數據進行分析比對,從而實現電力數據中異常值的檢測。

3.1 數據的表達

分析電力的評價數據時間變化特點,電力數據取值區間為{1,2…M},且M需要是離散、有序的整數,在該區間中的取值分布r是M向量,如下式:

式中,所有電力數據中評價數值為d的數據占總數據量的比例用rd表示。

假設電力數據中的時序數據用R進行表示,同時R=(r(1),…,r(t),…,r(T)),r(t)代表時間戳為t的電力評價數據,并且是涵蓋多個變量的向量。為實現評價數據的有序性,需要對R進行累積分布處理。如下式:

式中,x(t)代表累積分布,其第d個元素為。

對數據進行累積處理后,不僅可以保證數據的有序性,同時可以對數據分布問題進行更加詳細的描述。假設評價數據分布狀態描述分別為a、b、c,其中a=[1,0,0,0]、b=[0.5,0.5,0,0]、c=[0.5,0,0,0.5]。由于a、b相似度大于a、c之間相似度,需要進行累積分布,其中a'=[1,1,1,1]、b'=[0,5,1,1,1]、c'=[0.5,0.5,0.5,1]。

根據向量之間相似度的判斷標準對進行累積分布的數據進行分析,發現還有可能存在a、b相似度大于a、c之間相似度的問題,同時發現數據中最后一項始終為1,且數據項之間為非遞減關系,因此對其進行描述。具體如下:

式中,電力的時序評價數據集為X=(X(1),…,X(T)),D=M-1為累積評價分布參數X(t)的維度,同時X(t)CD。

3.2 異常數據產生過程模型

根據上述3.1可知,X=(X(1),…,X(T))為電力的時序評價數據集,其中數據X中可能會存在異常數據,所以無法利用X直接對電力數據進行直接描述。

考慮上述問題,假設電力的基本數據A={a(1),…,a(T)}為潛在變量,電力評價數據X(t)(1≤t≤T),且符合下述條件:

式中,a(t)代表基本數據的分布描述參數,y代表電力數據中異常數據的分布參數,時間t的權衡系數用pt進行表示,pt值的大小反映著電力基本數據的權重,pt值越大其權重越大,t時間段內的外部環境噪聲kt進行表示。為保證各參數在模型中的有序性,電力基本數據以及異常數據的處理必須是合理有效的,且yCD。

在X中所包含的基本電力數據a(t)平滑時,在產生異常數據y時,X會隨之產生變化。電力的正常數據a(t)也會隨著之前的時間t發生變化,同時適當的突變行為也是允許的,具體的表達方式如下:

式中,t之間的重要時間點為w[0…1],數據變化傾向用bCD表示,初始時間點所產生的基本數據用a(0)進行表示。

3.3 數據的稀疏性

異常數據很少存在于電力時序評價數據中,由此可知,在上述公式(5)中,-p 的非零元素是具有稀疏性的。假設電力評價數據中的異常數據的最大個數用表示,且。由下式先驗分布函數獲取p值,同時pt不再相互獨立:

式中,先驗分布函數包含以下特點:

(1) 易解釋。產生異常數據時可以輕松獲取其產生的時間點;

(2) 異常數據產生時,累積分布函數最大熵分布異常數據的數量,不偏向于向量p;

3.4 目標函數

為了檢測出電力數據中的異常數據,且實現對檢測出的數據進行詳細的描述,本文利用極大似然估計方法將概率p(X,Z)最大化聯合,所有的變量集合用Z進行表示。選擇適合的先驗分布方法可以較好地定義上述問題。如果產生的誤差為同分布且獨立的高斯分布,且~N(0,σ2·1)。在公式(5)、(6)中加入以εt及,具體如下式:

式中,a(t),X(t)CD,CD值域范圍的數據正態分布為( )。根據下式對y、b、ω以及a(0)進行先驗分布且不提供信息:

式中,y、b、ω以及a(0)可以代表自變量x。分析上式可知,向量的取值范圍是有界限的,因此該先驗分布函數是有效的。

當所有存在變量的取值都在合理且有效的范圍內時,p(X,Z)計算公式如下:

式中:

將(11)最大化以獲取目標函數以及最優σ2,具體計算公式如下:

3.5 模型的預測與選取

利用Bayesian information criterion可以確定最優參數。在設定參數的同時,最小化下式(15),從而獲取到的最優值,具體計算公式如下:

通過對電力時序評價數據的分析,不僅可以獲取到電力基本數據以及異常數據,也可以預測即將出現的評價值。由于采集到的電力數據中異常數據具有稀疏性的特點,可通過下式(18)對T+1情況下的評價值進行計算,并判斷出即將產生的數據是否為異常數據,具體如下式:

在上述所構建的平臺的基礎上,利用多變量自動回歸的方法對電力數據進行收集與分析,檢測出電力數據中所存在的異常值,該方法不僅降低了檢測過程中所需的時間消耗,同時又保證了數據檢測的準確度。

4 實驗與結果

為了驗證基于多變量自動回歸的電力大數據異常值檢測平臺設計方法的整體有效性,需要對該方法進行測試。本實驗通過Matlab平臺實現,實驗環境如下:

(1) CPU為2.20 GHz i7-4702MQ;

(2) 硬盤為1TB;

(3) 內存為8GB;

(4) 系統為Windows 8.1。

實驗數據來源為中國電力網(網址為http://www.chinapower.com.cn/)。分別采用基于多變量自動回歸的電力大數據異常值檢測平臺設計方法(方法1)、基于EWT-LOF 的數據異常值檢測平臺設計方法(方法2)和基于深度信念網絡的數據異常值檢測平臺設計方法(方法3)進行測試,并對三種方法的錯誤率、消耗時間以及漏報率進行比對,具體結果如下:

(1) 對實驗收集的數據進行異常值檢測,并對三種方法的錯誤率進行詳細比較,具體情況如圖2所示。

(2) 選取相同數據組進行檢測,觀察三種方法在檢測過程中所消耗的時間,具體情況如圖3所示。

(3) 在與上述相同條件下,對三種方法的漏報率進行對比,具體情況如圖4所示。

對上述圖2、3、4 進行分析可知,與其他兩種方法相比,方法1 的錯誤率、漏報率以及所消耗時間優于其他兩種方法。因為基于多變量自動回歸的電力大數據異常值檢測平臺設計方法首先建立了具有高存儲、低輸出延遲率等特性的電力數據異常值檢測平臺,利用多變量自動回歸的方法對電力數據進行檢測,并對獲取到的評價數據進行了累積分布處理,在保證了數據有序性的同時,又對數據分布進行了細致精準描述,最后利用高斯分布解決了電力數據評價值中異常值稀疏的問題,因此該方法既能保證檢測準確度的同時又能縮短檢測時間的消耗。

5 結束語

現今電力大數據中異常值檢測問題已經引起了社會各界的廣泛關注。傳統方法的檢測結果存在著錯誤率較高、消耗時間較長以及漏報率較高等問題,因此本文提出基于多變量自動回歸的電力大數據異常值檢測平臺設計方法,在電力數據獲取、處理以及存儲等多種功能為一體的電力數據異常值檢測平臺上,利用多變量自動回歸的方法完成異常值檢測,該方法不僅能夠縮短檢測時間,同時又能夠提升檢測結果的準確度。

猜你喜歡
層面變量檢測
基于選項層面的認知診斷非參數方法*
抓住不變量解題
必修二 Modules 1—6綜合檢測題
“整式的加減”檢測題
“整式”檢測題
分離變量法:常見的通性通法
二孩,人生如果多一次選擇!
不可忽視變量的離散與連續
變中抓“不變量”等7則
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合