?

基于Hadoop 平臺的電力大數據聚類算法研究

2021-01-29 03:06李俊艷鄭州電力高等??茖W校
數碼世界 2020年12期
關鍵詞:分布式計算用電數據挖掘

李俊艷 鄭州電力高等??茖W校

隨著社會信息化程度的不斷提高,數字化信息量呈現爆炸式增長,互聯網信息化進入極速增長期。國際互聯網數據公司IDC統計全球數據以每年50%的速度增長。電力工業是國家基礎能源的重要組成部分,麥肯錫從大數據應用在各行各業的發展等方面研究闡述對人類生活等方面產生的意義。2012年達沃斯世界經濟論壇上大數據成為會議熱點,探討如何利用數據產生良好社會效益。2013年電機工程學會發布《中國電力大數據發展白皮書》,重新定義了電力大數據的特征,以期推動大數據更加廣泛的應用到電力工業領域。隨著智能電表普及,SCADA系統部署完善,電力工業數字信息化程度大幅提高,電力企業信息化建設從80年代財務電算化信息化建設到大規模企業信息化建設,計算機技術在電力行業中得到廣泛應用。電力大數據的使用在電力行業各環節都有體現,本文使用R語言與Hadoop分布式計算平臺相結合,提高數據分析速度。通過分析不同用戶用電特征,對用戶進行針對性電力營銷策略。

1 數據挖掘技術研究

數據采集技術的快速發展使得數據可在短時間內完成海量積累,數據挖掘技術是智能系統理論研究的重要課題。通過人工智能等技術從海量歷史數據中獲取有價值知識,目前數據庫儲存數據量日益增多,通過數據挖掘技術可獲取數據中隱含的有價值的信息。研究通過數據挖掘技術預測電力負荷,為更合理的進行電力調度提供技術支撐。

數據挖掘技術聚類分析是將海量大數據劃分為互斥組,沃爾瑪購物車分析中發現,將啤酒和尿不濕放在一起銷售可提高銷量。阿里巴巴成立大數據團隊,分析客戶購物習慣。聚類分析是大數據挖掘分析的一種重要方式,很多聚類算法被收錄在大數據分析軟件中。麥肯錫公司發布大數據報告后,隨著技術的進步,數據從GB級發展到PB級。傳統數據處理方式在大數據處理速度上不能滿足實際需求,分布式計算平臺Hadoop因其低成本,高性價比等特性成為企業大數據平臺首選解決方案。隨著智能電表在用戶側普及,電力大數據在電網應用得到發展。

隨著社會高度信息化,每天有大量來自商業、生活等各方面的數據注入計算機網絡,數據爆炸式增長,如何從海量大數據中挖掘出具有實際價值的信息,為企業提供決策支撐成為企業的迫切需要。數據挖掘可用于任何數據集合,對包含有多種不同數據類型的數據集合同樣適用。數據挖掘技術根據處理的數據類型有很多模式,包括回歸分析,聚類分析等。數據挖掘技術涉及多個學科領域,包括數據庫技術、神經網絡等多門學科知識。數據分析處理過程包括數據收集、數據處理和結果展示幾步,在進行數據收集的過程中,由于各種原因可能造成屬性值缺失,數據重復等問題,很多數據不具有參考價值,需要在分析數據前把可能影響數據分析結果的無用信息清洗掉,以便得到最準確的分析結果。聚類是根據特定規則,把數據集中特征相似的數據劃分到同一組,特征差異較大的數據劃分到不同的組,是一種常見的數據分析方法。數據在完成分析處理之后,通常以圖形化、圖表化等直觀的方式展示給用戶。

2 Hadoop平臺分析

Hadoop是Doug Cutting等人受谷歌實驗室論文MapReduce:Simplified Data Processing on Large Clusters啟發開發出來的一套分布式計算框架,因其靈活性、開源性等特征,用戶能夠非??焖俚卦贖adoop分布式平臺上運行自己開發的用于處理大數據的應用程序,被行業內很多互聯網公司使用。

Hadoop是一個可以對大規模數據集進行分布式快速處理的軟件框架,它以并行的方式工作,實現數據的快速高效處理。Hadoop配置在一個集群上,當啟動Hadoop集群時,分布于集群各個節點的一組進程開始運行。Hadoop平臺的核心包括分布式計算框架MapReduce和文件系統HDFS等。MapReduce采用“分而治之”的形式,把大規模數據劃分成多個數據塊,把各個數據塊分配到不同的節點進行處理,最后把所有節點的處理結果進行整合,得到最終的結果。分布式文件系統HDFS主要用于Hadoop中數據文件的管理,其存儲可靠性高、數據吞吐量大、規??蓴U展性強、系統容錯能力強和網絡堵塞概率低等特性,為大規模數據的存儲提供了良好的保障,是處理大規模數據集的合適平臺。

3 用戶負荷聚類算法

電力數據具有體量大的特點,電力數據采集方式有很多,在不同環節產生海量電力大數據,通過對這些數據分析,可以更好的為用戶提供服務。智能電表的大規模普及使得對用戶用電負荷數據采集變的非常方便,本文針對電力大數據在用戶用電側電力負荷數據研究,分析用戶的用電行為特性,更合理地分配調度電力資源。

電力數據在收集、傳輸過程中,由于種種原因,最終從數據源導出后通常會產生部分數據重復,數據屬性值缺失等問題,在數據分析之前,需要對原始數據中可能引發不良影響的元數據進行清洗,包括分析數據、缺失值處理、異常值處理、去重處理、噪音數據處理等步驟。從數據源中獲取的用戶負荷數據含有時間屬性,智能電表采集數據的頻率為每15分鐘一次,通過查看采集在數據,發現存在用戶數據負荷數值缺失等情況。

電力用戶負荷曲線是時間序列格式,屬性在不同時間點,屬性值按照一定的順序線性展示,具有非平穩性,波動幅度隨時間變化。用電負荷曲線很大程度上體現了用戶日常用電習慣,包括負荷種類,計量機電等分類方式。本文涉及用電負荷按時間周期分類方式,采用用戶日負荷曲線,二維空間坐標系中Y軸表示用戶用電負荷,X軸表示數據采集時間。時間序列分析算法采用傳統靜態數據聚類算法無法勝任。

凝聚式層次聚類算法在電力行業用電負荷預測中也有應用,采用層次結構作為算法輸出結果,將數據集中節點當做簇,層次聚類算法通常利用樹狀圖的形式展示結果?;跉W式距離的聚類算法將負荷曲線點間的幾何平均距離作為對象相似性判斷標準,易造成用電負荷劇烈不準確。本文通過將DTW聚類算法應用于云計算平臺,對電力大數據進行聚類。

4 實驗結果分析

電力大數據與Hadoop結合已有很多應用,研究通過運用HDFS存儲智能電網數據,對電力數據分析預測,本文對電力用戶負荷數據進行聚類分析,通過Hadoop平臺進行分布式計算,快速得出結果,提高數據分析的時效性。

實驗采用主機服務器搭建Hadoop集群實驗,在Cent0S系統解壓下載好的JDK,為使集群中NameNode節點通信方便,本文采用JournalNode方式,節點用作其他服務。主備NameNode節點切換方式為手動自動,實驗采用簡單手動切換模式。安裝R語言及相關R包完成實驗環境搭設。在R語言控制臺可進行數據分析。通過比較序列時間維度拉升操作,使用DTW算法找到時間序列匹配模式。DTW層次聚類法具有較高準確性,但執行時需生成鄰近矩陣,如直接對電力大數據應用DTW層次聚類算法時間復雜度高,通過借鑒Srinath對亞馬遜客戶數據聚類分析法得出DTW層次聚類算法。

DTW層析聚類算法需通過構建時間序列點距離矩陣,首先對從全部電力負荷數據中隨機抽樣,將電力負荷數據部署到Hadoop集群的HDFS上,計算完整的負荷數據與抽樣數據聚類中心DTW距離,對數據排列歸并得到負荷數據聚類結果。方案解決了對大數據進行DTW層次聚類分析高復雜度的不足,數據使用廣東省某一區域電網大用戶工作日的日負荷曲線數據,通過使用DTW層次聚類算法分析歷史數據得到用戶用電負荷特征,縱坐標為負荷值,橫坐標為96個采集點。負荷曲線特點體現為平均負荷值較大,工作時間從凌晨至早上;平均復合值適中,一天出現三個波峰;除了固定時段平均負荷值出現波谷以外,全天都維持比較高的功率。

5 結語

在全球信息化時代浪潮下,如何利用大數據技術為生活帶來更大效益成為當下熱門課題。本文對電力大數據挖掘進行深入研究,對用戶電力負荷曲線聚類算法對比提出Hadoop平臺分析解決方案。將DTW層次聚類算法應用于Hadoop分布式計算平臺對電力大數據分析,能夠提高聚類分析結果的準確性和時效性。

猜你喜歡
分布式計算用電數據挖掘
改進支持向量機在特征數據挖掘中的智能應用
探討人工智能與數據挖掘發展趨勢
基于事故數據挖掘的AEB路口測試場景
用電安全要注意
軟件工程領域中的異常數據挖掘算法
基于云計算的大數據處理與分析綜述
基于云計算的移動學習平臺設計與實現
云計算中MapReduce分布式并行處理框架的研究與搭建
學習用電小知識
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合