?

基于GIS的電網地理信息分布式數據挖掘

2016-11-22 01:57胡楠楊壯觀李峰李亮
電子設計工程 2016年15期
關鍵詞:數據源調用管理員

胡楠,楊壯觀,李峰,李亮

(國網遼寧省電力有限公司信息通信分公司 遼寧 沈陽 110000)

基于GIS的電網地理信息分布式數據挖掘

胡楠,楊壯觀,李峰,李亮

(國網遼寧省電力有限公司信息通信分公司 遼寧 沈陽 110000)

MapReduce是現有大數據平臺中典型的分布式并行計算編程模型,在大數據處理中被廣泛應用于電網綜合系統中。由于MapReduce屏蔽底層復雜的數據源連接,將不同數據源映射為統一的接口,有效地為智能電網一體化平臺(IMS)監管系統上層應用提供對異構數據的訪問,成為現階段數據分析需要解決的問題。本文將針對電網海量GIS信息數據及其對電網調度幾種控制系統帶來的數據存取問題,采用Hadoop HDFS進行海量GIS電網地理信息數據存取,利用MapReduce,設計面向HDFS、HBase和Mysql數據庫的多數據源的統一數據模型,集成數據操作代碼,減少重復代碼,提高開發效率。

電網系統;GIS;MapReduce;分布式計算

地理信息數據平臺是為了加強硬件及軟件業務緊密型,將業務數據關聯形成地圖位置。將設備數據與應用軟件數據及非結構化數據繪制出一張靈活、立體的“全公司一張網”,是加強智能電網建設的綜合展現平臺與輔助規劃決策基礎支撐平臺[1-4]。傳統的高壓采用單一的輸電線路對電塔進行定位[5],但是一旦輸電線路因老化等因素導致無法及時準確地定位高壓電塔位置,進而無法合理地調控電力輸送,將可能發現區域性大面積斷電等事故[6-8]。近年來,我國采用的輸電線路技術及移頻自閉技術對高壓電塔位置區段進行定位的方法,其數據丟失現象時有發生[7],對使用與調度指揮的安全可靠性構成巨大挑戰。因此,智能電網一體化平臺IMS監管系統迫切需要可靠的、低成本的新型高壓電塔定位系統,以實現對高壓電塔的實時定位監控[9]。

通過分析計算現有GIS電網數據,可以發現數據中蘊含的規律與價值,從而讓信息更好的服務于電網工業的發展。然而,面對著TB及甚至PB級的數據量,傳統的數據挖掘處理方式已經無法滿足智能電網的需求[10]。MapReduce是 Hadoop平臺的分布式并行計算編程模型,在GIS大數據并行處理中被廣泛應用[11-13]。隨著應用越來越廣泛,MapReduce需要面對的數據也越來越多樣化。通常,MapReduce所處理的數據可能會來自于HDFS、HBase、關系型數據庫,不同的數據源需要不同的連接方式[14]。面對著GIS數據源的多樣化與連接方式的復雜性,MapReduce原有的GIS數據輸入方式難免會顯得復雜繁瑣。本文提出基于Hadoop的MapReduce分布式計算框架,將不同的GIS電網地理信息數據源提取方法整合成一個統一的數據模型,對外發布統一的接口,并使用函數封裝,提高程序開發效率。同時,由于采用分布式平臺處理框架,數據處理的時效性和高容錯性也能得到保障。

1 GIS電網信息的分布式并行計算

1.1 MapReduce與傳統數據處理比較

與傳統數據處理相比 ,MapReduce具有分布式并行處理能力,在計算處理巨大GIS電網地理數據量信息時,具有很大優勢。具體對兩種處理方式進行比較分析。

傳統的GIS電網數據存儲和計算通常使用關系型數據庫[15]。關系型數據庫的興起和廣泛應用一度解決了數據存儲以及操作的問題。然而,大數據時代的來臨,使GIS電網關系型數據庫的存儲與處理能力捉襟見肘。對于有限數據量的紀錄,關系型數據庫性能優異,隨著數據量的動態增長,關系型數據庫暴露出了一定的不足之處。關系型數據庫的一致性和正確性的特點,不得不讓它從 更換硬件的角度來擴展處理節點的能力。這樣無疑會帶來很大的經濟開銷。相比之下,分布式基礎框架Hadoop分布式存儲與處理框架MapReduce解決了上述問題。它具有有效分割大規模數據并合理分配任務的優勢。作為面向大數據分析和處理的并行計算模型,MapReduce技術致力于通過IMS監管系統集群實現大數據的并行處理,而且MapReduce把擴展性和系統可重用性放在了優先考慮的位置。

1.2 MapReduce工作過程

Hadoop是當今流行的分布式系統基礎架構。該框架最核心的兩個設計分別是:HDFS和MapReduce。HDFS是分布式文件系統(Hadoop Distributed File System),可以創建、刪除、移動或重命名文件等。MapReduce則是用于并行處理大數據集的編程模型。改進的MapReduce數據源連接方式,工作過程如下:

MapRecude的輸入都是以分片為單位,默認情況下,以HDFS的一個塊的大小(默認為64M)為一個分片[17]。Mapper處理這些分片信息,根據處理邏輯,將數據轉換為鍵值對列表。輸出的結果會暫且放在一個環形內存緩沖區中[16]。這些結果會經過Shuffle分配給相應的Reducer來處理,最后輸出想要的結果。此過程的流程示如圖1所示。

圖1 MapReduce工作流程

1.3 GIS電網感知信息的分類

當有IMS管理員對分布式網絡感知信息存儲系統進行存儲和查詢操作時,首先要解決的問題是對GIS網絡感知信息中的動態信息和靜態信息進行分類識別,該功能由執行層中的識別接口完成。分布式網絡感知信息存儲系統會預先對網絡感知GIS電網地理信息中動態信息和靜態信息的Family值的范疇進行定義,如圖2所示。

圖2 分布式GIS電網感知信息分類

當有IMS管理員對系統提出寫入或讀取請求時,分布式網絡感知信息存儲系統會匹配該條網絡感知信息的數據模型中Family的值,判斷該值是屬于預先定義好的動態信息還是靜態信息,然后給該條網絡感知信息加上相應的布爾型變量進行區別標識。如果判斷為動態信息,則轉交給分布式網絡感知信息存儲系統執行層中的弱寫入接口和弱讀取接口進行處理;如果判斷為靜態信息,則轉交給分布式網絡感知信息存儲系統執行層中的強寫入接口、定位讀取接口和讀修復接口進行處理。

2 GIS電網信息的MapReduce連接方式

2.1 HDFS連接方式

在MapReduce中調用HDFS中的GIS電網數據,IMS管理員首先需要獲得程序配置信息,并設置MapReduce的主機地址、Zookeeper集群與端口號、JobTracker信息。除此之外,還需要設置輸入輸出類型,對應Mapper和Reducer等信息。以實驗環境為例,具體的調用代碼如下:

2.2 HBase連接方式

在恒溫干燥條件下,綜合得分較高的是在溫度為55℃,風速分別為1.2,1.8,0.6m/s時,其綜合得分分別為31.2,29.55,29.3。

在MapReduce中調用HBase中的GIS電網數據,IMS管理員首先需要獲得程序配置信息,并設置 MapReduce的主機地址、Zookeeper集群與端口號、JobTracker信息。除此之外,還需要設置輸入輸出類型,輸入輸出數據表以及對應Mapper和Reducer等信息。以實驗環境為例,具體的調用代碼如下:

2.3 MySQL連接方式

在MapReduce中調用Mysql數據庫中的GIS電網數據,IMS管理員首先需要獲得程序配置信息,并設置Mysql數據庫的主機地址,數據庫名稱,數據庫用戶名和密碼[18-19]。除此之外,還需要設置輸入輸出表名,程序對應數據庫表字段以及對應Mapper和Reducer等信息。以實驗環境為例,具體的調用代碼如下:

3 GIS電網地理信息據源提取系統設計方案

3.1 概 要

現實電網中控系統中,應用程序往往根據自身的特性存儲在不同的存儲介質或者數據平臺中。因此,MapReduce需要從多種不同的數據源中提取數據。由于在編寫MapReduce程序過程中,涉及到的參數與配置有很多[17],導致IMS管理員在編程的過程中很容易造成代碼的混亂和遺漏。特別是在連接關系型數據庫的過程中,管理員需要定義和設置包括GIS電網數據庫用戶名、密碼等多個參數,代碼可讀性較差,并且很容易遺漏某些參數,導致程序報錯。

針對上述問題,為方便IMS管理員使用,設計出一個統一的接口提供給管理員。整體系統一共分為3層,第一層為數據源統一對外發布的接口,直接被IMS管理員調用。第二層則是三種數據源的接口,分別是HDFS接口、HBase接口、MySQL接口。第三層則是直接操作MapReduce的函數,用于設置與獲得相關參數并運行程序[19]。

3.2 系統詳細設計

在編寫MapReduce程序過程中,所處理的GIS電網數據可能會來自于HDFS、HBase、關系型數據庫,不同的數據源需要不同的連接方式[20]。由于涉及到的參數與配置有很多,導致IMS管理員在編程的過程中很容易造成代碼的混亂和遺漏。因此,為屏蔽數據源多樣性與復雜性,設計一個面向多數據源的信息提取系統,通過用函數把參數封裝起來。管理員只需要通過set方法來設置參數,通過get方法獲取想要得到的實例,并調用運行方法,就可以建立數據源連接。

3.2.1 IMRMultiDataSource接口

此接口定義3個函數,用于得到不同連接方式的實例變量,以便操作相關數據源。此接口詳細介紹請見表1。

3.2.2 IMRHDFS接口

此接口作用是封裝原有MapReduce連接HDFS的連接方式,通過函數封裝,將復雜的GIS電網地理信息數據源代碼變為簡單的變量設置與函數調用,方便管理員調用HDFS數據。

此接口詳細介紹請見表2。

3.2.3 IMRHBase接口

此接口作用是封裝原有MapReduce連接HBase的連接方式,通過函數封裝,將復雜的GIS電網地理數據源代碼變為簡單的變量設置與函數調用,方便管理員調用HBase數據。此接口詳細介紹請見表3。

3.2.4 IMRMysql接口

此接口作用是封裝原有MapReduce連接Mysql的連接方式,通過函數封裝[21],將復雜的GIS電網地理數據源代碼變為簡單的變量設置與函數調用,方便管理員調用Mysql數據。此接口詳細介紹請見表4。

4 結論

針對我國電網高壓線路GIS地理信息數據源的多樣性與復雜性,首次采用MapReduce構建了一種面向海量電網GIS信息的分布式數據挖掘方法。采用分布式網絡感知信息存儲系統對GIS電網地理信息數據進行存儲,提出了基于MapReduce的GIS電網地理信息數據挖掘設計方案,旨在提高IMS系統管理員的編程效率,降低編程難度與出錯概率。通過本系統,IMS系統管理員只需要根據接口和函數,就能完成配置,提高了編程效率,降低了編程難度。

表1 IMRMultiDataSource接口

表2 IMRHDFS接口

表3 IMRHBasee接口

[1]韓強,馮濤,劉新天,等.電網GIS空間信息服務平臺及其專業應用[J].電力信息化,2011,9(2):152-156.

[2]李書群,高飛,吳兆福,等.單基站CORS在電網GIS數據采集中的應用[J].測繪工程,2013,22(1):59-62.

[3]陳亮,殷博,單寶麟,等.電網GIS全過程管理及數據獲取技術研究[J].測繪通報,2015(10):118-121.

[4]鐘一俊,周明磊,洪建光,等.基于組件化設計的電網GIS及應用[J].電力信息與通信技術,2014(12):39-43.

[5]鄭松濤,湯文成,陳昀.SLP法在風電塔筒廠區總平面布置中的應用[J].工業工程與管理,2010,15(1):116-120.

[6]劉劍,邰能靈,范春菊,等.柔性直流輸電線路故障處理與保護技術評述[J].電力系統自動化,2015,39(20):158-167.

[7]彭向陽,錢冠軍,李鑫,等.架空輸電線路跳閘故障智能診斷[J].高電壓技術,2012,38(8):1965-1972.

[8]宋國兵,蔡新雷,高淑萍,等.高壓直流輸電線路故障定位研究綜述[J].電力系統保護與控制,2012(5):133-137.

[9]王長久,石文婷,柳君,等.中控GCS系統在電力廊道項目的應用[J].中國儀器儀表,2014(10):41-45.

[10]周馳,郭寶,王沈亮,等.生產管理系統與電網GIS平臺集成應用分析[J].電力信息化,2011,9(2):102-106.

[11]李建江,崔健,王聃,等.MapReduce并行編程模型研究綜述[J].電子學報,2011,39(11):2635-2642.

[12]饒君,吳斌,東昱曉.MapReduce環境下的并行復雜網絡鏈路預測[J].軟件學報,2012,23(12):3175-3186.

[13]李成華,張新訪,金海,等.MapReduce:新型的分布式并行計算編程模型[J].計算機工程與科學,2011,33(3):129-135.

[14]潘巍,李戰懷,伍賽,等.基于消息傳遞機制的MapReduce圖算法研究[J].計算機學報,2011,34(10):1768-1784.

[15]王習特,申德榮,于戈,等.MapReduce集群中最大收益問題的研究[J].計算機學報,2015,38(1):109-121.

[16]張洋舜.基于Hadoop的并行實體解析方法研究與應用[D].上海:東華大學,2014.

[17]郝樹魁.Hadoop HDFS和MapReduce架構淺析[J].郵電設計技術,2012,(7):37-42.

[18]魯學鳳.基于關系數據庫和map/reduce的綜合查詢系統設計與實現[D].上海:復旦大學,2012.

[19]師金鋼,鮑玉斌,冷芳玲,等.基于MapReduce的關系型數據倉庫并行查詢 [J].東北大學學報:自然科學版,2011,(5):626-629.

[20]田勝利.針對HBase的MapReduce數據訪問方式的優化[D].長沙:國防科學技術大學,2012.

[21]楊勇生.數據集成平臺中多數據源包裝器的實現[D].天津:天津大學,2008.

A distributed computing for grid distributed based on GIS geographic information data

HU Nan,YANG Zhuang-guan,LI Feng,LI Liang
(Information and Communication Branch of State Grid Liaoning Electric Power Supply Co.,Ltd.,Shenyang 110000,China)

To attack the challenge of storing and analyzing massive GIS data generated by high-voltage tower,a distributed solution was proposed,which used Hadoop HDFS to store and employed MapReduce to process the huge data.In addition,the data structures in HBase and the algorithms on position matching of GIS data and safe distance calculation were proposed.Finally,experiments demonstrated that the distributed solution was much more efficient and extendible.

high-voltage tower;GIS;MapReduce;distributed computing

表4 IMRMysql接口

TN919.6

A

1674-6236(2016)15-0020-05

2016-01-21 稿件編號:201601198

國家自然科學基金項目(51307051)

胡 楠(1982—),男,遼寧撫順人,博士,高級工程師。研究方向:電力信息化運維。

猜你喜歡
數據源調用管理員
我是小小午餐管理員
我是圖書管理員
我是圖書管理員
可疑的管理員
核電項目物項調用管理的應用研究
Web 大數據系統數據源選擇*
基于不同網絡數據源的期刊評價研究
基于系統調用的惡意軟件檢測技術研究
基于真值發現的沖突數據源質量評價算法
分布式異構數據源標準化查詢設計與實現
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合