?

基于Kafka集群的數據搜索及共享機制在電力企業的應用研究

2018-06-14 05:47孟椿智葉耿謝瑞浩
數字技術與應用 2018年3期
關鍵詞:全文檢索搜索引擎引擎

孟椿智 葉耿 謝瑞浩

(1.廣西電網有限責任公司信息中心,廣西南寧 530023;2.廣西博聯信息通信技術有限責任公司,廣西南寧 530023)

目前電力企業已經進入大數據時代,數據信息量越來越大,通過Hadoop技術建設數據中心,實現數據采集抽取、清洗轉換、加載存儲、數據可視化顯示等,而電力企業的應用系統對數據的需求越來越旺盛,有必要就數據搜索及共享機制展開研究。

1 電力大數據趨勢

隨著計算機科學的飛速發展,電力行業的信息化程度越來越高,有關的電力數據資源也開始快速增加,電力企業的數據資源逐漸朝著異構、多源以及PB級規模迅速發展。在社會向著大數據發展的大環境下,電力大數據也逐漸成為了電力工業技術革新的必經之路。電力大數據標志著電力技術的跨越性進步,通過建設數據中心為應用系統提供強有力的數據支撐,完成數據價值變現,是智能化電力系統的重大變革要求。

圖1 電力企業全文檢索引擎系統功能設計

2 Kafka集群關鍵技術

Kafka是Apache基金會的頂級開源項目,主要應用場景有日志收集系統和消息系統,實現消息持久化、高吞吐率地數據傳輸能力。Kafka集群一般包括幾個broker(消息中間件處理結點),producer(消息提供者)將數據推送到broker上,consumer(消息消費者)再從broker拉取數據進行消費,Kafka集群使用“at least once”的機制實現數據傳輸,即數據至少傳輸一次,如果數據未接收成功,會重發直至成功。

3 基于Kafka集群的數據搜索及共享機制在電力企業的應用

3.1 設計與實現

3.1.1 功能設計

結合電力企業應用過程中對數據中心提出數據共享的需求,本文設計了以hadoop技術為主的,多種數據源應用框架結合的電力企業全文檢索引擎系統,其中應用了部分開源、擴展性強的kafka集群技術,從而建立了有效、實用的數據共享機制。圖1是電力企業全文檢索引擎系統功能的設計情況。

用戶可以通過輸入關鍵字的方式對全文進行有效檢索,并且搜索引擎可以按照用戶提供的屬性以及其他相關信息等對相關性大的搜索結果按照關聯性的大小依次進行排序,從而搜索出和用戶需求匹配的數據,再通過Kafka集群向用戶推送數據結果,達到數據共享的效果,因此,電力企業全文檢索引擎系統具備以下功能:(1)搜索引擎具備對全文數據進行快速檢索的能力。為了實現快速檢索,可以有效結合倒排索引的方式,通過反向索引實現在大規模的文本數據中準確定位相關信息的功能。(2)搜索引擎能夠對相關性進行充分、有效的檢索。查準率和查全率是對系統檢索能力進行衡量的基礎指標。查準率意味著搜索引擎檢索功能的精確程度,也就是說查準率是檢索結果中正確數據的百分比。查全率意味著搜索引擎檢索出相關信息的能力,也就是說查全率是搜索引擎檢索出的相關結果同全部相關結果的百分比。(3)穩定的數據共享機制。在用戶根據自身需求搜索出數據后,電力企業全文檢索引擎系統需要向用戶提供穩定的數據傳輸通道,確保數據可以正確、可靠地到達相關應用系統,為企業的生產運營、決策分析提供強有力的數據支撐。

3.1.2 索引模塊構建

為了實現檢索功能,需要創建相應的索引模塊。因此,應當以電力特點為基礎,構建具有檢索功能的模塊。一般來說,檢索模塊主要由檢索分析處理與檢索結果處理兩大部分構成。

對于索引模塊而言,其通常都會涉及到多個系統之間的數據同步問題。要想符合檢索系統對數據一致性和實效性的需求,就必須具備不同的數據采集方式,和多渠道的索引構建策略。為此,可以從以下三方面入手:(1)保障數據能夠被全量抽取,并構建相應的索引模塊。索引數據和業務系統數據必須具備一致性,因此,應當定期利用系統對所有的索引數據進行重建。(2)注意索引數據的實時同步。一些業務數據必須被及時且準確地檢索到,對于這部分數據應當構建相應的實時索引數據。(3)索引模塊構建過程中要注意定期增量同步。通常情況下,索引系統和業務系統以及消息中間件是相互獨立的,因此,應當有效保證異構系統之間的數據具有一致性。

3.1.3 數據共享機制

為了能夠穩定地向用戶傳輸數據,實現數據共享的機制,需要建設kafka集群,用戶作為consumer(消息消費者),訂閱從電力企業全文檢索引擎系統搜索出來的Topic(消息),即數據,數據中心作為producer(消息提供者),將用戶訂閱的Topic推送到broker(消息中間件處理結點),用戶可通過數據接口、文件下載等方式從broker獲取詳細的數據內容用于后續的數據應用。

3.2 具體應用效果

基于Kafka集群的數據搜索及共享機制在電力企業全文檢索引擎系統中得到積極應用,目前已為多個的應用系統提供服務,實際應用表明,本文設計的全文檢索引擎系統的搜索速率達到了496條/秒,每天可提供超過5GB的數據量,大大滿足了應用系統的數據共享需求。

4 結語

基于Kafka集群的數據搜索及共享機制,能夠有效提高全文檢索的查準率和查全率,為應用系統提供強有力的數據傳輸,其對于電力企業的發展具有重要意義。

[1]李愛軍,王海濱,鄭曉波.基于推理控制策略的智能型電力搜索引擎的研究[J].西華大學學報(自然科學版),2008,27(06):34-37+48+122.

[2]宋宛凈,姚建剛,汪覺恒,等.全壽命周期成本理論在主變壓器選擇中的應用[J].電力系統及其自動化學報,2012,24(06):111-116.

[3]白紅偉,馬志偉,朱永利.基于云計算的絕緣子狀態監測數據的處理[J].電瓷避雷器,2011,(04):19-22+28.

[4]曲朝陽,熊澤宇,顏佳,等.基于空間分割的電力大數據三維全景可視化場景管理方法[J].華北電力大學學報(自然科學版),2016,43(02):23-29.

猜你喜歡
全文檢索搜索引擎引擎
Oracle數據庫全文檢索性能研究
網絡搜索引擎亟待規范
無形的引擎
基于Cocos2d引擎的PuzzleGame開發
Nutch搜索引擎在網絡輿情管控中的應用
基于Nutch的醫療搜索引擎的研究與開發
基于KySou的全文檢索系統的分析與優化
廣告主與搜索引擎的雙向博弈分析
One?。牛睿纾椋睿濉。蹋澹妫糁皇O乱粋€引擎
用JSP調用Lucene包來實現全文檢索
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合