?

基于近似匹配模型的電網多模態數據檢索研究

2024-04-13 06:54蘇蕊王亞婷閆潤珍王悅
電子設計工程 2024年7期
關鍵詞:數據檢索文檔檢索

蘇蕊,王亞婷,閆潤珍,王悅

(1.國網甘肅省電力公司互聯網事業部,甘肅蘭州 730000;2.國網甘肅省電力公司天水供電公司,甘肅天水 741000)

電網工程建設屬于高風險行業,在明線工程中,其安全控制涉及范圍較廣。電網在各個領域廣泛應用,市場規模也逐漸擴大,相應產生的數據也越來越多,大量的文字、圖片、音頻、視頻等數據被收集起來。由于數據多模態、數量龐大,給數據檢索帶來極大困難。傳統文本檢索、圖像檢索等檢索技術常常將某些模態下的相似數據匹配,獲得的數據也大多是相似度較高的同態數據。因此,對電網多模態數據檢索是具有必要性的。

文獻[1]提出了深度學習驅動的檢索方法,構建人工卷積神經網絡模型。利用深度學習強大表征能力,提取文本特征,依據條件熵概念度量多標簽相似度,由此實現多模態數據檢索。文獻[2]提出了基于鏈上鏈下相結合的檢索方法,將區塊鏈和分布式存儲技術相結合,以達到分散數據存儲的目的。對外向管理人員提供數據檢索接口,實現數據完整性檢索。由于不同模態數據之間相互關聯,上述兩種方法雖然能夠有效檢索數據,但忽略了檢索過程中模態之間的相似性,導致檢索結果重復性數據較多。

為了解決這個問題,文中提出了基于近似匹配模型的電網多模態數據檢索研究。

1 建立映射關系

引入樹匹配原理,建立了一種多層次、多模態的近似匹配模型。應用樹匹配原理,通過對兩棵樹之間的節點映射處理,實現不同數據的模態匹配。結合電網多模態數據結構特征,提出了基于結構搜索和語義搜索概念,再引入親和度約束原則,構造了如圖1 所示的近似匹配模型檢索框架。

圖1 近似匹配模型的多模態數據檢索框架

圖1 中按照結構和功能可劃分為三個層次。第一層是應用層,為用戶提供了一個可訪問接口,可以采取多模態查詢[3]。第二層是服務性層面,在多模態數據的檢索過程中,使用多個服務器組織方式,定義了用戶訪問權限,保證了網絡安全,并設置了身份登記接口,提供了數據備份和管理功能[4]。第三層是數據層,包括多種注冊代理的數據信息,多模態數據的表達方式多元化,其在多模態數據檢索框架下,利用近似匹配原理,通過數據關聯方式,計算出查詢樹數據和標準樹多模態數據之間的聯系值,計算公式如下:

式中,x、y分別表示查詢樹橫向和縱向的數據值;φ表示多模態數據;θ表示查詢樹和多模態數據之間的偏轉角度[5-6]。針對數據實際需求,采用標準化描述方法,對多模態數據標準樹展開分析,設定標準閾值范圍,統一歸類多種模態數據,確定了查詢樹數據和標準樹多模態數據之間的聯系[7]。

2 多模態數據檢索

2.1 近似匹配過程

由于電網多模態數據庫中的信息對象是以相同電網多模式數據規范來描述的,所以在不同情況下,各信息對象電網多模態數據標準樹的內部節點都屬于電網多模態數據規范的一部分,不同之處在于葉節點上的元素值[8]。電網多模態數據近似匹配過程如圖2 所示。

圖2 電網多模態數據近似匹配過程

如圖2 所示,將查詢樹與標準樹對比分析發現,在多模態數據標準樹上節點h1 對應的節點是h11 和h12,在查詢樹上節點H′對應的節點是h′1 和h′2 。根據這些可知,匹配查詢樹與標準樹數據,就沒有必要必須將對象O2 的元數據與查詢樹數據相匹配。當查詢樹與O3 的元數據樹相匹配時,由于沒有該子樹上的節點可以與查詢樹中的節點相匹配,所以無需考慮以節點h3 為根節點的子樹匹配情況[9-10]。

設H 和H′是兩顆無序標簽樹,兩者之間編輯距離為:

式中,α為編輯序列映射。因此,在查詢前,將查詢樹與資源目標庫的多模態數據標準方案樹匹配,將關聯節點的匹配信息(即預處理信息)記錄下來[11]。對所得的信息分析,可以避免在以后查詢樹與多模態數據標準樹的匹配中出現大量非關聯節點的匹配,避免了不必要的重復。

2.2 電網多模態數據檢索

在電網多模態數據近似匹配過程支持下,設計多模態數據檢索過程如下:用戶在查詢樹中指定匹配類型,預處理后,利用所需要預處理信息,對對應匹配算法調用,以找到與標準樹相匹配的代價[12]。將匹配成本小于設定閾值的結果反饋給用戶,閾值可設定為:

式中,γ表示近似匹配代價;label(vi)表示節點權值;i表示節點數量;v表示標簽值。該閾值相當于將整個查詢樹移除所需費用的二分之一,是一個預設門限[13]。在沒有指定特定類型情況下,使用資源目標元數據規范方案樹來預處理查詢樹。對檢索樹和標準樹近似匹配,將其與查詢樹嵌入結果比較,并將結果反饋給用戶[14]。

在給定電網多模態數據集合中,依據極大似然估計原則,可得到對數似然函數:

式中,Xm、Ym分別表示圖片和文本兩種模態數據;Sm表示數據集合;m表示訓練數據文檔總數;p語義概念先驗分布[15]。通過最大化式(4)可以得到先驗參數最優估計結果,由于數據集合服從先驗參數多項式分布,依據拉格朗日算子可以得到先驗參數估計值:

式中,mj表示數據集合中第j個語義概念生成的文檔數量。為使多模態數據生成過程能得到高效估計,需要在語義矢量生成多模態數據時遵循高斯分布。在所有數據集中,語義概念都遵循著高斯分布,而這些特征協方差矩陣與集合協方差矩陣相符合,由此保證檢索過程出現最優解。

在多模態聯合檢索中,所獲取的文檔和被搜索的文檔都是多模態的。在含有圖像和文字的檔案材料中,文本材料可以起到輔助作用[16]。

設查詢數據集an是由n個數據組成的,待檢索文檔bk是由k個文檔組成的,an和bk之間相似度可用如下公式計算:

式中,ak表示由k個數據組成;bn表示由n個文檔組成;p(an,bk,ak,bn)表示數據和文檔是相同內容的概率。當獲取目標檢索數據與查詢數據之間關系后,按照相似度由大到小的順序對數據排序,不具有重復性且排名前幾項的數據即為檢索結果。

3 實驗

3.1 數據采集

數據采集主要包括現場端和通信端兩部分?,F場端是用來采集和傳送現場數據的,通信端負責對現場數據處理和后臺數據交互,其架構如圖3 所示。

圖3 實驗數據采集架構

在現場端可以利用監控攝像頭、定位網絡系統等對基礎設施實時采集,并將采集到的信息上傳到通信端的服務器端,為基礎設施管理提供了良好數據支撐。

3.2 數據集和指標

實驗采用了一組公開的電網數據集,共有3 000個文檔,每個文檔都含有一張圖片,并附有相應說明。每一張圖片和一組文件都對應一個具體的分類目錄,而該分類目錄中所有信息可以分成20 個類別。利用SIFT 特征描述方法,將圖像描述為128 bit 的特征矢量。針對電網數據集的文字,利用LDA 模型,以10 個主題的形式呈現文字。在實驗測試過程中,將2/3 數據作為訓練數據,將1/3 數據作為測試數據。

將多模態數據檢索精準度和精準率作為實驗指標,電網多模態數據采集結果如表1 所示。

表1 電網多模態數據采集結果

將表1 數據作為標準數據,采取實驗驗證分析。精準率實驗指標計算公式為:

式中,Xm、Ym、Zm分別表示圖片模態數據、文本模態數據和其他種類數據的大小。

3.3 結果與分析

對于多模態數據檢索精準度驗證,分別使用文獻[1]方法、文獻[2]方法和文中研究方法完成電網多模態數據的檢索,結果如圖4 所示。

圖4 三種方法數據檢索結果

由圖4(a)可知,使用文獻[1]方法、文獻[2]方法檢索多模態數據結果與表1 數據不一致,且在電力線路#1 編號下與實際數據相差最大,分別存在最大為7.0 kB、8.0 kB 的誤差。使用文中研究方法檢索多模態數據結果與表1 數據基本一致,只在電力線路#1 編號下與實際數據存在最大為0.5 kB 的誤差。由圖4(b)可知,使用文獻[1]方法、文獻[2]方法在電力線路#2 編號下與實際數據相差最大,分別存在最大為2.2 kB、1.9 kB 的誤差,使用文中研究方法與表1 數據一致。

對于多模態數據檢索精準率驗證,分別使用文獻[1]方法、文獻[2]方法和文中研究方法,對比分析檢索精準率,結果如圖5 所示。

圖5 三種方法檢索精準率對比分析

由圖5 可知,使用文獻[1]方法、文獻[2]方法的檢索精準率均低于75%,使用文中研究方法檢索精準度高于85%,且最高為98%。由此可知,使用文中研究方法檢索結果精準。

4 結束語

對文本與圖像聯合檢索研究,并在此基礎上提出了一種基于近似匹配模型的電網多模態數據檢索研究方法。在電網中文件往往含有多模態資料,在相同語義空間中,假定相同文件中有多模態數據。運用近似匹配方法,根據用戶不同需求,設計檢索過程。通過實驗證實使用所研究方法的正確性。

猜你喜歡
數據檢索文檔檢索
高速公路省級清分結算平臺高效數據檢索應用探究
淺談Matlab與Word文檔的應用接口
有人一聲不吭向你扔了個文檔
2019年第4-6期便捷檢索目錄
本刊進入的國內外數據檢索/文獻服務機構
本刊進入的國內外數據檢索/文獻服務機構
基于RI碼計算的Word復制文檔鑒別
專利檢索中“語義”的表現
Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
基于圖模型的通用半結構化數據檢索
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合