?

基于N層向量空間模型的裝備IETM數據查詢

2015-06-15 19:10呼凱凱徐宗昌
裝甲兵工程學院學報 2015年1期
關鍵詞:語句編碼向量

呼凱凱, 徐宗昌, 劉 凱, 郭 建, 金 飛

(裝甲兵工程學院技術保障工程系,北京 100072)

基于N層向量空間模型的裝備IETM數據查詢

呼凱凱, 徐宗昌, 劉 凱, 郭 建, 金 飛

(裝甲兵工程學院技術保障工程系,北京 100072)

為了提高IETM數據查詢的準確率,通過對數據模塊編碼層與XML內容層進行分析,結合N層向量空間模型查詢算法,從IETM數據模塊編碼層中的型號識別碼、系統層次碼、信息碼以及數據模塊內部數據信息入手,提出了一種基于N層向量空間模型的裝備IETM數據查詢算法,并通過IETM實例驗證了該算法的正確性與實用性。

N層向量空間模型;IETM;數據查詢

交互式電子技術手冊(Interactive Electronic Technical Manual, IETM)作為裝備綜合保障領域一項新的研究內容,為裝備綜合保障活動提供了一種全新的信息處理與獲取手段,其涵蓋了裝備維修保障活動過程中所需的各種技術信息。然而,隨著武器裝備的發展以及高新技術的不斷應用,裝備維修保障活動中所需的技術信息越來越多,如何從IETM中準確、快速地獲取所需的信息已成為IETM研究急需解決的問題。N層向量空間模型作為一種常用的信息檢索模型,已被廣泛應用于不同領域的信息檢索和數據分類過程[1-3]。因此,本文將N層向量空間模型引入到IETM的數據查詢之中,提出了一種基于N層向量空間模型的IETM數據查詢算法。

1 基本概念

1.1 向量空間模型

向量空間模型(Vector Space Model,VSM)最早是由G.Salton提出的一種代數模型[4]。該模型將每一個對象都映射為一個向量,進而利用相似法計算查詢對象與查詢語句的相似度,另外,通過設定相應的相似度閾值,篩選出查詢結果,并根據相似度大小對查詢結果進行排序[5]。

向量空間模型作為傳統的查詢模型具有簡單、直觀、處理快速等優點。但是,在實際應用中,向量空間模型也表現出了一些弊端,具體表現在:1)未考慮文檔不同位置對特征項權重的影響;2)對查詢語句與數據對象進行向量化的過程中,由于文檔集合中特征項的數量往往大于單獨一篇文檔中特征項的數量,致使所得到的向量中多數項都為0,最終影響相似度查詢結果的準確性。因此,在實際應用中,向量空間模型在很多情況下無法滿足用戶的實際查詢需求。

1.2N層向量空間模型

N層向量空間模型是在向量空間模型的基礎上提出的,其根據文檔的結構將文檔劃分為N層,并針對不同層的內容設定不同的向量空間模型和權重,進而計算出不同層與查詢語句的相似度。另外,在不同層的權重計算上,不同的部分也采用不同的標準,將各層中關鍵詞的權重分別乘以不同的比例系數,這樣就可以顯著地提高相似度計算結果的精度,得到更好的查詢結果[6-7]。

N層向量空間模型是對傳統向量空間模型的一種改進,其通過對查詢對象進行分層,解決不同位置上的特征項權重的區分,另外,分層很大程度上解決了查詢對象向量化后所得到的向量中多數項為0的弊端,從而提升了查詢結果的準確度。

2 IETM數據查詢算法

IETM作為一種電子技術手冊,其界面文檔顯示的數據內容主要來源于IETM內部的數據模塊;而數據模塊內部各個層次代表的文檔信息,其重要程度各不相同,層次較為分明。因此,可以根據IETM數據模塊的結構層次,提出基于N層向量空間模型的IETM數據查詢算法。

2.1 數據層次劃分

1) 數據模塊編碼層。IETM是通過數據模塊編碼(Data Module Code,DMC)來實現對數據模塊的區分。DMC的一般結構如圖1所示。DMC最長是由37個數字和字母組成,最小長度是17個字符,其中主要是型號識別碼(Model Identification code,MI)、系統區分碼(System Difference Code,SDC)、系統層次碼(Standard Numbering System,SNS)、分解碼(Disassembly Code,DC)、分解差異碼(Disassembly Code Variant,DCV)、信息碼(Information Code,IC)、信息差異碼(Information Code Variant,ICV)和位置碼(Item Location Code,ILC)[8]。其中MI、SNS、IC分別描述了裝備的相關型號、基本系統結構以及數據模塊所描述的信息類型,這3種編碼是數據模塊編碼中最重要、最具代表性的編碼體系結構[9-10]。因此,對于數據模塊編碼層的查詢主要從這3個編碼結構進行查詢。

圖1 數據模塊編碼的一般結構

2) XML內容層。IETM中內容信息的描述采用可擴展標記語言(eXtensible Markup Language,XML),它具有和HTML相似的性質,因此,同樣可以根據N層向量空間模型對頁面進行層次劃分。由于頁面的特殊格式,一個數據模塊內容層最少由指向該數據模塊的標題、副標題以及正文3部分組成。因此,對XML內容層進行查詢時也可以分為3部分:第1部分是標題部分;第2部分是副標題部分;第3部分是正文部分。

2.2 特征項選取

特征項作為N層向量空間模型查詢算法過程中對數據進行向量表示的元素,其合理性的選擇直接決定了查詢語句與查詢對象向量化的正確性,并將決定查詢結果的準確性。因此,在查詢計算之前,必須合理地選擇特征項。特征項的選取必須遵循以下原則。

1) 獨立性原則。在對特征項進行選擇時,必須使得所選取的多個特征項之間相互獨立,不存在任何包含與被包含的關系,進而使得查詢向量以及每個數據模塊對象能夠準確地進行表示。如:在對相關故障信息進行查詢時,不能選取故障、故障隔離和故障描述同時作為其特征項,而應只選取故障隔離與故障描述作為查詢的特征項。

2) 代表性原則。特征項的選取必須能夠對查詢對象進行完整性表達,并且能夠突出不同查詢對象之間的本質區別,即不同的特征項能夠代表不同類的查詢對象。同時,在特征項選取過程中要確保該詞是出現在查詢對象當中,尤其是標題、副標題這類具有明顯性與總結性的詞語。

3) 簡潔性原則。在特征項選擇過程中應盡量對選詞進行簡化,在確保能夠表達相應對象的基礎上,盡量地對詞語進行縮減,進而減小向量化計算的復雜度,提高系統的計算速度。同時,所選擇的特征詞中應去除虛詞、感嘆詞以及連詞等修飾詞,實現對特征項的簡潔化。

2.3 相似性計算

在基于N層向量空間模型的IETM數據查詢算法中,首先需要根據相應的特征項對查詢語句與查詢對象進行向量化,但是,并不是每一個特征項都同等重要,因此需要對特征項的權重進行調整,常用的是文件集的統計頻率權值(Term Frequency-Inverse Document Frequency,TF-IDF),其由2部分組成:一部分是檢索單元在文件中出現的頻率wTF;另一部分則被稱為反轉文件頻率wIDF。其中:

(1)

式中:d為整個文件集的文件總數;dj為在整個文件集中包含特征詞j的文件數。

而對于一個給定的檢索單元,其TF-IDF權值是兩者的乘積,即

(2)

通過對N層向量空間模型進行分析并結合IETM數據模塊內部結構,本文在N層向量空間模型的基礎上對其特征項權重的計算進行完善。

在N層向量空間模型中,由于文檔同一區域內不同的特征項所表達文檔內容的能力不同,故為了提升查詢結果的精確度,需要對不同的特征項賦予不同的權重。在計算特征項頻率wTFijk時應乘以一個比例因子log2(M/mk),其中:M為該特征項在數據模塊Di中出現的總次數;mk為該特征項在第k個區域出現的次數。但是在對數據模塊層的特征項進行加權的過程中,當M=mk時,相應的加權計算將無法進行。因此,在基于N層向量空間模型的IETM數據查詢計算中,本文將其頻率計算公式調整為

(3)

在對查詢語句以及查詢對象進行向量化表示后,還需要選定合適的方法對兩者之間的相似度進行計算,判定查詢對象是否是用戶需求的內容。余弦相似法作為一種常用的相似性計算方法,常被用于向量空間模型中的相似性計算。因此,在基于N層向量空間的IETM數據查詢中,可以選用該方法來計算數據模塊di和查詢語句q的相似度:

(4)

(5)

式中:λk為不同層所計算出的相似度的權重;n為向量di和q的維數。

3 算法驗證

為了驗證本文所提出算法的正確性,以含有5個數據模塊的某型裝備IETM為例,對其發動機故障信息進行查詢。

1) 對查詢語句與數據模塊進行簡單形象地描述。

Q:“發動機,故障描述”。

D1:“發動機/曲軸連桿機構的一般故障描述”數據模塊。

D2:“發動機的密封”數據模塊。

D3:“發動機/曲軸連桿機構的組成和功能描述”數據模塊。

D4:“傳動裝置的主離合器一般故障隔離”數據模塊。

D5:“通信設備VCR-8000電臺的一般故障描述”數據模塊。

2) 查詢語句與數據模塊的向量表示以及相似性計算。

第1步:根據式(1)計算各詞語所對應的IDF權值。計算結果如下:

IDF發動機=0.222;

IDF傳動裝置=0.699;

IDF通信設備=0.699;

IDF發動機一般故障=0.699;

IDFVCR-8000電臺一般故障描述=0.699;

IDF主離合器一般故障隔離=0.699;

IDF發動機密封=0.699;

IDF發動機組成和功能描述=0.699。

第2步:根據式(1)中關于區域特征項頻率(k=1,2,分別對應系統層次碼、信息碼),計算出wTFijk,再由式(2)、(3)計算出在不同數據模塊中不同特征詞所對應的ωij和wTFij(假定w1=1.2,w2=1.1),進而得到查詢語句和不同數據模塊的表示向量。

q=(0.222, 0, 0, 0.699, 0, 0, 0, 0);

d1=(0.266, 0, 0, 0.739, 0, 0, 0, 0);

d2=(0.266, 0, 0, 0, 0, 0, 0.739, 0);

d3=(0.266, 0, 0, 0, 0, 0, 0, 0.739);

d4=(0, 0.839, 0, 0, 0, 0.739, 0, 0);

d5=(0, 0, 0.839, 0, 0.739, 0, 0, 0)。

第3步:利用第2步所得的向量模型,再根據式(5),得到不同數據模塊的編碼層與查詢語句的相似度,如表1所示。

表1 數據模塊編碼層與查詢語句的相似度

同理,得到不同數據模塊的XML內容層與查詢語句的相似度,如表2所示。

表2 數據模塊XML內容層與查詢語句的相似度

第4步:把利用向量空間模型進行計算的結果按照一定權重比例進行匯總計算,分別將數據模塊編碼層、XML內容層相似度計算結果的權重設為0.4、0.6。利用式(4)計算出不同數據模塊與查詢語句的最終相似度,結果如表3所示。

表3 數據模塊與查詢語句的相似度

綜合所得查詢排序結果為D1、D3、D2、D5、D4??梢钥闯觯翰捎迷撍惴ㄓ嬎愠龅南嗨贫扰c實際結果完全吻合;另外,該算法要優于現有IETM系統根據關鍵字進行排序的算法。

4 結論

本文以N層向量空間模型為基礎,提出了基于N層向量空間模型的IETM數據查詢算法。與傳統的IETM查詢算法相比,從數據模塊的不同數據結構層出發進行數據查詢具有良好的查詢效果。然而由于不同的用戶在查詢過程中對相同查詢請求的表達上存在一定的差異,因此,針對查詢詞的語義分析將是下一步研究的方向。

[1] Jing L P,Ng M K,Huang J Z. Knowledge-based Vector Space Model for Text Clustering [J].Knowledge and Information Systems,2010,25(1):35-55.

[2] 王方,阮梅花,朱海剛,等. 基于向量空間模型的科技文獻自動分類研究[J].情報探索,2009,194(12):1-3.

[3] De Smet W,Moens M F. Representations for Multi-document Event Clustering [J]. Data Mining and Knowledge Discovery, 2013,26(3):533-558

[4] 張凌宇,陳淑鑫,張光妲,等.一種基于向量空間模型的模糊本體映射方法[J].計算機應用研究,2014,31(5):1459-1462.

[5] 夏立新,陸偉,沈吟東,等.信息檢索可視化[M].北京:科學出版社,2009:19-21.

[6] 劉紅芝. 基于N層向量空間模型和兩重過濾方法的文本過濾系統的研究[J].科技信息,2009,32(1):36-37.

[7] 仲華,崔志明. 基于XML的信息抽取和多層向量空間技術研究[J].計算機技術與發展,2007,17(7):49-52.

[8] 徐宗昌. 裝備IETM研制工程總論[M].北京:國防工業出版社,2012:259-260.

[9] 安釗. 裝備交互式電子技術手冊若干關鍵技術研究[D].北京:裝甲兵工程學院,2009.

[10] 徐宗昌. 裝備IETM技術標準實施指南[M].北京:國防工業出版社,2012:64-66.

(責任編輯:尚彩娟)

IETM Data Retrieval of Equipment Based onN-level Vector Model

HU Kai-kai, XU Zong-chang, LIU Kai, GUO Jian, JIN Fei

(Department of Technical Support Engineering, Academy of Armored Force Engineering, Beijing 100072, China)

Aiming at improving the accuracy of IETM data retrieval, through analyzing the levels of data module code and XML content, in combination with the retrieval algorithm ofN-level vector space model, this paper presents a data retrieval method of IETM based onN-level vector space model from model identification code, standard numbering system, information code of data module coding layer and the information in the data module. At last, it proves the correctness and practicability of the algorithm in accordance with IETM instance.

N-level vector space model; IETM; data retrieval

1672-1497(2015)01-0086-04

2014- 07- 16

呼凱凱(1987-),男,博士研究生。

TP391

A

10.3969/j.issn.1672-1497.2015.01.017

猜你喜歡
語句編碼向量
向量的分解
生活中的編碼
聚焦“向量與三角”創新題
《全元詩》未編碼疑難字考辨十五則
重點:語句銜接
子帶編碼在圖像壓縮編碼中的應用
Genome and healthcare
向量垂直在解析幾何中的應用
向量五種“變身” 玩轉圓錐曲線
我喜歡
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合