?

融合人工智能圖像特征的知識圖譜表示學習研究

2024-01-14 10:16顧亞麗曾志宏
關鍵詞:三元組殘差圖譜

顧亞麗,曾志宏

(1.漳州職業技術學院 電子信息學院,福建 漳州 363000;2.龍巖學院 數學與信息工程學院,福建 龍巖 361000)

0 引言

人工智能在現實世界中扮演著十分重要的角色,通過人工智能技術進行語音交互,可以利用語音程序進行拼寫、語法更正以及信息搜索等.在自然語言處理程序的使用中,許多研究者努力提高智能機器人學習語言的能力,生成了多種識別和問答技術,在多年的應用和發展進程中,已經形成了大量的語料庫,由此產生了對應的知識圖譜[1].知識圖譜就是智能應用中的知識庫,可以將知識信息從半結構或者非結構化的數據中進行提取和儲存,在信息檢索和問答系統中具有廣泛的應用.將知識圖譜看作為一個實體描述的三元組集,在不同的組集中記錄多種數據信息,用來表示現實世界中的抽象概念.工程師通過手動構建方法,利用自然語言及時描述知識圖譜,在自動構建的基礎上對自然語言模塊不斷訓練,以此對數據文本進行目標識別.知識圖譜的質量很大程度上取決于構圖機制,在領域專家中手動構成的圖譜具有較高質量,但存在成本高和擴展性差等問題,并且隨著信息量的不斷增加,上述問題更加明顯.在更大規模知識庫公開的前提下,其中包含大量的不同實體和關系事實,由于數據體積的不斷變化,在數據與語言任務的對應關系下,會存在不完整構建的可能性.為保證知識圖譜的正確性和完整性,本文選擇融合人工智能圖像的特征技術,設計知識圖譜的表示方法,為知識圖譜的有效構建提供理論支持.

1 最大似然值理論定義知識圖譜實體

l(g1,g2,…,ge|q1,q2,…,qe),

(1)

(2)

其中:text表示文本中包含的所有單詞,|y|表示單詞個數;mentions表示文本中所有存在鏈接的實體組合集合,|t|表示可鏈接數據的數量[3].將知識圖譜按照三元組表示為p=(a,s,d,f),其中:

(3)

其中:a代表知識圖譜實體集合,共含有|a|個不同實體,并且實體在知識圖譜中存在唯一指代;s表示圖譜中的屬性關系,包含有|s|種不同關系,由映射實體關系和映射字面量的屬性關系構成;d表示字面量集合,存在有實體的可能屬性、特征和參數;f表示知識圖譜中所有三元組集合.

(4)

其中:j表示多模態知識表示方法;k表示知識圖譜的實體映射函數;sim表示相似性計算函數,可以評估可鏈接數據在知識圖譜實體的特征相似程度.實體命名是利用數據文本從知識圖譜,以字符串相似度為召回依據,預先召回一批實體作為候選實體庫,再將文本和圖像輸入至多模量鏈接中得到對應的實體.

(5)

其中:新的輸出標記表示為g′[4];可學習的轉移方程表示為Ωw(·);轉移方法中的參數為z.將選擇概率最大的序列作為標記序列,利用條件最大似然值對實體識別命名任務進行估計,其表達式為:

(6)

在給定的文本信息中讓數據對應的單詞,通過實體鏈接模量將這些數據鏈接到知識圖譜的實體上,以此來解決實體的命名問題.

2 殘差網絡提取知識圖譜局部特征

在知識圖譜的命名任務中為了準確識別目標信息,需要對其特殊的特征進行提取,為避免數據集合中的重讀處理,選擇殘差網絡算法和目標檢測算法相結合的形式對數據的特征進行局部抽取[5-6].兩種算法進行結合,將數據分為多個模塊,形成一個堆積的殘差學習單元結構.設置某一個殘差單元為x,與之對應的學習特征為c(x),則該單元可以學習到的殘差表示為:

v(x)=c(x)-x,

(7)

其中:v(x)為學習到的殘差.當殘差c(x)=0時堆積層在輸入特征中僅做恒等映射,殘差單元學習結構如圖1所示.

圖1 殘差單元學習結構

由圖1可知,在殘差學習過程中需要設定學習規則,但由于殘差一般為較小數據,學習的難度就小很多,學習的內容也相對較少.殘差單元可表示為:

(8)

其中:xb+1為第b個殘差單元輸出結果;v為殘差函數;c(xb)=xo表示恒等映射關系;m為規則nb的激活函數;殘差結構的淺層表示為b-1,深層表示為o-1;從b-1到o-1的學習特征為xo.

殘差網絡既可以簡化學習過程又可以增強梯度傳播,打破結構模型的不對稱性,以此提高知識圖譜的泛化能力.在殘差網絡的優化過程中,參考數據的轉化優勢對知識圖譜的局部特征提取,以卷積網絡的結構層級設置特征輸出維度,參數設置如表1所列[7].

表1 特征輸出維度與參數設定

圖2 知識圖譜表示學習的卷積層

對特征提取時需要保證數據真實度,建立對應的損失函數為:

(9)

其中:Q(W)表示損失函數;W表示數據.在特征提取時會通過目標屬性分類來確定,而函數值由概率值決定,其計算公式為:

(10)

式中:ER為函數概率;ECLS表示特征分類的代價函數概率;ELOC表示特征邊界的代價函數概率[8];R表示提取特征時存在的背景,分為[background]和[foreground]兩種形式;β表示平衡參數,本文中將其設定為β=0.1、β=0.25、β=0.5、β=0.75、β=1.0共5個類型,分別對應網絡5個卷積層,以此提取知識圖譜中的局部特征.

3 融合人工智能圖像特征實現知識圖譜表示

在上文提取局部特征的基礎上描述知識圖譜實體信息,給出相對應表示符號,設實體和關系集合為V和B,將一個三元組表示為(Z,X,C),存在以下關系:

(11)

按照不同的表示形式:以結構化設定ZX為實體頭部、CX實體尾部;以實體概念描述頭部和尾部表示為ZN和CN[9].對實體的向量文本進行描述,公式為:

(12)

其中:M表示實體的向量描述文本;SA表示第A個句子的向量;D表示轉化參數.大多數實體在不同場景中會有多種圖像表現形式,因此需要確定最佳的圖像表示結果.設計每個實體圖像均融合智能圖像特征,并從圖像中提取信息特征,將多個圖像數據聯合起來.多個實例下構造實體的圖像聚合過程為:

(13)

(14)

I=Iα+Iη+Iγ,

(15)

其中:函數I由3組能量函數組成,Iα為基于結構表示的函數;Iη為基于圖像表示的能量函數;Iγ為基于描述表示的能量函數.為保證表示函數的能量發揮在同一向量空間,對Iη和Iγ進行定義,公式為:

(16)

(17)

其中:TX表示投影矩陣.通過關系融合將相類似的實體進行表示,利用能量函數對三元組進行優化分析,實現知識圖譜的表示學習全過程,至此完成融合人工智能圖像特征的知識圖譜表示學習設計,最終的可視化知識圖譜結構如圖3所示.

圖3 知識圖譜表示學習的卷積層

4 實驗測試分析

4.1 實驗環境

該實驗采用Windows 10系統,512 G固態硬盤,32 GB內存容量,英特爾酷睿 i9-13900H的CPU,NVIDIA GeForce RTX4090顯卡.實驗過程軟件為Matlab,方法訓練基于PyTorch框架,采用Adam優化器算法提高網絡收斂速度,本文方法迭代訓練500次,每100次更新學習率,初始學習率設置為0.001.

4.2 實驗數據集

為論證本文方法的實用性,將實體圖像信息和實體類別信息與知識圖譜三元組聯合學習,以目前存在的FB5K數據集為測試對象,該數據集只包含實體圖像信息和三元組信息,需要對FB5K數據集擴充,補充所需要的實體信息類別FB5K-Q,原數據集情況如表2所列.

表2 原數據集情況

知識圖譜數據集FB5K的三元組是數據集FB5K的子集,所以對于該集合的類別信息直接通過FREEBASE進行收集,具體情況如表3所列.

表3 數據集合FB5K-Q擴充情況

由表3可知, 此次FB5K-Q數據集含有實體關系和實體個體,并針對數據集給定訓練、驗證以及測試集.擴充數據集的過程也稱為知識圖譜的補全任務,是對知識表示學習領域性能的基礎評估任務,也是知識推理的基礎任務之一.對于知識圖譜中的三元組,若給定出缺失的某個個體或者關系時,可以通過模型學習到的知識表示剩余的三元組項目正確推理出缺失的一項,實現知識的推理.根據預測對象的不同,將知識推理分為實體預測任務和關系預測任務兩個部分,完成下文的測試驗證.

4.3 實驗指標

為驗證融合人工智能圖像特征的知識圖譜表示方法的有效性,選擇TRANSE、IKRL、CONV-KB和CONVE作為待預測模型,并分別為上述模型加入本文表示學習方法再進行預測實驗,確保測試的公平性,選擇模型中的一個模型進行訓練,并確保每個模型的知識向量維度值都相同.對知識推理預測設定評價指標,具體內容如下:

(1)“MEAN-RANK”指標.表示所有測試樣本中正確結果在預測結果中的平均排名,可以反映知識圖譜表示學習模型的整體性能;

(2)“HITS@10”指標.表示正確預測的實體和關系,排名前10名結果的出現概率反映知識圖譜表示學習模型的實用性.

為更精細地分析兩個指標的評價結果,在每個指標中在設定“RAW”和“FILTER”兩個二級指標,更加客觀和準確地對知識圖譜表示學習模型進行評估,具體流程如圖4所示.

圖4 知識推理預測實驗流程

上文中設定知識圖譜三元組為實體缺失狀態,在知識推理測試過程中,對于每個測試集中的每個測試樣本需要進行實體替換,即對于測試集中的每個測試樣本,均隱藏其實體和尾部實體.通過訓練集對預測模型進行練習,并利用訓練中的實體和相關向量,對測試集中的三元組進行數據推理實驗,并重點研究實體模型的結果.

4.4 實驗結果分析

將TRANSE[A]、IKRL[A]、CONV-KB[A]和CONVE[A]分別表示為TRANSE、IKRL、CONV-KB和CONVE模型增加表示學習后的模型.對待預測的模型進行訓練,結果如圖5所示.

(a)“MEAN-RANK”指標

由圖5可知,每一個測試模型在融合新方法后實體預測的各項指標評估均有所提高,主要是因為增加圖像特征的篩選后能夠獲取更多信息實體表示形式,促使模型能夠捕捉到更豐富的實體特征,更好地挖掘實體之間的聯系,從而對模型知識圖譜的表示能力有了一定的提升.證明本文方法具有很好的魯棒性,可以應用在多個不同的知識表示模型中.

5 結語

本文以人工智能圖像特征為基礎,分析了多個技術的優勢,針對知識表示模型存在的問題,設計了新的表示方法,并在不同的模型中論證了新方法的應用效果.由于本次時間有限,在知識圖譜表示中存在不足之處,如對外部信息的真實度未進行查證,后續研究中解決信息與圖譜中是否存在矛盾問題,以此保證知識圖譜的完善.

猜你喜歡
三元組殘差圖譜
基于帶噪聲數據集的強魯棒性隱含三元組質檢算法*
基于雙向GRU與殘差擬合的車輛跟馳建模
特征標三元組的本原誘導子
繪一張成長圖譜
基于殘差學習的自適應無人機目標跟蹤算法
關于余撓三元組的periodic-模
基于遞歸殘差網絡的圖像超分辨率重建
補腎強身片UPLC指紋圖譜
主動對接你思維的知識圖譜
平穩自相關過程的殘差累積和控制圖
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合