?

基于互信息最大化和聚類感知的節點表示學習

2024-03-02 01:53乾,武
關鍵詞:互信息最大化視圖

湯 乾,武 浩

(云南大學 信息學院,云南 昆明 650500)

網絡作為一種圖結構數據,通常被用于反映現實世界中實體間的關系,例如引文網絡、蛋白質交互網絡和社交網絡等.與之相關的研究內容包括圖分類[1],節點分類[2],節點聚類[3],社區發現[4],異常檢查[5]和邊預測[6]等.

節點表示學習是分析網絡的基礎方法,旨在將網絡上的節點映射到一個低維、緊湊、連續的潛在空間,并盡可能保留網絡有效信息[7].由于圖神經網絡在融合網絡結構和節點特征信息方面的突出能力[8],出現了基于圖自編碼器的節點表示學習方法.例如圖自編碼器(graph autoencoder,GAE)和變分圖自編碼器(variational autoencoder,VGAE)[9]使用圖卷積網絡(graph convolutional network,GCN)編碼網絡結構和節點特征到低維向量空間,并通過重建網絡結構的方式學習節點表示.對抗式圖自編碼器(adversarially regularized graph autoencoder,ARGAE)和對抗式變分圖自編碼器(adversarially regularized variational graph autoencoder,ARVGE)[10]使用對抗學習機制學習健壯的節點表示.然而,網絡上龐大的節點數量和冗長的節點信息,導致重建每個節點的鄰居信息和特征信息的代價是高昂的.

近年來,基于互信息最大化原理[11]的圖對比學習方法受到越來越多的關注,該類方法可以學習區分性節點表示.例如GCA[12]對原始圖增強獲得兩個不同的增強視圖,并投影到低維向量空間最大化兩個節點表示的一致性;DGI[13]最大化節點表示與全局圖表示間的互信息;GIC[14]在低維表示空間中引入聚類算法獲得聚類表示,最大化節點表示與聚類表示間的互信息.盡管這些方法在圖分析任務中取得了很好的效果,但是它們未能同時挖掘輸入空間的多視圖信息與潛在空間的聚類相關的語義信息進行節點表示學習.為此,本文提出一種基于互信息最大化和聚類感知的節點表示學習模型用于學習高質量的節點表示.

本文的主要貢獻如下:

(1) 提出一種基于互信息最大化和聚類感知的節點表示學習模型(MCNRL);

(2) 對原始圖使用圖擴散方法構造擴散圖,基于互信息最大化原理,通過對比原始圖的節點表示和擴散圖的全局圖表示,反之亦然,最大化兩個圖間的互信息;

(3) 將語義相似的節點聚類到同一個簇,并最大化原始圖的節點表示和擴散圖的節點表示間的聚類一致性.

1 相關工作

1.1 基于圖自編碼器的節點表示學習圖神經網絡(graph neural network,GNN)已經成為近年來應用于圖結構數據的一種流行模型,其能夠有效地融合網絡結構和節點屬性.一些研究致力于將圖神經網絡與深度學習相結合,以實現節點表示學習.例如,圖自編碼器GAE[9]將圖卷積神經網絡GCN 和自編碼器結合,通過GCN 聚合鄰居特征以獲得每個節點的特征表示.然后,通過計算節點表示向量的內積重建網絡的鄰接矩陣,并通過減小重建鄰接矩陣與原始鄰接矩陣間的誤差優化節點表示.VGAE 假設節點表示服從高斯分布并利用KL 散度將表示擬合高斯分布.ARGE 和ARVGE[10]通過分別向GAE 和VGAE 添加對抗性約束學習穩健的節點表示.DGAE[15]首先使用GCN 作為編碼器編碼鄰接矩陣和特征矩陣到潛在空間獲得節點表示,最后使用GCN 作為解碼器重建鄰接矩陣和特征矩陣,通過最小化重建誤差學習節點表示.

1.2 基于互信息最大化原理的圖對比學習基于互信息最大化原理[11]的圖對比學習方法,通常先對一個錨樣本構造正樣本對和負樣本對,然后最大化正樣本對的一致性,最小化負樣本對的一致性,從而學習判別性節點表示或圖表示.根據表示的不同對比層次,可以分為節點與節點間的對比,節點與全局間的對比,節點與聚類原型間的對比.對于節點與節點間的對比方法,GCA[12]使用邊擾動方法和特征隨機掩碼方法對原始的網絡結構和節點特征進行增強,獲得兩個不同的增強視圖,并投影到低維向量空間進行對比表示學習;GMI[16]最大化輸入圖和編碼器輸出間關于邊和節點特征間的互信息學習節點表示;對于節點與全局間的對比方法,DGI[13]將節點表示池化為全局圖表示,通過最大化局部的節點表示和全局的圖表示間的互信息獲得節點表示.對于節點與聚類原型間的對比方法,GIC[14]在DGI 的基礎上引入一個節點與聚類對比正則化項,它最大化同一個簇的節點間的互信息,期望模型可以同時學習粗粒度和細粒度的節點表示.

2 模型描述

2.1 基本符號給定一個無向圖G={V,E,X},其中V={v1,v2,···,vN} 是節點集,E={e1,e2,···,eN}是邊集,X∈RN×d是節點特征矩陣.G的網絡結構用鄰接矩陣A∈RN×N表示,其中Ai,j=1,滿足 (vi,vj)∈E;否則Ai,j=0.此外,本文的無向圖也可以表示為G={X,A}.

2.2 模型框架本文提出的MCNRL 模型結構如圖1 所示.首先,對原始圖G={X,A}的網絡結構A使用圖擴散方法得到擴散圖G′={X,A′}.然后,兩個圖被喂入到不共享權重的圖卷積網絡fθ和fφ提取節點表示Z和Z′,并經過平均池化獲得全局圖表示s和s′.接著,基于互信息最大化原理,通過最大化節點表示Z和全局圖表示s′,節點表示Z′和全局圖表示s間的一致性最大化兩個圖間的互信息,使節點表示Z和Z′同時學習局部和全局鄰居信息.同時,在潛在向量空間中預先構造一個可學習的聚類矩陣C,節點表示Z和Z′經 過C得到聚類分配表示Q和Q′,最大化聚類分配表示間的一致性可以挖掘節點表示間潛在的語義信息.

圖1 MCNRL 模型結構Fig.1 The structure of MCNRL model

2.3 擴散圖圖擴散方法已經被廣泛用于圖節點表示學習提供更大范圍的鄰居信息[17].為此,對原始圖G的鄰接矩陣A使用基于個性化PageRank 的圖擴散方法,具體如下:

式中:D∈RN×N為度矩陣,其對角線上的每個元素為A的每一行之和;α為傳送概率,通常設置為0.2.然后得到擴散圖G′={X,A′}.

2.4 圖編碼器本文使用圖卷積網絡作為基本編碼器融合圖結構和節點特征信息.對原始圖的鄰接矩陣A使用重歸一化技巧得到一個對稱歸一化鄰接矩陣其中的度矩陣.設計兩個不共享參數的單層圖卷積網絡分別為:

2.5 基于互信息最大化原理的節點與全局對比優化目標基于互信息最大化原理的表示學習[11]旨在學習一個特征提取器f,使得輸入樣本,例如G,和該輸入的表示Z=f(G)間的互信息最大化,表示為maxI(G,Z).

基于互信息最大化原理的圖對比學習[12]旨在最大化圖G的節點表示Z和該圖經過擾動后的圖G′的節點表示Z′間的一致性,從而學習擾動不變性特征,表示為 maxI(Z,Z′).

類似地,為了同時學習一階鄰居信息和高階鄰居信息,本文基于互信息最大化原理,最大化節點表示Z和全局圖表示s′,節點表示Z′和 全局圖表示s間的一致性,表示為:

本文從多視圖信息瓶頸角度出發[18],給出如下關系:

式中的s和s′可以被聚類表示i∈[1,k]替換,進一步有:

式(5)和(6)為實現節點與節點層次,節點與聚類原型層次,節點與全局層次的表示間的對比學習提供了理論依據.

式(4)作為本節的優化目標,使用Jensen-Shannon估計器估計互信息,于是優化損失定義為:

式中D(·,·)用于評估節點表示和全局圖表示間的一致性,使用雙線性評分函數估計:

2.6 聚類一致性優化目標本文引入一個可學習的聚類矩陣它由k個聚類質心向量ci∈組 成.對于原始圖G,計算任一節點表示zi和k個質心向量間的相似度,如下:

然而,直接優化式(11)可能導致平凡解,使所有的樣本劃分到同一個簇.

為解決這個問題,目標是讓N個樣本節點可以均勻地劃分到k個聚類質心.假設有Q=[q1,···,是聚類分配矩陣,為實現前面提的目標可以按式(12)優化Q.

式中:tr()為矩陣的跡,表示矩陣的主對角線之和;H為熵函數是N維全一向量,1k是k維全一向量.優化式(12)的作用:Q要相似于CTZT并替代它,同時CTZT要相似于Q∈T,并且當Q中的每個元素服從均勻分布且都為時,此時H(Q)最大.ε是一個參數,在CTZT由Q表示時調節Q的聚類分配的均勻程度,本文設置ε=0.05.Q與CTZT彼此約束可以保證聚類矩陣C中的每個聚類質心向量ci至少被N個樣本節點選中次,從而達到N個樣本被均勻劃分到k個聚類質心的目的.式(12)可以看作一個最優傳輸問題,它的解Q可以寫成歸一化指數矩陣[19]:

式中:u∈Rk×1和v∈RN×1為重歸一化向量,可以使用Sinkhorn-Knopp 算法計算u和v.

同理可以按式(12)計算擴散圖的Q′.最后按列歸一化Q和Q′,式(11)可重寫為:

此外,為確保聚類質心向量盡量彼此遠離,引入分離損失:

本研究結果表明,廣州市湖泊、河涌、航道以及入???類地表水體溶解相中HHCB、AHTN和MK的濃度比顆粒相高。馮柳(2011)通過研究也得出相似的結論,主要原因是合成麝香微溶于水,且本研究水體中合成麝香濃度較低。此外,無論是溶解相還是顆粒相,HHCB的濃度均遠高于AHTN和MK。這與國內外的許多研究結果是一致的(Peck et al.,2004;Stevens et al.,2003;陳多宏等,2009),因為香水、面霜、肥皂和沐浴露等日用化工品中的主要合成麝香均為HHCB(Reiner et al.,2006;王征,2012)。

2.7 總體優化目標最終MCNRL 模型的總體優化目標如下所示:

式中 λ1和 λ2是權衡系數.模型優化后,將學習到的節點表示Z和Z′相加用于下游圖分析任務.

3 實驗結果與分析

3.1 實驗數據集提出的模型在兩個廣泛使用的引文網絡Cora 和Citeseer 進行實驗.網絡上的節點代表論文,邊對應于引用關系,節點特征是二進制詞向量.數據集的統計信息見表1.

表1 實驗數據集統計Tab.1 Statistics of experimental dataset

3.2 評估指標對于節點分類任務,使用準確率(accuracy,AAC)作為評估指標,它是指模型預測正確的標簽數量和所有標簽數量的比值,計算方法如下:

式中:TP、FP、TN和FN分別表示真正樣本數,假正樣本數,真負樣本數和假負樣本數.考慮到數據集中存在樣本不均衡現象,為此使用F1 值作為評估指標,它是精確率(precision,P)和召回率(recall,R)的加權調和平均,其定義如下:

式中:P表示預測為正的樣本中實際為正的樣本的比例,R則表示實際為正的樣本中被預測為正的樣本的比例.P和R分別定義如下:

對于節點聚類任務,采用聚類準確率(clustering accuracy,ACA),歸一化互信息(normalized mutual information,INM)和調整后的蘭德指數(adjusted rand index,IAR) 評估聚類結果.假設C={c1,c2,···,ck}且P={p1,p2,···,}分別代表聚類結果和包含N個數據的數據集的預定義的類別.這里k和k′分 別是簇C和類別P數;Ni,j是簇C和類P的公共目標數;是簇ci中數據點數;是類pi中數據點數.

ACA表示聚類結果中正確分類的數據點與預定義類標簽的百分比,計算公式如下:

INM可以有效地測量隨機變量共享的統計信息量,這些變量代表集群分配和對象的預定義標簽分配,計算公式如下:

3.3 對比方法對于節點分類任務,本文使用DGI、GMI、GIC、GCA 等基線模型對比實驗結果.

DGI[13]:專注于單視圖,通過對比節點表示和全局圖表示學習同時學習節點表示和圖表示.

GMI[16]:核心在于直接最大化圖神經編碼器的輸入和輸出間在節點特征和拓撲結構方面的互信息.

GIC[14]:學習節點表示時,不僅考慮到了節點表示和全局表示間的互信息,還引入可微分Kmeans 聚類算法最大化同一個簇的節點間的互信息.

GCA[12]:通過對同一個輸入視圖進行增強得到兩個視圖,并最大化一個視圖的節點表示與另一個視圖的節點表示間的互信息學習具有擾動不變性特征的節點表示.

對于節點聚類任務,使用GAE、VGAE、ARGAE、ARVGAE 基線模型.

GAE、VGAE[9]:使用圖卷積網絡作為編碼輸入的圖拓撲結構和節點特征,并重建圖的拓撲結構來學習節點表示.VGAE 在GAE 的基礎上,要求學習到的表示匹配一個先驗高斯分布,使得學習到的節點表示的分量具有一定概率分布特點.

ARGA、ARVGA[10]:在GAE 和VGAE 的基礎上引入了對抗學習機制,期望學習到的表示具有一定的魯棒性.

3.4 參數設置實驗中會影響到MCNRL 模型性能的超參數有嵌入維度d′,學習率,聚類矩陣C的聚類質心數目k,權衡系數 λ1和 λ2.模型使用Adam優化,并引入早停技術停止訓練,早停參數為P.MCNRL 模型的超參數設置見表2.

表2 MCNRL 模型的超參數設置Tab.2 Hyperparameters settings of MCNRL model

3.5 結果對比所有方法在Cora 和Citeseer 上進行節點分類和節點聚類,實驗結果見表3、4,最佳值表示為粗體.

表3 所有方法在Cora 和Citeseer 上的節點分類結果Tab.3 Node classification results of all methods on Cora and Citeseer %

對于節點分類實驗,分析表3 中數據可以看出,GIC 和GMI 在所有數據集上的所有評估指標均優于DGI,這是因為DGI 只考慮了節點表示和全局表示間的互信息最大化,而GMI 同時考慮了拓撲結構和節點特征相關的互信息最大化;GIC 同時考慮了節點表示和全局表示以及同一個簇的節點表示間互信息最大化.GCA 作為多視圖節點與節點級別的對比學習方法,是最強的基線方法,這說明多個視圖可以提供更加豐富的對比信息.本文所提出的模型MCNRL 是多視圖對比節點與全局的對比學習方法,而且使用聚類方法,挖掘了潛在空間中的節點表示間的語義信息,所以MCNRL 實現了最好的性能.具體而言,對比GCA,本方法在Cora數據集上準確率和F1 值指標分別提高了2.7 和0.6 個百分點;在Citeseer 數據集上準確率和F1 值指標分別提高了0.6 和0.5 個百分點.

對于節點聚類實驗,分析表4 中數據可以看到,對比所有基線方法,MCNRL 仍然實現了最好的性能,這可以歸因于聚類過程依賴于全局信息,而本文模型使用了對比學習方法最大化節點表示和全局表示間的一致性.此外,還鼓勵兩個視圖間的聚類一致性,這有利于聚類過程.

表4 所有方法在Cora 和Citeseer 上的節點聚類結果Tab.4 Node clustering results of all methods on Cora and Citeseer %

3.6 參數分析本節在節點分類實驗上研究嵌入維度d′、聚類質心數目k以及權衡系數λ1和λ2對MCNRL模型的影響,其他模型參數保持不變.嵌入維度d′的大小直接影響節點表示和全局表示間的互信息的計算.聚類質心數目k影響兩個視圖的節點表示間的聚類一致性程度.λ1和 λ2是權衡系數用于調整正則化損失Lconsistency和Lseparate與主損失Llocal-global的關系對模型性能的影響程度.實驗結果如圖2~5 所示.

圖2 MCNRL 模型在不同嵌入維度下的節點分類準確率Fig.2 Node classification accuracy of MCNRL model under different embedding dimension

從圖2中可以看出,隨著嵌入維度的增大,模型的分類準確率也隨之提高,在嵌入維度d′=512時,模型取得最好效果.但是隨著嵌入維度繼續增大,模型性能也開始降低,這是因為過大的特征維度會導致表示學習冗余特征,而過小的特征維度會導致學習的表示損失信息,這表明適當的嵌入維度更有利于模型的性能.

從圖3 中可以看出,對于Cora 和Citeseer 數據集,聚類質心數目分別取k=7 和k=8 時,節點分類效果最好.盡管Citeseer 實際類別數目是6,但是同一分類下的所有節點也可以繼續進一步分類,從而挖掘更細粒度的語義信息.最后,借助t-SNE 技術[20],圖4 給出了真實標簽下Cora 和Citeseer 的節點表示的可視化結果.圖中的實心黑點表示聚類質心,其他不同顏色的點表示不同類別節點.

圖3 MCNRL 模型在不同聚類質心數目 k下的節點分類準確率Fig.3 Node classification accuracy of MCNRL model under different number of clustering centroid k

圖4 真實標簽下的節點表示的可視化結果Fig.4 Visualization results of node representations under ground truth labels

從圖5 可以看出,當 λ1在[0.000 5,0.001,···,1 000]范圍時,隨著權衡系數 λ1增大,模型在Cora和Citeseer 上的分類準確率逐漸下降,這是因為在模型訓練過程中側重優化主損失Llocal-global,但是正則化損失Lconsistency的值遠大于主損失,所以應該調整 λ1使得 λ1×Lconsistency略小于Llocal-global.為此,本文在Cora 上設置 λ1=0.001,在Citeseer 上設置λ1=0.02. 當 λ2>0時,明顯發現模型分類準確率比λ2=0時 更好,同時,為調整 λ2使得 λ2×Lseparate略小于Llocal-global,為此,本文在Cora 和Citeseer 上均設置λ2=0.001. 最后,當 λ1>0,λ2>0時,模型分類準確率比 λ1=0,λ2=0時更好,這說明優化聚類一致性損失和簇心向量分離損失確實可以進一步提高模型性能.

圖5 不同權衡系數 λ1,λ2下節點分類準確率Fig.5 Node classification accuracy under different number of λ1 andλ2

4 結論

節點表示學習是研究各類圖結構數據的基礎.本文提出的基于互信息最大化原理和聚類感知的無監督節點表示學習方法,不僅考慮輸入空間中的一階和高階鄰居信息,而且進一步挖掘節點在潛在空間中的語義信息,從而學習高質量的節點表示用于下游圖分析任務.本模型在兩個引文數據集上進行了節點分類和節點聚類實驗,與基線方法相比,所提出的模型取得了最好的效果.未來考慮基于多視圖信息瓶頸最大化多視圖間的共享信息,同時最小化多視圖間非共享信息進行節點表示學習.

猜你喜歡
互信息最大化視圖
勉縣:力求黨建“引領力”的最大化
Advantages and Disadvantages of Studying Abroad
劉佳炎:回國創業讓人生價值最大化
5.3 視圖與投影
視圖
Y—20重型運輸機多視圖
SA2型76毫米車載高炮多視圖
基于互信息的貝葉斯網絡結構學習
聯合互信息水下目標特征選擇算法
戴夫:我更愿意把公益性做到最大化
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合