?

圖卷積神經網絡在組學數據分類預測中的應用*

2021-10-09 08:16張劉超榮志煒趙薇薇
中國衛生統計 2021年4期
關鍵詞:模擬實驗黑色素瘤卷積

張劉超 榮志煒 趙薇薇 李 康△

【提 要】 目的 探討圖卷積神經網絡(graph convolutional neural network,GCNN)利用PPI網絡對組學數據的分類預測效能。方法 通過模擬實驗和實例研究,對GCNN、隨機森林、支持向量機和多層感知機共四種方法的分類效果進行比較。結果 模擬實驗結果顯示,即便在樣本量和網絡中節點數量較少時,GCNN的分類效能也明顯優于其他三種方法,并且隨著節點數量的增加而不斷提高。實例研究表明,利用STRING網絡,GCNN的分類效能最優。結論 GCNN在組學數據的研究中極具潛力,值得進一步研究。

腫瘤的發生發展是基因突變、表觀遺傳學改變,以及環境因素等共同作用的結果[1]。圖卷積神經網絡(GCNN)[2]是一種適用于圖(網絡)結構數據的深度學習算法,即利用已知的PPI(protein-protein interaction)網絡提供的基因相互作用關系,可以更有效的提取腫瘤樣本的數據特征,再使用深度學習建立判別模型,有利于提高模型的判別能力,實現更好的分類預測效能。本研究通過模擬實驗探究GCNN方法的分類預測效能,并與多層感知機(MLP)、隨機森林(RF)和支持向量機(SVM)三種方法進行比較,最后給出應用實例。

方法和原理

1.基本原理

圖結構數據[3]由網絡圖和節點特征值組成,網絡圖是指根據特定的生物學關系,如基因調控或蛋白互作關系等構成的網絡圖形,可以用G=(V,E,A)表示,其中V表示節點,E為連接邊,A為加權鄰接矩陣,每個節點有其對應的特征值。在PPI網絡中,節點代表蛋白質或其對應的基因,連接邊表示基因間的相互作用關系,特征值即為基因或蛋白質的表達值。圖卷積神經網絡算法的思想[2]:對網絡各節點與其直接相連或間接相連的節點表達值多次做加權平均,由此得到的節點表達值則更加穩定;其權重可以利用拉普拉斯矩陣L,即計算各節點梯度的散度,其計算周圍點與中心點的梯度差,得到的是對該點進行微小擾動后可能獲得的總變化,以此作為卷積核的函數實現上述計算;最后以卷積的結果作為輸入,利用全連接神經網絡實現判別和分類(流程如圖1)。

圖1 圖卷積神經網絡(GCNN)流程示意圖

2.具體計算過程

給定無向網絡圖G=(V,E,A),其中V={X1,

X2,…,Xm}表示圖中節點的集合,m為圖中節點的個數;E={(Xi,Xj)},(Xi,Xj)表示節點Xi與Xj之間的連接邊(1≤i,j≤m);A為加權鄰接矩陣,即

(1)

式中0≤aij≤1表示連接邊(Xi,Xj)上的權重,aii=1。同時定義對角陣

(2)

Defferrard[5]提出使用切比雪夫多項式計算圖卷積操作的卷積核,若取最高為K階的鄰接點做卷積,K=0,1,2,…,m-1,則相應的卷積核為一個K維向量:

(3)

(4)

其中,n表示樣本個數,m表示基因個數。則圖卷積操作為

(5)

在上述卷積運算基礎上,以末次卷積運算的結果X(C)作為輸入,由后端的全連接神經網絡進行判別和分類。

模擬實驗

1.GCNN的超參數設置

圖卷積神經網絡(GCNN)包含兩個卷積層和兩個全連接層;在模擬實驗和實例研究1中,每個卷積層設置32個卷積核,且K=8;后端的兩個全連接隱藏層神經元個數分別為1024和516。在實例研究2中,兩個卷積層分別設置32和64個卷積核,K=14;后端的兩個全連接隱藏層神經元個數分別為1024和512。學習率為0.001,使用ReLU函數進行非線性轉換,ReLU(x)=max(0,x)。計算樣本標簽真實值與預測值的交叉熵損失,使用反向傳播算法對權值進行更新。

2.模擬數據

模擬實驗1:兩組多變量數據均值向量相同,協方差陣不同時四種方法的比較。設置變量數依次為100、250、500、750、1000,各變量的邊際分布服從正態分布N(0,1),并且平均與其他10個變量相關。為了描述所有變化情況,將取自正態分布N(0.1,0.12)的數值隨機與1,-1或0相乘得到不同兩組的相關系數。訓練集的樣本量為200∶200,測試集的樣本量為2000∶2000。重復實驗1000次。

模擬實驗2:兩組多變量數據均值向量不同,同時協方差陣不同時四種方法的比較。固定變量數為500,生成一組數據各變量邊際分布服從N(0,1),另一組數據各變量邊際分布服從N(μ,1),均值μ分別為0、0.05、0.1、0.15和0.25。其他條件與模擬實驗1相同。

3.模擬實驗結果

模擬結果顯示,即使在組間均值沒有差異的情況下,當網絡中節點數量較少時,GCNN具有較好的分類預測能力,并且隨著節點數量的增加,GCNN分類預測的AUC值和準確率不斷增加,并趨近于1,明顯優于其他三種方法(見圖2)。當固定網絡圖中節點數量為500時,隨著兩組數據間均值向量的差異不斷變大,各種方法的分類預測效能相應提高,但是GCNN的分類預測效能仍優于其他方法(圖3)。上述模擬實驗表明,GCNN的優勢在于通過利用網絡表示的變量之間的相關關系,可以很好地學習到不同樣本之間的特征,實現較好的分類預測效能,尤其適用于樣本均值向量差異較小的情況。

圖2 不同網絡節點數下四種方法的比較

圖3 不同組間差異下四種方法的比較

實例應用

實例研究1:為了進一步驗證GCNN對真實數據的分類效能,選用TCGA數據庫中黑色素瘤(SKCM)的mRNA表達數據,探究GCNN對黑色素瘤原發癌和癌轉移的分類預測效能。使用OncoGenomic Landscapes數據庫[7]給出的黑色素瘤相關基因進行變量篩選,選取STRING數據庫[8]中相應的PPI網絡。最終,本研究納入472例黑色素瘤患者,其中368名癌轉移患者,104名原發癌患者,PPI網絡中含有272個節點,17687條邊。使用十折交叉驗證測試各個模型的分類預測效能。在GCNN和MLP的模型訓練過程中,從訓練集中隨機選取10%的樣本作為驗證集,輔助模型訓練。

實例研究2:選用TCGA數據庫中黑色素瘤(SKCM)的蛋白質組數據和STRING數據庫中的PPI網絡,進一步探究GCNN在蛋白質組學上的學習效能。在剔除存在缺失的蛋白質后,本研究共納入258名癌轉移患者,96名原發癌患者,PPI網絡中含有67個節點,1926條邊。使用十折交叉驗證測試各個模型的分類預測效能。在GCNN和MLP的模型訓練過程中,從訓練集中隨機選取10%的樣本作為驗證集,輔助模型訓練。

實例研究結果:由表1和表2所列結果可知,無論是轉錄組數據還是蛋白質組數據,GCNN對黑色素瘤癌轉移預測的AUC均值為87.46%和83.30%,均高于其余三種方法,并且分類預測效能較穩定。

表1 基于mRNA表達數據的黑色素瘤轉移分類預測結果(%)

表2 基于蛋白質組數據的黑色素瘤轉移分類預測結果(%)

討 論

與傳統機器學習方法通過樣本數據的數字特征進行分類預測相比,GCNN在研究基因或蛋白質表達量差異的同時,利用PPI網絡所提供的基因間相互作用關系,通過其強大的非線性擬合能力,將樣本數字特征和生物學知識進行有機結合,實現更優的分類預測效能,在組學數據的研究中極具潛力。

由模擬實驗1的結果可知,當兩組的均值相同時,傳統機器學習方法在只考慮樣本數據的數字特征時,很難區分兩組樣本。但是,GCNN通過利用網絡結構提供的變量間的相互作用關系,仍可以學習到不同組別樣本的特征,具有較好的預測效能。隨著變量個數的增多,變量間的關系更為復雜,但GCNN的預測效能卻在不斷提高,展現出GCNN強大的擬合能力。模擬實驗2的結果顯示,當兩組樣本的均值差異較大時,雖然傳統方法僅依據樣本的數字特征便具有不錯的區分能力,但是GCNN的分類預測效能仍然略優于傳統機器學習方法,這與實例研究的結果相吻合,在黑色素瘤原發癌和癌轉移患者的基因表達情況差異較大的情況下,可以看出GCNN的預測效能仍略優于RF和SVM等方法。

本研究尚存在一些不足之處,首先本研究使用OncoGenomicLandscapes數據庫中的黑色素瘤相關基因進行變量篩選,尚不能使用GCNN完成變量篩選。其次,本研究所用的PPI網絡并不能完全表征基因間的全部相互作用關系,可能會對GCNN造成一定程度的干擾。我們將在后續的研究中進一步解決上述問題。

猜你喜歡
模擬實驗黑色素瘤卷積
基于3D-Winograd的快速卷積算法設計及FPGA實現
斷塊油藏注采耦合物理模擬實驗
從濾波器理解卷積
基于傅里葉域卷積表示的目標跟蹤算法
輸氣管道砂沖蝕的模擬實驗
原發性食管惡性黑色素瘤1例并文獻復習
TGF-β1在黑色素瘤血清中的異常表達及其對腫瘤細胞凋亡的影響
顱內黑色素瘤的研究進展
左拇指巨大黑色素瘤1例
射孔井水力壓裂模擬實驗相似準則推導
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合