?

基于動態圖卷積與遷移學習的蛋白質質量評估

2024-02-21 06:00馮子健黃偉鴻姜博文
軟件導刊 2024年1期
關鍵詞:動態圖殘基鄰域

馮子健,黃偉鴻,姜博文

(浙江理工大學 信息科學與工程學院,浙江 杭州 310018)

0 引言

蛋白質是一種由多個氨基酸分子組成的鏈,它是生物界的重要組成物質,參與了大多數生命活動。預測、理解和分析蛋白質對醫學、遺傳學、藥學等領域具有重要意義[1]。隨著新一代測序技術的發展,研究者能很容易獲得蛋白質的氨基酸序列,然而蛋白質的功能卻主要由其三維結構決定。

傳統生化實驗方法獲取蛋白質結構既昂貴又耗時,為了能快速、高效獲得蛋白質三維結構,計算方法便成為了一種重要的補充手段,在近年來得到了快速發展。然而,目前仍未存在一種方法的預測結果能完全達到生化實驗的準確性,只能在特定環境下達到理想效果,因此評估計算方法便輸出的蛋白質模型成為了實驗中不可缺少的一環。

質量評估(Quality Assessment,QA)的目的就是將預測的蛋白質模型與天然結構進行比較,進而輸出預測模型在各種評價指標上的得分,便于后期篩選出更接近天然結構的優秀模型。

AlphaFold2[2]在CASP14 中的表現標志著深度學習正顛覆性地改變蛋白質結構預測領域,但其在質量評估領域的應用還有待開發。為此,本文提出一種基于動態圖卷積神經網絡[3](Dynamic Graph CNN,DGCNN)的蛋白質模型質量評估方法DGCQA,并結合遷移學習思想,選用預訓練模型ESM-1b[4]的編碼特征作為輸入。在CASP13[5]數據集上的實驗表明,所提模型相較于同類方法效果更好。

1 相關工作

蛋白質模型質量評估方法大致可分為共識方法和單模型方法。共識方法通過一個候選池中的其他模型信息來評估蛋白質模型,它是質量評估發展初期的主流方法之一,盡管共識方法可在一些情況下取得較好的效果,但很大程度上受候選池中模型的影響,如果模型較少或缺少一致性和相似性時,將難以對蛋白質模型作出最正確的評價。單模型方法是將單個蛋白質結構作為輸入,首先提取結構中的特征信息,然后通過機器學習、深度學習等方法進行訓練。

從CASP13 開始,單一模型方法在質量評估領域開始有逐漸超越共識方法的趨勢。ProQ2[6]、ProQ3[7]是質量評估中機器學習的典型方法,使用人工微調的特征來訓練支持向量機(Support Vector Machine,SVM),但由于機器學習的局限性,該類方法難以學習蛋白質結構中更為復雜的特征關系。

近年來,伴隨著深度學習的快速發展,一些基于深度學習的方法開始逐漸涌現。Hou 等[8]采用多任務學習訓練了一個1DCNN 網絡來評估蛋白質的全局和局部質量,但蛋白質存在多個殘基,難以捕獲殘基間的長距離依賴關系。DeepAccNet[9]通過結合2D 和3D 卷積來預測每個殘基的準確度,其中3D 卷積用于評估當前蛋白質的局部原子環境,2D 卷積則提供全局上下文信息。Nie 等[10]提出一種基于多尺度卷積和雙向門控循環神經網絡的質量評估方法BMBQA,結合數據增強思想,在原數據集中加入大量同源蛋白質來提升模型性能,但數據增強不僅增加了訓練負擔,還可能引入額外噪聲。

圖數據結構能方便、直觀地表示蛋白質中的原子、氨基酸及他們之間的相互作用關系。ProteinGCN[11]、GraphQA[12]將蛋白質模型表示為圖形式,通過圖卷積神經網絡(Graph Convolutional Network,GCN)[13]提取蛋白中殘基的特征,再利用這些特征評估蛋白質模型質量。雖然,該方法效果較好,但圖神經網絡在使用前需要構建蛋白質的圖結構,而圖中的邊往往需要根據殘基間的距離進行構建,如果構建邊的閾值選取不合理或蛋白質模型中的數據不夠準確,將造成圖中產生錯誤的邊或邊缺失等問題,會在一定程度上影響GCN 的效果。

為此,本文總結前人工作經驗,針對圖網絡在蛋白質質量評估中存在的問題,提出基于動態圖卷積神經網絡的單一模型質量評估方法,并結合預訓練模型ESM-1b 編碼特征進一步提升模型效果。

2 實驗方法

2.1 輸入特征

本文輸入為多種特征組合,可將其劃分為殘基特征和殘基之間的成對特征。為了方便表述,設輸入的蛋白質中殘基個數為L,ri表示蛋白質序列中索引為i的殘基,具體的殘基特征如下。

2.1.1 one-hot編碼

one-hot 編碼用來表示蛋白質中殘基類型的二進制向量,其中一位為1,其余位置為0。本文工作中,每一個殘基被編碼為一個長度為21 的向量(包括20 種標準氨基酸和其他氨基酸),蛋白質one-hot編碼大小為L× 21。

2.1.2 殘基相對位置編碼

該特征向量用來表示每個殘基在它所在蛋白質序列中的相對位置,計算公式如式(1)所示。

2.1.3 三維坐標

本文從PDB 文件中提取所有原子的三維坐標(x,y,z),并用Cβ原子的坐標代表殘基坐標。

2.1.4 統計量

本文參考Hurtado 等[14]的工作,從蛋白質多序列比對(Multiple Sequence Alignment,MSA[15])中提取自信息量(self-information)和部分熵(partial entropy),如式(2)、式(3)所示。

式中:pi表示殘基ri出現在當前位置的頻率表示數據集的平均頻率,兩種統計量均為23維向量。

2.1.5 DSSP特征

DSSP 特征為DSSP[16]計算得到的二面角(dihedral angle)、相對可溶性(relative solvent accessibility)和二級結構(secondary structure)類型,并他們拼接為一個6維向量。

2.1.6 ESM-1b編碼

本文受到遷移學習思想啟發,將Facebook AI Research提出的蛋白質預訓練模型ESM-1b 作為固定的特征編碼器,將蛋白質序列編碼為一個L× 1 280 的向量,并在輸入前通過一維卷積降維到32 維,與其他特征拼接作為最終輸入。ESM-1b 是一個基于Transformer[17]的無監督預訓練模型,在具有上億個蛋白質序列的數據庫UniProt[18]上進行訓練,可挖掘蛋白質序列中的結構信息。

綜上,殘基對特征的殘基間序列間隔表示蛋白質序列中的兩兩殘基間的索引距離(即兩殘基的索引差),用onehot 編碼表示距離間隔[1,2,3,4,5,6-10,11-15,16-20,>20],大小為L×L× 9。殘基間方位包括由trRosetta[19]定義的ω、θ二面角及φ平面角。

2.2 基于動態圖卷積的蛋白質模型質量評估方法

2.2.1 Inception模塊

本文選用Szegedy 等[20]提出的Inception 結構提取殘基對特征,模型結果如圖1 所示。由此可見,該結構為多尺度卷積核組成的網絡模塊,模塊中3×3 和5×5 卷積核可讓網絡捕獲不同大小鄰域內的殘基對信息,為下游任務提供更豐富的特征表達。此外,為了減少網絡參數、提升訓練速度,首先使用1×1 卷積核降維特征,后續進行大尺度卷積操作。

Fig.1 Incepiton module圖1 Inception模塊

2.2.2 EdgeConv層

GCN 等圖神經網絡在輸入前就已構建了鄰接矩陣,節點與節點間的鄰接關系固定不變。以蛋白質為例,一個蛋白質圖G一般通過以下方法構建:

式中:e為圖的邊;v為圖的節點;i、j為殘基索引;C代表殘基中的Cβ原子坐標;dmax為構建邊的閾值。

當前,盡管GCN 在質量評估領域取得了優異成果,但隨著網絡層次加深,殘基間的鄰接關系逐漸從初始的歐幾里得距離變成高維的特征間距離,初始的鄰接矩陣不再適合表達這種深層聯系。因此,根據特征構建動態的鄰接關系尤為重要。

EdgeConv 原本是一種面向點云學習的網絡模塊,本文將殘基類比為特征空間上的點云,應用該模塊挖掘殘基的特征信息。設R={r1,r2…rn}?RF為蛋白質的殘基云,任意一個殘基表示為ri,鄰域節點表示為rj,F為殘基特征的通道數。如圖2(a)所示,殘基ri在EdgeConv 層中計算與其他所有殘基的特征距離|ri-rj|,選取距離最小的k個殘基作為其在本層的鄰域(圖中k=4),整個過程動態變化,即每一個EdgeConv 層都會重新計算ri的鄰域來適應特征的變化。圖2(b)展示了動態圖網絡的節點更新過程,計算公式如式(5)所示。

Fig.2 EdgeConv operation圖2 EdgeConv操作

式中:ε表示ri與鄰域節點rj構成的邊集合。

hθ的定義為:

式中:為MLP,操作對象為ri的全局特征(ri)和局部邊特征(ri-rj)。

2.2.3 總體架構

本文基于Inception、EdgeConv 模塊,搭建了網絡整體架構DGCQA,如圖3 所示。網絡初始輸入的節點并不是殘基,而是原子,原子特征選用其三維坐標(x,y,z)。DGCQA 首先在原子尺度上進行兩次EdgeConv 操作(鄰域范圍k=40),以充分挖掘殘基的原子幾何特征,再通過Cβ原子特征代替殘基,降采樣到殘基尺度的點云后進行后續3 層的EdgeConv 操作(鄰域范圍k=10)。

Fig.3 DGCQA architecture圖3 DGCQA結構

網絡中,同尺度下不同EdgeConv 層輸出都會進行拼接,以充分利用網絡在不同深度下的特征信息。最后,模型將特征壓縮至適應大小,并與多尺度卷積模塊的輸出拼接,通過全連接層和sigmoid 函數(圖3 中的σ)得到預測結果。EdgeConv 層的網絡設計如圖4 所示,首先獲取殘基節點k鄰域范圍內的節點信息,然后使用MLP 對所有節點及其鄰域特征進行處理,最后通過池化層聚合特征,Edge-Conv層前后節點數量保持一致。

Fig.4 EdgeConv layer圖4 EdgeConv層

DGCQA 結構中的多尺度卷積模塊如圖5 所示,該模塊用于捕獲不同視角下的殘基對特征關系。以殘基對特征作為輸入,經過3 層Inception 結構的處理后通過pooling 層進行降采樣,然后將特征展平為輸出通道數Mout大小。

Fig.5 Multi-scale convolution module圖5 多尺度卷積模塊

3 實驗結果及分析

3.1 實驗環境

本文實驗基于Ubuntu 18.04 操作系統,Pytorch 1.13.0深度學習框架,處理器為AMD Ryzen 95900X,顯卡為NVIDIA RTX3090。

3.2 數據集

實驗數據集來自CASP 9~CASP 13 比賽中官方提供的目標蛋白質和各參賽小組提供的預測蛋白質。針對每一個目標蛋白質(target),均有多個小組提交的候選模型(decoy)與之對應。本文將CASP 9~CASP 12 整合成85 000 個蛋白質的數據集,以目標蛋白質為基準隨機劃分訓練集(270 個目標蛋白質)和驗證集(50 個目標蛋白質)。同時,將CASP 13 階段兩個比賽中的14 000 個蛋白質模型(對應72 個目標蛋白質)作為測試集,將本文所提方法與其他方法進行比較。

3.3 評價指標

本文選用皮爾森相關系數(Pearson Correlation Coefficient)、斯皮爾曼相關系數(Spearman Correlation Coefficient)、均方根誤差(Root Mean Square Error)、均方根誤差(Root Mean Square Error)、標準分數(standard score)分析DGCQA 的性能,如式(7)—式(10)所示。

皮爾森相關系數用于評價兩個向量之間的線性關系,取值范圍為[-1,1],接近0 表示弱相關,接近-1 或1 表示強相關。

式中:Y代表真實值向量;代表預測值向量;M代表對應向量的平均值。

斯皮爾曼相關系數用于統計兩個連續變量之間的單調關系,對異常值敏感度較低,其值與變量具體值無關,僅與變量間的大小關系有關。

式中:R為預測值的取值等級;S為真實值的取值等級;MR、MS分別為R、S的均值。

均方根誤差是回歸模型的典型評價指標,用于衡量預測值與真實值之間的偏差。

式中:n為預測的實例數量;yi為真實值為預測值。

標準分數也叫z 分數(z-score),本文在評估全局質量分數GDT_TS[21](Global Distance Test_Total Score)時,根據DGCQA 的預測結果,從每個目標蛋白質的候選模型中選擇一個預測評分最高的蛋白質模型,并計算z-score 的平均值,值越高代表DGCQA 對優秀蛋白質模型的選擇越準確。

式中:X為原始數據;為數據集的均值;σ為數據集的標準差。

3.4 結果分析

3.4.1 整體性能

由于蛋白質的全局結構精度分數GDT_TS 是CASP 評價蛋白質模型質量的重要指標,因此本文在全部蛋白質目標上計算GDT_TS 的均方根誤差(RMSE)、皮爾森相關系數(R)、斯皮爾曼相關系數(ρ)和標準分數(z),并與12 種方法進行比較,具體數據如表1所示。

Table 1 GDT_ TS prediction evaluation indicators表1 GDT_TS預測評價指標

表1 中Rtarget為先在每個目標蛋白質的候選模型中計算皮爾森相關系數,然后再求均值,值越高表明該方法能更好地根據具體目標蛋白質候選模型的整體質量進行排名。由此可見,本文所提方法雖然在標準分數z 上相較于GraphQA 較差,但也具有一定的競爭力,相較于其他方法在多項指標達到最優。圖6 顯示了GDT_TS 的真實值與預測值的關系及其分布情況。

Fig.6 GDT_ TS marginal圖6 GDT_TS邊際

3.4.2 鄰域范圍影響

本文中動態圖卷積的鄰域范圍是通過模型中Edge-Conv 層的超參數k所設置,k的取值會在一定程度上影響模型性能。實驗中保持DGCQA 整體架構不變,僅修改在殘基尺度上提取特征時的k鄰域大小,觀察模型在皮爾森系數下的得分情況。如圖7 所示,當鄰域范圍k=10 時,模型的皮爾森相關系數達到最優效果0.876,而當鄰域選取變小或變大時性能呈下降趨勢。原因為當鄰域選取過小時會導致動態圖卷積視野受限,無法充分捕獲節點間的特征關系;當鄰域選取過大會使深層網絡下的節點特征過于相似,將影響模型對不同節點的區分能力。

Fig.7 Pearson correlation coefficient under different neighborhood ranges圖7 不同鄰域范圍下的皮爾森相關系數

3.4.3 遷移學習有效性分析

為了驗證遷移學習的有效性,保持模型框架和其他特征輸入不變,僅去除ESM-1b 編碼以評估該部分對模型的影響。如表2、圖8 所示,加入ESM-1b 特征能使DGCQA 在所有指標上存在不同程度的提升,尤其在Rtarget上ESM-1b特征幫助DGCQA 提升了0.032,超過了第二名GraphQA 的0.779,達到了目前最好效果。

Table 2 Comparison of predictions for the presence and absence of ESM-1b on the test set表2 測試集上有無ESM-1b的預測比較

Fig.8 ESM-1b feature impact圖8 ESM-1b特征影響

3.4.4 動態圖卷積效果分析

為了通過實驗公平比較傳統圖卷積和動態圖卷積在蛋白質模型質量評估上的性能。在動態圖卷積方法上選擇了僅使用EdgeConv 層搭建的簡單網絡DGCQA-RAW;在特征上使用蛋白質的氨基酸one-hot 編碼作為GCN 和動態圖卷積神經網絡的唯一輸入。

二者在5 個重要指標的得分如表3 所示。由此可知,DGCQA-RAW 的5 個指標中4 個超過GCN,證明在質量評估任務中,圖節點的動態鄰域相較于固定鄰接關系對特征發掘更有效。

Table 3 Comparison of GCN and DGCNN performance in quality assessment表3 GCN和DGCNN在質量評估中的性能比較

4 結語

本文提出基于動態圖卷積的質量評估方法DGCQA 來解決傳統圖卷積的局限性,并結合遷移學習思想,引入蛋白質預訓練模型ESM-1b 編碼特征訓練模型。實驗表明,DGCQA 的表現相較于傳統方法更優秀,證明了所提方法的有效性。

然而,本文方法仍存在一定的缺陷。例如,動態圖雖然無需構建固定鄰接關系,但構建節點鄰域范圍的選擇依然是一個不確定因素,選取的大小會在一定程度上影響模型性能。下一步,將構建一個對鄰域范圍具有自適應能力的動態圖神經網絡,以提升模型的魯棒性。

猜你喜歡
動態圖殘基鄰域
基于各向異性網絡模型研究δ阿片受體的動力學與關鍵殘基*
白描畫禽鳥(十五)
白描畫禽鳥(十四)
白描畫禽鳥(十二)
白描畫禽鳥(七)
“殘基片段和排列組合法”在書寫限制條件的同分異構體中的應用
稀疏圖平方圖的染色數上界
基于鄰域競賽的多目標優化算法
關于-型鄰域空間
蛋白質二級結構序列與殘基種類間關聯的分析
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合