?

基于序列深度學習的III型分泌效應子預測

2022-08-16 03:11唐賢俊王順芳
計算機工程與設計 2022年8期
關鍵詞:氨基酸卷積神經網絡

唐賢俊,王順芳

(云南大學 信息學院,云南 昆明 650504)

0 引 言

III型分泌效應子(T3SE)被認為是許多宿主-微生物相互作用的主要介質[1,2]。T3SE作為宿主內的毒力因子[3],能夠改變和操縱重要的宿主細胞功能[4]。由于最近菌株的不斷擴大和基因組學數據的可用性持續增加為深入研究提供了獨特機會[5,6],因此對T3SE的預測具有重要的研究意義。迄今為止,已經有相當多的T3SEs通過體外和硅膠方法鑒定[7]和基于經典的機器學習計算方法,例如支持向量機(SVM)[8]、Naive Bayes(NB)[9]、卷積神經網絡(CNN)[10]和馬爾可夫模型(MM)[11]。

機器學習方法需花費大量時間提取有意義的特征來進行預測,它們無法直接從一級序列中直接進行預測。并且這些預測方法存在大量潛在的假陽性,因此將具有高度預測精度的基于序列深度學習的預測方法應用于III型分泌效應子具有挑戰性。鑒于此,本文提出了基于深度學習的方法從一級序列預測III型分泌效應子。該方法跳過了從序列對象中提取特征的步驟,能夠利用兩級卷積神經網絡自動學習特征,用雙向長短時記憶神經網絡識別長期依賴關系,最后用二進制交叉熵來評價神經網絡質量。最終在數據集上的實驗結果表明,該方法預測能力強、通用性強、可靠性高。同時,該方法大大節省了預測時間的開銷。

1 深度學習模型結構

就像現實世界中的自然語言一樣,字母以不同的組合形式組合在一起構成單詞,單詞以不同的方式組合在一起形成短語。對文檔中的詞進行處理可以傳達出文檔的主題及其有意義的內容。在這項工作中,蛋白質序列類似于文檔,氨基酸類似于單詞。挖掘它們之間的關系將產生與序列對應的物理實體的行為屬性的更高層次的信息。

我們這里所提出的深度學習模型由5個層次組成:編碼層、嵌入層、CNN層、BiLSTM層和Dense層,如圖1所示。

圖1 深度學習模型結構

編碼層主要是將序列映射到固定長度的數字向量。嵌入層的功能是將其轉換為連續向量。與word2vec模型[12]類似,轉換到這個連續空間可以使用連續度量的相似性概念來評估單個氨基酸的語義質量。CNN層則是由兩個卷積層和兩個最大池化層構成,其中每個卷積層后面都有一個最大池操作。CNN可以在多層神經元之間實施局部區域連接模式,以利用空間上的局部結構特征。具體地說,CNN層用于捕捉蛋白質序列的非線性特征,并增強與DNA結合功能的高級關聯。BiLSTM層用來學習基序之間長期依賴關系。Dense層用來進行維度變換,把BiLSTM的輸出轉換成需要的維度輸出。最后,用sigmoid激活來預測蛋白質序列的功能標簽。給定一個蛋白質序列,最后我們可以用式(1)進行描述

G(S)=Dense(BiLSTM(CNN(Embedding(Encoding(S)))))

(1)

1.1 蛋白質序列編碼

在大多數分類任務中,特征編碼是建立統計機器學習模型的一項繁瑣而關鍵的工作。人們提出了多種方法,如基于同源性的方法、基于PSSM的方法和基于理化性質的提取方法等。雖然這些方法在大多數情況下都能很好地工作,但人們的高度參與導致實際應用中的用處較小。在新興的深度學習技術中,最成功的是它能夠自動學習特征。為了驗證其通用性,我們只給每個氨基酸分配一個自然數,見表1。

表1 氨基酸編碼

編碼階段只是生成一個蛋白質序列的固定長度的數字載體。如果出現蛋白質序列的長度小于預設定的max_length值,則在前面填充一個特殊標記“X”。我們使用一個示例序列S=MQIQANT來進行表示,若我們把max_length設置為8,則它在編碼時的序列填充為:S=XMQIQANT, 最后編碼的值如式(2)所示

S1=Encoding(S)=(0,11,14,8,14,1,12,17)

(2)

1.2 嵌入階段

在自然語言處理中,向量空間模型被用來表示單詞。嵌入是一個映射過程,將離散詞匯表中的每個單詞嵌入到一個連續的向量空間中。這樣,語義上相似的詞被映射到相似的區域。這種映射關系在反向傳播的過程中,是一直在更新的,因此能在多次epoch后,使得這個關系變成相對成熟,即:正確的表達整個語義以及各個語句之間的關系.現有的深度學習開發工具包Keras里就提供了一個嵌入層,可以將代表詞匯表中每個單詞的整數維矩陣進行轉換。因此在嵌入層之后,輸入的氨基酸序列變為密集的實值向量序列。

1.3 卷積階段

卷積神經網絡改善了傳統模式識別方法存在提取特征難的問題,不僅具有傳統神經網絡的優點,并且還具有自動提取特征、權值共享的特點,因而在圖像處理中得到了廣泛的應用。編碼的氨基酸序列在通過嵌入層時被轉換成一個固定大小的二維矩陣,因此可以像圖像一樣通過卷積神經網絡進行處理。激活函數使用的是“Relu”,旨在提高網絡的非線性特性。最大池層通過下采樣策略降低前一層輸出的維數。并且我們測試了2~6范圍內的各種池大小以獲得最佳性能。然后,選擇了池長長度為2的最大池池化操作,以最大值作為過濾器得到對應的特征。

1.4 BiLSTM階段

雖然傳統的RNN在語音識別和文本生成方面取得了顯著的成果,但是梯度的消失和爆炸問題使得學習長期動態變得困難。BiLSTM是由LSTM組合而成,LSTM詳細定義參見文獻[13]。使用BiLSTM,我們能夠在指定的時間范圍內有效地使用過去的特征(通過前向狀態)和未來的特征(通過后向的狀態)。我們使用通過時間的反向傳播(BPTT)來訓練雙向LSTM網絡。想要了解BiLSTM,首先我們要明白LSTM模型的工作原理。LSTM模型的具體工作原理可參見文獻[13]。

1.5 Dense層

全連接層(fully connected layers,FC)在整個卷積神經網絡中起到“分類器”的作用。全連接層可以整合卷積層或者池化層中具有類別區分性的局部性。全連接層的具體描述請參見文獻[14]。

1.6 激活和損失函數

一般來說,sigmoid函數表現出良好的數學行為。它是一個可微的有界函數,在各點均有非負的導數。當x趨于正無窮大時,f(x)趨近于1;當x趨于負無窮時f(x)趨近于0。常用于二元分類(binary classification)問題,以及神經網絡的激活函數(activation function)(把線性的輸入轉換為非線性的輸出)。所以在這項工作中,用sigmoid函數作為網絡的激活函數。

損失函數衡量機器學習模型與經驗數據的擬合程度。它是一個非負實值函數,損失函數越小,模型的魯棒性就越好。在本文中,我們使用的二元交叉熵,如式(3)。其中n是所有訓練數據的數目,y是真實的標簽,ypred是預測的標簽

(3)

整個實驗過程是在Keras2.2.4框架下實現的,Keras框架是一個極簡和高度模塊化的神經網絡庫。Keras的開發重點是支持快速實驗,并支持CPU和GPU。Keras是用Python編寫的,能夠在TensorFlow或Theano之上運行。

2 實驗結果及分析

2.1 數據集

Dillon,M.M.等[15]最近通過分析多個丁香科種復合菌株和組合多個公共序列數據庫,從丁香科植物全基因組中鑒定出T3SEs。在通過使用CD-HIT[16]來去除相似冗余序列后,最終得到617個T3SEs,我們將這617個T3SEs作為正樣本。我們從Uniprot數據庫(2020.05)中選擇多個蛋白質序列形成的負樣本數據集,由于非T3SEs蛋白的數量遠大于正樣本的數量,為克服正、負數據集之間的不平衡現象,將這個負樣本集經過和正樣本相同的處理后,最終得到了616個非T3SEs作為負樣本。因此最后得到的丁香型假單胞菌III型分泌效應蛋白數據集,里面包含了617個T3SEs和616個非T3SEs。我們利用這個數據集開發了基于深度學習的預測工具。

此外,為了驗證我們提出模型的通用性,還使用了Li等[7]在論文中使用的兩個測試集(革蘭氏陰性細菌III型分泌蛋白數據集和獨立測試集)。革蘭氏陰性細菌III型分泌蛋白數據集[7]是通過廣泛的文獻檢索,從中獲得I型到VIII型的所有分泌蛋白的信息,并從Swiss-Prot和TrEMBL下載了相應的序列(UniProt,2008)整合而得到的。此外,還收集了Wang等和Tay等實驗證實的T3SEs來提高T3SE數據的綜合性[7]。革蘭氏陰性細菌III型分泌蛋白數據集[7]通過使用序列標識截止值為30%的CD-HIT[13,16]來去除相似序列,然后進一步刪除蛋白質序列小于100的序列。最后,得到了一個包含283個T3SEs和312個非T3SEs蛋白的革蘭氏陰性細菌III型分泌蛋白數據集。獨立測試集是通過檢索CD-HIT法和BLAST法對整個訓練數據集的成對識別率分別為小于60%和25~60%的蛋白質,從而制備了這個數據集。獨立測試集測試樣本包括了35個T3SEs和86個非T3SEs。在我們的整個實驗過程中,所用到的數據集具體見表2。

表2 數據集

2.2 性能評估指標

交叉驗證是評估分類模型性能的常用方法。在這項研究中,我們將數據集分成5個不重疊的大小相等的集合,并在對其余集合進行測試。這樣重復5次,5個測試集中的每一個都被用作測試集一次,并記錄平均性能參數。對于二類分類問題,采用精確率(PRE)、特異性(SP)、靈敏度(SN)、準確率(ACC)、F值(F-score)和Matthew相關系數(MCC)6個參數來評價分類模型的整體預測性能。此外,還繪制了工作特性(ROC)曲線,即真陽性率與假陽性率的曲線圖,以直觀地衡量不同方法的綜合性能。曲線下的面積(AUC)也在每個ROC圖中表示了出來。AUC的最大值為1.0,表示一個完美的預測。隨機猜測的AUC值為0.5。精確率(PRE)、特異性(SP)和靈敏度(SN)參數的描述可以參見文獻[7],準確率(ACC)、F值(F-score)和Matthew相關系數(MCC)定義如式(4)、式(5)、式(6),其中TP指原來是正樣本,分類成正樣本的數量。FP指本來是負樣本,卻被分類成正樣本的數量。TN指原來是負樣本,分類成負樣本的數量。FN指本來是正樣本,卻被錯誤分類成負樣本的數量

(4)

(5)

(6)

2.3 序列分析

我們分析了丁香型假單胞菌III型分泌效應蛋白每個位置上的氨基酸發生情況(包括那些代表過多和不足的氨基酸)。圖2是617個T3SE和616個非T3SE效應子的50個N端和C端的位置特異性氨基酸序列圖譜(圖A是T3SE效應子的N末端和C末端的位置特異性氨基酸序列,圖B是非T3SE效應子的N末端和C末端的位置特異性氨基酸序列)。

圖2 位置特異性氨基酸序列分析

該圖像是使用Seq2Logo默認設置生成的。y軸的正數按位表示氨基酸的豐富信息量,而y軸的負數表示相應的消耗氨基酸。橫軸表示N 或C端的位置編號。對于每個序列負責翻譯起始位置的第1位甲硫氨酸(M)被去除以提高可讀性。在此,堆疊的高度表示每個位置的保守性水平,而字母的大小表示每個氨基酸的相對頻率。

具體描述如圖2所示。在圖2中觀察到了幾個明顯的氨基酸殘基偏好。對于N端,在T3SE序列的多個位置上均富含丙氨酸(A)、甘氨酸(G)、絲氨酸(S),在位置2和3上富含異亮氨酸(I)。在非T3SE序列的多個位置上均富含丙氨酸(A)、亮氨酸(L),在位置1、2和5上富含賴氨酸(K),位置1上富含絲氨酸(S)。對于C端而言,在T3SE序列的多個位置上均富含丙氨酸(A)、精氨酸(R),在位置1、4、16、18、19、37、38、39和46上富含亮氨酸(L)。在非T3SE序列的多個位置上均富含亮氨酸(L),在位置10、11、17、21、23、30、32、33、43和49上富含丙氨酸(A),位置50上富含賴氨酸(K)。

所計算的氨基酸頻率沒有顯示出在蛋白質的任一末端具有高度保守的序列基序的跡象。實際上,在C末端序列的位置50處發現了唯一可識別的具有高保守水平的位(是第二高堆棧的兩倍)。但是,對于非效應蛋白也發現了相似的高保守性。T3SE的N端顯示出明顯均勻的保守分布,表明這些位置均未在識別中起主要作用。在T3SE的C端序列中沒有明顯的基序模式?;谏鲜龅姆治瞿軐3SE與非T3SE效應子更有效的區分開來,對于在深度學習模型中捕獲蛋白質序列特征很有用。

2.4 基于五折交叉驗證的分類器性能分析

為了驗證該方法預測丁香型假單胞菌III型分泌效應蛋白的能力,我們在丁香型假單胞菌III型分泌效應蛋白數據集上通過k折(k=3,5,10)交叉驗證實驗,最終在使用5折交叉驗證實驗中獲得了最佳模型。因此我們選擇了5折交叉驗證來進行接下來的比較。通過對數據集的5折交叉驗證測試,我們的模型取得了良好的性能。精確率(PRE)、敏感度(SN)、特異性(SP)、F值(F-score)、準確率(ACC)、馬修相關系數(MCC)、AUC的值分別為0.945、0.677、0.958、0.789、0.952、0.658、0.944。

評估分類器精度的方法我們使用了ROC圖,這是分析分類器整體性能的常用方法。它將真陽性率描述為假陽性率的函數,在敏感性和特異性之間進行不同的權衡。AUC通常被用作診斷準確性的一種總結性測量。然后,將我們的模型與SVM、RF、DT、ANN、KNN和NB模型的預測結果進行了比較(圖3)。我們的模型在精確率(PRE)、特異性(SP)、F值(F-score)、準確率(ACC)、馬修相關系數(MCC)、AUC方面優于其它模型。我們模型的敏感度(SN)只有0.677,略低于DT模型和KNN模型的0.709和0.686。

圖3 基于五折交叉驗證的分類器性能分析

2.5 在革蘭氏陰性細菌上與其它模型的比較

首先使用283個T3SEs和313個非T3SEs的數據集訓練模型。為了衡量我們提出的模型預測T3SEs的能力,我們采用了基于5折交叉驗證的測試策略。將我們的模型與CNN、SVM、RF、ANN、KNN和NB模型的預測結果進行了比較。我們使用同一個革蘭氏陰性細菌III型分泌蛋白數據集作為輸入來訓練所有模型。然后使用基于5折交叉驗證測試這個數據集。

我們模型的精確率(PRE)、敏感度(SN)、特異性(SP)、F值(F-score)、準確率(ACC)、馬修相關系數(MCC)、AUC分別為0.915、0.768、0.937、0.835、0.857、0.719、0.926。其中我們模型的精確率(PRE)、特異性(SP)、F值(F-score)、準確率(ACC)、馬修相關系數(MCC)、AUC都優于CNN、SVM、RF、ANN、KNN和NB模型。只有敏感度(SN)略低于NB模型和CNN模型的敏感度(SN)。不同模型得到的性能具體描述見表3。

表3 革蘭氏陰性細菌上的性能比較

2.6 在獨立測試集上的預測結果

我們在一個獨立的數據集上用我們的模型與其它4種模型(DeepT3-1、EffectiveT3、BPBAac和BEAN2)分別進行了性能比較。結果表明,與其它4種方法相比,我們提出的模型具有更高的敏感度(SN)、特異性(SP)、F值(F-score)、準確率(ACC)、馬修相關系數(MCC),它們分別達到了0.943、0.965、0.930、0.951、0.901。它的準確率(ACC)為0.951,比DeepT3-1、EffectiveT3、BPBAac和BEAN2分別提高了2.5%、18.4%、8.0%、8.9%。其中我們模型的精確率(PRE)略低于BPBAac方法,BPBAac的精確率(PRE)達到了0.944,略高于我們的方法。與其它4種模型的性能比較具體見表4。

表4 不同模型比較結果

3 結束語

本文中,我們使用深度學習方法從一級序列中預測丁香型假單胞菌III型分泌效應蛋白。此方法跳過從序列對象中提取特征的步驟,能在訓練過程中重新精確學習先導序列的已知基序。此外,該模型能在不同數據集上更準確地識別III型分泌效應蛋白。這項關于預測III型分泌效應蛋白的深度學習模型的全面研究會為未來的蛋白質組學研究提供一個有競爭力的工具。所提出的深度學習方法將有許多其它潛在的應用,如蛋白質遠程同源性檢測、miRNA預測等。

猜你喜歡
氨基酸卷積神經網絡
基于遞歸模糊神經網絡的風電平滑控制策略
基于3D-Winograd的快速卷積算法設計及FPGA實現
鵝掌柴蜂蜜氨基酸組成識別研究
豬回腸氨基酸消化率的評定方法
卷積神經網絡的分析與設計
神經網絡抑制無線通信干擾探究
從濾波器理解卷積
基于神經網絡的中小學生情感分析
基于傅里葉域卷積表示的目標跟蹤算法
HPLC法同時測定阿膠強骨口服液中4種氨基酸
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合