?

基于密集連接神經網絡和長短期記憶網絡的賴氨酸戊二?;稽c的預測

2023-10-12 06:35呂佩諾賈建華
景德鎮學院學報 2023年3期
關鍵詞:?;?/a>賴氨酸密集

呂佩諾,賈建華

(景德鎮陶瓷大學 信息工程學院,江西 景德鎮 333403)

0 引言

賴氨酸戊二?;瘡V泛存在于真核生物和原核生物中,戊二?;鶊F(如戊二酰輔酶A)通過酶的催化共價結合到賴氨酸殘基上。賴氨酸戊二?;饕l生在線粒體中[1],線粒體功能障礙可導致衰老和相關疾病,如癌癥,代謝性、神經性疾病等[2]。賴氨酸戊二?;瘜⒂绊懢€粒體代謝及功能[3],目前已經證實了賴氨酸戊二?;瘜Π柶澓DY、帕金森病等神經退行性疾病的影響,以及對神經細胞的損傷[4]。2014年Tan等[5]首次通過生化實驗在大腸桿菌和小鼠肝細胞中驗證了賴氨酸戊二?;稽c,證明了脫戊二?;?SIRT5)和營養物可以對賴氨酸戊二?;M行調節。2016年,Xie等[6]利用實驗方法從24條蛋白質中鑒定了41個賴氨酸戊二?;稽c。使用實驗方法鑒定賴氨酸戊二?;稽c雖然準確但耗時耗力,需要尋找新的計算方法提高預測效率。

采用計算方法對賴氨酸戊二?;稽c的預測研究相對較少,這項工作具有挑戰性。2018年Ju等[7]首次開發了賴氨酸戊二?;稽c的預測工具GlutPred,研究結合多種特征編碼方法,采用偏置向量機模型處理數據的不平衡問題。同年,Xu等[8]采用氨基酸指數、K間隔氨基酸對組成、位置特異性氨基酸傾向、位置特異性傾向矩陣四種不同的特征編碼方案,構建了iGlu-Lys預測器。iGlu-Lys性能高于GlutPred,但他們采用的數據集較小,且敏感性得分都較低。2019年Huang等[9]基于序列特征編碼和最大依賴性分解(MDD)捕捉位置間的相互依賴,利用SVM算法構建了MDDGlutar分類器,該分類器所有性能比較均衡但準確率略低。Al-barakati等[10]利用序列編碼方法和隨機森林算法構建了RF-GlutarySite分類器,該模型使用了一個更大的數據集,但訓練和測試時都是平衡數據集,不能很好地反映真實情況。2020年,Dou等[11]開發了基于AdaBoost算法和三種特征編碼方法的iGlu-AdaBoost分類器,采用混合采樣法對訓練數據集進行處理,該測試數據集是非平衡的。2022年Liu等[12]提出了深度學習預測算法,該算法基于詞嵌入和深度神經網絡框架搭建而成,評估了不同單詞嵌入和不同深度學習模型的預測性能。2022年Qiao等[13]針對不平衡數據采用SMOTE和Tomek Links篩選重組數據,應用六種特征編碼方法并基于XGBoost算法建模構建了DEXGB_Glu預測器。同年Indriani等[14]將傳統的基于序列的特征提取方法與預訓練的transformer的特征提取模型相結合,篩選出了性能最好的分類器ProtTrans-Glutar。盡管目前關于賴氨酸戊二?;稽c已經開發了一些預測工具,但和其他位點相比,賴氨酸戊二?;念A測模型相對較少,且性能不夠理想,準確性和真實性還有很大的提升空間。

越來越多的研究表明,深度學習方法可以成功運用在蛋白質位點預測上。過去應用在預測賴氨酸戊二?;稽c的深度學習方法主要有卷積神經網絡和長短期記憶網絡(Long Short Term Memory,LSTM[15])等,類似的方式,密集連接神經網絡(Densely connected convolutional networks,DenseNets[16])開始用于挖掘其他氨基酸序列信息,并且實現了比傳統模型更好的性能。本研究中引入密集連接神經網絡和長短期記憶網絡,提出了一種新的預測方法來鑒定蛋白質中的賴氨酸戊二?;稽c。實驗表明,對序列做簡單編碼后再利用深度學習模型提取特征信息,不僅能提高數據處理的效率,還能提高預測的性能。

1 材料與方法

1.1 基準數據集

在這項研究中采用了Al-barakati等人[10]構建的非平衡數據集。該數據集來源于蛋白質賴氨酸修飾數據庫(PLMD)、SWISS-PROT數據庫以及國家生物技術中心(NCBI),包括四種不同物種(小家鼠、結核分枝桿菌、大腸桿菌和HeLa細胞),共有234個蛋白質的749個位點。使用CD-Hit[17]去除了同一性大于40%的同源性序列,滑動窗口提取序列片段,得到長度為23的肽序列。最后保留了400個陽性位點和1703個陰性位點作為訓練集,44個陽性位點和203個陰性位點作為獨立測試集。如表1所示:

表1 基準數據集

1.2 one-hot編碼

在這項工作中使用one-hot編碼[18]方式對蛋白質序列進行編碼。這是一種離散型表示,一條序列中氨基酸對應的指數為1,其他位置為0。如丙氨酸的編碼為10…0,半胱氨酸的編碼為01…0??偣灿?0個氨基酸個數,加上未知項X,one-hot編碼的長度為21。對于長度為L的序列片段,最終得到L*21維向量。本研究的數據序列長度L=23,得到一個23*21維度的矩陣。

1.3 模型結構

本研究建立了一個深度學習模型去預測賴氨酸戊二?;稽c。在這個模型中,通過密集連接的卷積塊和LSTM層進行特征提取后得到相關矩陣,輸入到兩個層數為300層的全連接層中,最后利用softmax層進行分類,從而有效地預測賴氨酸戊二?;稽c。Glu-DClstm整體模型如圖1所示:

圖1 Glu-DClstm模型結構

1.3.1密集連接神經網絡

密集連接神經網絡的密集連接機制,在一定程度上減輕了梯度消失,加強了特征的傳遞,在參數與計算量更小的情況下取得更優良的性能,優于傳統的CNN和ResNet[18]。

在應用密集卷積塊之前,首先輸入one-hot編碼矩陣,通過一維卷積層生成序列信息的低級特征信息圖。如公式(1)所示:

h0=a(E×W+b)

(1)

其中,E是one-hot編碼,one-hot編碼的長度為21。W是權重矩陣,大小為21×S×D,S是卷積核的大小,D是卷積核的數量。S=4,D=96,b是偏置項,h0是一維卷積層的輸出,大小為L×D。a是ELU激活函數,實現非線性變換。

特征編碼經過卷積層后的輸出向量是密集卷積塊的輸入向量,密集卷積塊對上一層的信息進行一系列的卷積運算后獲得高級特征表示圖。如公式(2)所示:

hk=a([h0;h1;…;h(k-1)]×W′+b′)

(2)

其中,hk-1表示密集卷積塊中第(k-1)個卷積生成的特征向量,W′∈RD′×S×D″是權重矩陣,D′由K決定,D″是每一層卷積核的數量,這里設置為32,b′是偏差,[h0;h1;…;hk-1]表示將密集卷積塊的輸出h0;h1;…;hk-1沿特征維度串聯。

然后,在兩個密集卷積塊之間使用一個過渡層對密集卷積塊輸出的高級特征圖進行卷積和池化操作。如公式(3)所示:

hk=a([h0;h1;…;h(k-1)]*W′+b″)

(3)

W′∈R(D′+D″)×S′×(D′+D″)是權重矩陣,S′是卷積核的大小,設置為1,b″ 是偏置項,最后對hk采用平均池化操作降維。

將多個密集卷積塊和過渡層串聯起來即構建出密集連接神經網絡,本研究中,設置了4個密集卷積塊,最終可以提取蛋白質序列的高級特征。

1.3.2長短期記憶網絡

長短期記憶網絡(LSTM)是一種特殊的遞歸神經網絡(recurrent neural network,RNN),相較于傳統的RNN,LSTM解決了其梯度爆炸和梯度消失問題[15]。LSTM主要由三個門(遺忘門、輸入門、輸出門)、細胞態(cell state)、記憶體和候選態構成。其中細胞態是LSTM的核心,也是與RNN的最大區別之處。細胞態負責數據的長期記憶,數據將沿著細胞態流動。三個門能控制細胞態中信息的增加或移除,結構如圖2所示。

圖2 LSTM結構

其中,t時刻的隱藏狀態為ht,細胞態為Ct,輸入特征Xt。t-1時刻的隱藏狀態為ht-1,細胞態為Ct-1。σ是sigmoid激活函數,tanh為tanh激活函數。ft代表遺忘門,it代表輸入門,ot代表輸出門。

1.4 評估指標

本研究中采用十折交叉驗證和獨立測試集來評估模型的性能。十折交叉驗證是將訓練集平均分成十個子集,其中九個用于訓練,一個用于測試,重復十次直到每個子集都作為一次測試集,十次訓練的平均結果為訓練集結果。同樣,獨立測試集的結果也用來評估構建的模型。本研究中計算了四個統計指標:敏感性(Sn),特異性(Sp),準確性(Acc),馬修斯相關系數(MCC)。這些指標的公式如下:

其中TP、TN、FP、FN分別表示真陽性(正確預測賴氨酸戊二?;稽c的數量)、真陰性(正確預測非賴氨酸戊二?;稽c的數量)、假陽性(錯誤預測賴氨酸戊二?;稽c的數量)和假陰性(錯誤預測非賴氨酸戊二?;稽c的數量)。Sn是用來衡量陽性準確率即識別賴氨酸戊二?;稽c的準確性的指標,Sp是用來衡量陰性準確率即識別非賴氨酸戊二?;稽c的準確性的指標,Acc代表分類正確的樣本占總樣本個數的比例[20]。MCC可以合理評估非平衡數據集下的二元分類模型的效果,MCC越高,證明該分類模型對非平衡數據的預測效果越好[20]。另外,還測量了受試者特征(Receiver Operating Characteristic,ROC)曲線和曲線下的面積(Area under ROC,AUC)。AUC值越接近1,表示分類器精度越高[21]。

2 結果分析

2.1 十折交叉驗證

在本研究中,構建了Glu-DClstm模型預測戊二?;稽c,選擇了目前最新的數據集之一。Glu-DClstm模型采用one-hot編碼,結合密集連接神經網絡和長短期記憶網絡模型挖掘序列信息。本研究采用十折交叉驗證和獨立測試集評估了模型的Sn、Sp、Acc、MCC和AUC的性能。

Al-barakati等人構建的RF-GlutarySite模型將數據集提前處理為平衡數據集,而本研究構建的模型是在非平衡數據集下訓練和預測的。因此為了保證比較的準確性,本研究同采用非平衡數據的ProTrans-Glutar模型進行了比較。

另外為了進一步驗證密集連接神經網絡和長短期記憶網絡組合模型的優勢,本研究嘗試去掉LSTM模型,單獨對DenseNets模型進行驗證。十折交叉驗證的結果如表2所示,DenseNets和LSTM的組合模型效果更加均衡且優良,Sn,Sp,Acc,MCC分別為0.6750、0.6735、0.6738、0.2842,高于目前最新的預測器ProTrans-Glutar。Glu-DClstm具有穩健性,AUC為0.744,ROC曲線如圖3所示。

圖3 訓練集ROC曲線

表2 十折交叉驗證結果

2.2 獨立測試集與現有模型的比較

為了驗證構建的模型具有良好的泛化能力且優于其他預測模型,本研究將獨立測試集的結果與其他的預測器進行了比較。為保證模型不會因為訓練集不同而造成結果偏差,本研究采用了相同的獨立測試集分別對GluPred、iGlu-Lys、MDDGlutar、iGlu-AdaBoost、ProtTrans-Glutar進行對比。結果如表3所示,GluPred和iGlu-Lys雖然Acc較高,但其Sn只達到了隨機預測水平,模型實際意義不大,不具有可參考性。Glu-DClstm的Sn和Sp的值更均衡,相比Sn低Sp高的模型更具有實際意義。Glu-DClstm與MDDGlutar、iGlu-AdaBoost、ProtTrans-Glutar相比Sp至少提高了3%,Acc至少提高了4%,MCC至少提高了1%,AUC至少提高了9%。ROC曲線如圖4所示。

圖4 獨立測試集ROC曲線

表3 獨立測試集對比結果

如表3所示,Glu-DClstm的預測結果:Sn=0.7045、Sp=0.7684、Acc=0.7570、MCC=0.3894、AUC=0.7984,與最新的預測器ProtTrans-Glutar相比,Glu-DClstm 的Sp提高了14%,ACC提高了10%,MCC提高了7%,AUC提高了9%。盡管Sn略有降低,但總的來說Glu-DClstm模型對賴氨酸戊二?;稽c預測更平衡,MCC和AUC作為整體模型性能的評估指標,在對非平衡數據集的預測時,研究者更關注MCC和AUC的值是否有所提高。其他預測器的敏感性和特異性差異較大,在實際運用中容易造成較大的誤差。Glu-DClstm模型解決了這個問題,給出了一個比較平衡的結果,優于現有的預測模型。本研究的數據集樣本正負比例約為1∶4.5,數據較不平衡。Glu-DClstm在非平衡數據集的處理上采用類權重的方法,避免了直接采樣帶來的信息損失,對賴氨酸戊二?;稽c預測能提供較大幫助,更具有實用價值。

3 討論

本研究首先對蛋白質序列進行one-hot編碼,利用密集連接神經網絡和長短期記憶網絡模型充分挖掘序列信息,建立了一種新的預測賴氨酸戊二?;稽c的模型。同時獨立測試集的評估表明,該模型對正負樣本數據不平衡問題的處理是有效的。正負樣本的預測結果比較均衡,與其他預測器相比該模型表現更加優良,具有良好的泛化能力。

另外,一個公開友好的在線預測網站將大大提高研究效率,因此在未來工作中,將致力于建立一個公開穩定的Web在線服務器,為廣大研究者提供便利。

猜你喜歡
?;?/a>賴氨酸密集
耕地保護政策密集出臺
密集恐懼癥
基于5G超密集組網的規劃與設計
2016年第一季度蛋氨酸、賴氨酸市場走勢分析
內源信號肽DSE4介導頭孢菌素C?;冈诋叧嘟湍钢械姆置诒磉_
黃顙魚幼魚的賴氨酸需要量
促?;鞍讓?T3-L1脂肪細胞炎性反應的影響
歐盟等一大波家電新標準密集來襲
云南中醫學院學報(2014年2期)2014-11-07
賴氨酸水楊醛SCHIFF堿NI(Ⅱ)配合物的合成及表征
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合