?

DBN在蛋白質編碼區識別問題中的應用研究

2020-02-18 15:20胡青渝劉廣臣
計算機工程與應用 2020年4期
關鍵詞:置信外顯子神經元

胡青渝,劉廣臣

1.魯東大學 數學與統計科學學院,山東 煙臺264025

2.重慶大學 數學與統計學院,重慶401331

1 引言

目前人類基因組的全部序列已陸續測定完成,人類獲取了大量的生物信息序列,并且隨著外顯子生物技術的不斷發展,需要預測的DNA序列也在不斷增加,而DNA序列中的堿基排序又十分復雜,人們想要快速又準確地獲取所需要的信息十分困難。因此,如何對大量的DNA序列進行預測和分類是當代生物科學領域重要的研究課題。在過去的二十多年中,基因組序列的測定吸引了許多研究者的注意,幾十種蛋白質編碼區的預測方法被提出[1]。對于眾多的編碼區識別算法,根據其構造機理不同,可以分為兩類[2-4]:依賴模型和不依賴模型。依賴模型又稱為基因相似性識別算法,是以歷史的基因數據作為標準,創建有標識的標準基因數據庫,再根據標準基因數據庫對待識別的DNA序列進行相似性識別。這種方法的準確度較高,但是對待識別的DNA序列要求十分嚴格。它要求待識別序列與標準數據庫中的樣本具有較高的同源性,而對于同源性低或者非同源的序列則無法識別?;诖?,越來越多的研究者將目光轉向了不依賴模型,也可稱為基于統計模型的識別算法。這類方法主要建立在成熟的統計分析上,具有扎實的數據理論支撐,所獲得的研究成果也遠遠超過依賴模型。目前較為成熟的統計模型識別算法有:Henderson和Agoes提出的隱馬爾可夫模型[5]、Gelfand等提出的拼接對齊算法[6]、Howe提出的動態規劃[7]、Dong等提出的語言學方法[8]、Uberbacher等提出的神經網絡模型[9]、Zhang提出的線性判別分析[10]、Zhu等提出的多元熵距法[11]、Kotlar等的傅里葉分析法[12]、王飛宇等提出的基于全相位頻譜分析基因識別算法[13]等。

根據已有文獻可以看出,對于蛋白質編碼區的識別方法雖然十分豐富,但大部分的識別算法都是建立在傳統方法的基礎上,它們有各自的適用對象,并且都還存在一些難以解決的問題。例如:編碼區定位過界,找不到終止信息,將非編碼區識別為外顯子,對于較長序列的識別能力較低以及處理效率低等問題。面對當下龐大的基因數據以及不斷提高的研究需求,許多算法因無法滿足要求而被逐步取代。針對這個問題,2001年華盛頓大學開發了用于真核生物蛋白質編碼區預測的TwinScan軟件[14],它主要通過與已知的基因組序列的比較來判定待預測序列,這個方法被廣泛用于哺乳動物、線蟲和酵母菌等。2002年Mathe[15]提出在蛋白質編碼區的識別問題中,要合理結合多種判定預測方法,對于各種方法取長補短,從而提高組合算法的識別精度?;诖?,2004年Allen等[16]將動態規劃法和二次判別分析等多種算法相結合,通過實驗發現,該方法顯著提高了識別模型的準確度。在此之后,2006年Wei和Brent[17]將TwinScan和EST相結合,提出了TwinScan_EST系統。TwinScan_EST的敏感度和特異性都優于TwinScan系統。這些結合算法使得模型對蛋白質編碼區的識別更加準確,但也讓實驗變得更加復雜,對計算機的內存空間耗費較大,從而使得運行速度緩慢。在此基礎上,提出了基于頻譜分析的編碼區識別算法。其關鍵技術是通過某些數值映射,把基因序列的堿基字符映射成數值,然后通過傅里葉變換去判斷外顯子所在位置。Rogic和Voss等觀察發現經過傅里葉變換后的頻譜序列在蛋白質編碼區有明顯峰值出現,在非編碼區則沒有這一表現[18-19]。此后,Tiwari證實了該推論,也就是蛋白質編碼區存在3-周期性。

外顯子的3-周期性被提出后,基于頻譜的分析方法被不斷提出?;陬l譜分析方法的實質是通過某種數值映射方法將DNA的堿基序列映射成數值序列。2011年Sharma等對比分析了各種映射方法的構造原理[20],并對常用的12種映射方法進行了概述。其中最常見的是Voss映射,它的優點是算法的輸出結果與DNA序列特征量的真實值是一致的,但是Voss映射通常用于長度為3的整數倍的序列,且效率較低,資源損耗較高。其他使用較廣的方法還有Z_curve映射,它的復雜程度相對較低,但對于長度不是3的整數倍序列,它的識別效果并不理想,并且它的輸出結果不能展示相應特征向量的真實值。在近幾年的蛋白質編碼區識別中,許多學者還提出了一些新的數值映射方法,但它們都存在各自的缺陷和弊端,如識別精度不高,識別效率較低,輸出結果無法直接給出準確判斷,外顯子內含子識別不夠準確,噪聲數據算法不穩定等。

根據以上分析,可以發現目前許多結合算法依然無法做到多方兼顧,它們大多是從模型疊加或組合以及創新映射方法等角度去提高識別模型的準確度,很少從組合模型結構上進行優化。而真核生物的蛋白質編碼區往往具有序列長,結構更復雜(如圖1所示,不僅有編碼區和非編碼區,而且編碼區中的外顯子和內含子一般會間隔出現),編碼區占比較大等特點。因此,面對龐大又復雜的DNA序列,從結構上對組合模型進行優化是十分必要的。深度置信網絡則可以從結構上解決蛋白質編碼區識別過程中,特征信息提取不全,分類預測不準確以及實驗效率低等問題[21]。

圖1 真核生物的蛋白質編碼區圖示

深度置信網絡主要通過組合底層的基礎特征形成抽象的高層屬性類別特征,從而發現數據的分布式特征的智能學習方法[22]。它可以根據問題的復雜程度,構建層數和每層神經元數目不同的網絡模型,它的實質是通過大量的訓練數據和構建多層限玻爾茲曼機來學習有用的特征,從而提升模型的分類和預測能力。深度置信網絡強調了模型結構的深度,突出了特征學習的重要性,通過逐層特征變換,將樣本在原有空間中的特征變換到一個新的特征空間,從而使得分類預測更加容易,同時還提高了分類預測的效率[23]。與傳統的僅使用人工構造的規則來提取編碼區特征的方法相比,深度置信網絡利用大數據來訓練模型,從而獲得編碼區特征,該特征能夠更詳細準確地刻畫數據的豐富內在信息。

基于此,本文提出了可以綜合多種數值映射方法,并且能夠更加準確地判別預測和定位蛋白質編碼區的組合識別模型。它主要通過多層玻爾茲曼機進行特征降維,并提取影響編碼區識別的關鍵因素,并在深度置信網絡最后一層加上神經網絡判別分類器,實現對蛋白質編碼區的判別和預測。通過實證表明,基于深度置信網絡的非監督方法能夠在一定程度上提高蛋白質編碼區識別問題的預測精度,提高組合模型的有效性和實用性,同時還大大降低了訓練模型的復雜程度。這對于真核生物蛋白質編碼區的識別問題具有十分重要的意義。

綜上所述,本文的主要工作是對復雜的真核生物蛋白質編碼區結構中的外顯子和內含子進行判別和定位,并且充分利用深度置信網絡的結構優勢來提高識別模型的準確度和實驗效率。模型的具體構造過程如下:

(1)利用信號轉換算法將復雜的DNA字符串轉變為數值序列,也就是將四種堿基轉換成數值形式,然后再結合基礎統計學方法對這些數值序列進行特征提取。

(2)由于特征數量眾多,并且某些特征存在相關性,利用隨機森林的方法對眾多特征進行變量選擇。

(3)將提取出的特征集作為判別變量,已知的編碼區判別結果作為判別目標來構建深度置信網絡模型,最后將經過數值轉換的DNA序列分為訓練集和測試集對模型進行訓練和測試。

2 數據的采集與預處理

2.1 數據的采集

對于蛋白質編碼區的識別問題,本文主要是對真核生物的DNA序列進行判別分析,因此使用的數據也是真核生物的DNA序列,包括BG570、HMR195以及GENSCAN65數據。數據的主要來源是BG570數據集(http://www1.imim.es/databases/genomics96/),HMR195數據集(http://www.cs.ubc.ca/~rogic/evaluation/),GENSCAN65數據集(http://www.ncbi.nlm.nih.gov/nuccore/FO081497),這里統稱它們為原始數據。因為原始數據中有部分DNA序列是小于20bp的,這些數據包含的信息是不全面的,所以本文首先將這些數據從數據集中剔除,然后從原始數據中選取長度為20bp以上的外顯子和內含子。新建的基本數據集中外顯子和內含子的個數如表1所示。

表1 剔除信息缺失序列后的外顯子和內含子數據分布表

2.2 數據的預處理

為了能夠使深度學習算法對真核生物蛋白質編碼區進行分類和預測,首先需要對DNA序列進行數值化映射,也就是將DNA字符序列轉換為數值序列,然后再提取這些數值序列的數字特征,最后將這些數值序列作為訓練數據輸入到深度置信網絡模型中對DNA序列進行分類訓練。

近年來,DNA譜分析技術已被引入蛋白質編碼區識別的研究中,這類算法主要利用數字信號處理技術,通過計算比較蛋白質編碼區和非編碼區的功率譜密度信噪比曲線的特征,例如三周期特性等差異來進行編碼區識別。這類方法并沒有利用傳統的序列對比思想,如BLAST,因此稱它為非序列比對特征提取。非序列比對特征提取主要包括兩個階段:一是對DNA序列進行數值化映射;二是提取DNA數值序列的特征。

2.2.1 DNA序列的數值化映射

本文主要采用信號處理技術對DNA序列進行數值轉換。本文所采用的信號處理技術[24-25]主要可以分為兩種類型:第一類是K字符相對頻率技術,K字符指的是DNA序列中長度為K的連續核苷酸片段,例如K=1表示核苷酸A、C、G、T;K=2是指AA,AC,…,TT,以此類推。第二類是重編碼技術,包括8種固定映射技術[26-27],7種基于物理化學性質的映射方法[28-29],4種基于DNA圖表達的長程相關性方法[30]。映射公式如表2~表4所示。

表2 固定映射技術公式表

表3 基于物理化學性質的映射方法公式表

表4 基于DNA圖表達的長程相關性方法公式表

2.2.2 DNA序列的特征提取

本文通過2.2.1小節將DNA字符序列轉換為數值序列,若要實現深度置信網絡模型對蛋白質編碼區的分類預測,還需要從這些數值序列中提取出數字特征,進而構成訓練集和測試集。下面著重介紹本文所采用的特征提取方法以及所提取出的數字特征[31]。

(1)基于K-tuple的數值特征提取

以K=2時GT的相對豐度為例,進行數值特征的提?。?/p>

其中,fG、fT、fGT分別代表核苷酸G、T和雙核苷酸GT在基因片段中的頻率。相似的,可以根據相對豐度的公式及其推廣來計算其他情況下的相對豐度。對于較長的DNA序列,提取出的K-tuple數量將自動地隨序列數量的變化而變化,即由min(Si)來確定,這將決定不同長度的序列所提取的數值特征的準確性及最終預測的準確性。

綜上所述,利用相對豐度可以提取到85個數值特征。

(2)基于重編碼的數值特征提取

根據不同的重編碼技術,可以獲得不同的數值映射結果,具體方法已在數值化映射中做出了闡述,對于這些不同的重編碼技術獲得的數值序列,將采用計算各階矩的方法進行特征提取。根據重編碼器獲得的數值特征可以分為兩類:一類是實數類重編碼技術的數值特征提??;另一類是復數類重編碼技術的數值特征提取。

對于實數類重編碼技術的數值特征提取,首先是Voss方法,它具有良好的特征表達作用,這也使它成為了基因組譜分析中最著名的數值映射技術。對于Voss變換后的數值序列,通過計算其一、二、三階矩的方法來提取數值統計特征,總共得到了12個特征。其次對于實數類序列,計算其他常用特征,如均值、標準差、偏度值和峰度值,并得到了88個特征。最后通過計算各實數序列的Hurst指數來對數據的特征進行提取。Hurst指數是英國水文學者Hurst在研究尼羅河水文時基于R/S法提出的一種用來刻畫時間序列相關性的指標,后來成功被引入來比較DNA序列的相似性。利用該方法可以獲得24個特征。

對于復數類重編碼技術的數值特征提取,經過快速傅里葉變換得來的復數序列,可以計算其傅里葉系數的平方值序列,然后計算其功率譜均值,這樣一共可以得到28個特征。

綜上所述,利用重編碼方法一共可以獲得152個特征。而經過計算K-tuple的相對豐度和重編碼計算的各類數值特征提取,一條無論長度為多少的DNA序列都可以用一條長度為85+152=237的數值特征序列來代替,不過這237類數值特征可能存在共線性或對編碼區識別的不顯著性,因此下文將會用到隨機森林的方法來消除具有共線性和不顯著性的特征變量。本例共有7 081條不同長度的DNA序列,經過上述轉換和特征提取后,將會得到7081×237的數字矩陣,稱為原始特征矩陣,矩陣的行向量表示原始的DNA序列,列向量表示每條DNA序列的一個數值特征。具體矩陣如表5所示。

2.3 基于隨機森林的特征子集選擇

根據上文可知,經過特征提取一共獲得了152個特征變量,而這些變量中不乏許多噪音,也就是對DNA序列的判別沒有顯著性關系的特征,這些特征非但不能幫助模型識別蛋白質編碼區,反而會干擾模型的判別能力,因此考慮對152個特征進行降維。由于這些數值特征是離散的,并且無法通過理論分析判斷它們與模型識別效果的相關程度與重要性,本文考慮利用隨機森林對特征變量進行降維選取。隨機森林是一種集成機器學習算法[31-33],它可以利用隨機重采樣技術(bootstrap)和節點隨機分裂技術構建一片由決策樹組成的森林,并且讓這片森林里的所有決策樹都參與投票,計算出每一個特征變量的重要程度值,最后根據計算所得的重要性對這些特征進行排序。相較于其他降維方法,隨機森林在對變量進行選擇時具有以下優勢:

表5 DNA數值特征表

(1)對于DNA序列這種變量數據集較多的數據精確度較高。

(2)不易發生過擬合的現象,這對于模型在測試集上的預測效果有重要的意義。

(3)可以處理離散化的數據,因此對于種類眾多的基因特征數據,無需進行歸一化處理就可以選出與DNA判別具有顯著關系的變量特征。

(4)具有良好的處理缺失數據的能力,由于使用的DNA序列集中序列長度并不是一定相等的,就算去掉長度小于20bp的序列,仍會在特征提取時存在特征數據不全的情況。而隨機森林這一特性則很好地解決了這個問題。

(5)最重要的一點是它不但可以對特征變量進行降維,還可以得到特征變量的重要性排序,這對人們選擇進入深度置信網絡判別模型的初始特征變量提供了十分重要的理論依據。

(6)具有以上優點的隨機森林的實現并不復雜,且容易并行化,這在構建組合模型時大大提高了模型的判別和預測效率。

基于此,本文利用R語言中的RandomForest包實現了特征變量的提取,計算出了每個特征變量的得分,并根據其重要性排序選出了前50%的變量,即119個變量,放入判別模型中。

圖2展示了得分較高的30個特征變量,其中得分最高的特征變量為V 129,最后選定了前50%的特征變量放入深度置信模型中,實現了對特征變量的降維。利用隨機森林對特征變量進行降維,首先可以剔除無關變量或者與模型顯著性關系較小的變量,降低由無關特征變量引起的噪聲對模型判別效果的影響;其次提升了特征變量的可解釋性,并且特征變量的減少還提高了組合模型的實驗效率;最后將處理后的特征變量作為初始變量放入深度置信網絡中,可以使模型更有效地習得識別蛋白質編碼區的方法,從而提高模型的判別和預測能力。

2.4 確定訓練集和測試集數據

圖2 部分重要變量得分曲線圖

為了更好地對深度置信模型進行訓練,將原始數據集分為兩部分,一部分作為訓練集,另一部分作為測試集,其中前70%的數據作為測試集,后30%的數據作為訓練集。具體數據分布如表6所示。

表6 訓練集和測試集數據分布表

3 真核生物蛋白質編碼區識別模型的建立3.1 構建深度置信網絡模型

深度置信網絡(Deep Belief Network,DBN)是深度學習方法中的一種常用模型[34-35],也是神經網絡的一種。深度置信網絡既可以用于非監督學習,將它看作一個自動編碼器;也可以用于監督學習,將它看作一個分類器。本文主要將深度置信網絡作為分類器來使用,首先通過無監督學習框架得出特征向量,然后再將特征向量賦給神經網絡(Artificial Neural Network,ANN)模型完成分類。

深度置信網絡是由多個限波爾茲曼機(Restricted Boltzmann Machine,RBM)模型構成的。RBM是由神經網絡所衍生出的一種感知器,主要由顯層和隱層兩部分構成,其中顯層和隱層的神經元為雙向鏈接。任意兩個相連神經元之間的鏈接強度由權重W表示;對于每一個顯層神經元都有一個偏置系數b用來表示它的自身權重;對于每一個隱層神經元也都有一個偏置系數c用來表示它的自身權重。

RBM的能量函數為:

其中,h表示隱層神經元(hidden),v表示顯層神經元(visible)。

RBM中隱層神經元被顯層神經元激活的概率函數為:

RBM中顯層神經元被隱層神經元激活的概率函數為:

因為同層神經元之間是相互獨立的,所以它們的概率密度也是相互獨立的,由此可以得到:

當給顯層神經元輸入一列數據后,RBM可以根據式(3)計算出每個隱層神經元被激活的概率P(hj|x),j=1,2,…,Nh,取閥值μ為0~1的隨機數,概率大于該閥值的隱層神經元被激活,否則不被激活,判別式為:

由此可以判斷隱層的每個神經元是否被激活。若賦值給隱層,顯層的神經元是否被激活的計算方法也是一樣的。

3.2 對限波爾茲曼機(RBM)模型的訓練

RBM中共有5個參數h、v、b、c、W,其中v是輸入向量,h是輸出向量,b、c、W是相應的權重和偏置值,是通過數據學習得到的。對于一系列樣本數據x,主要采用對比散度的算法進行訓練[36]。

(1)將一系列數據x賦給顯層v1,然后利用式(3)計算出每個隱層神經元被激活的概率P(hj|x),j=1,2,…,Nh;

(2)從這些計算得出的激活概率分布中采用Gibbs方法抽取一個樣本集:h1~P(h1|v1);

(3)利用隱層神經元h1重構顯層,即通過隱層反推顯層,可以通過式(4)計算出顯層中每個神經元被激活的概率:P(v2|h1);

(4)從計算得到的激活概率分布中再利用Gibbs抽樣法抽取一個樣本集:v2~P(v2|h1);

(5)通過v2再次計算每個隱層神經元被激活的概率,得到的概率分布為:P(v2|h1);

(6)更新權重:

經過反復的訓練后,隱層神經元不但能較為準確地顯示出顯層神經元所包含的特征,并且還能夠還原顯層信息。當隱層神經元數量小于顯層神經元數量時,就會起到“壓縮數據”的效果。

最后將若干個RBM“串聯”起來就能構成一個深度置信網絡,其中上一個RBM的輸出層也就是下一個RBM的輸入層,上一個RBM的隱層即為下一個RBM的顯層。在整個訓練過程中,對上一層的RBM進行充分訓練后才能接著訓練當前層的RBM,直到最后一層。

3.3 深度置信網絡模型的求解

3.3.1 分類結果及分析

對于模型的實現本文采用加拿大多倫多大學Ruslan Salakhutdinov和Geoff Hinton的軟件包[35-36],利用訓練集對模型進行訓練,然后利用測試集對模型進行了誤差分析。本文所用的數據集一共包含7 081個樣本,需要判別的類型有外顯子和內含子兩類。本文將70%的數據作為訓練集,30%的數據作為測試集。

首先利用訓練集對深度置信網絡模型進行無監督訓練。本文所構建的深度置信模型由4個RBM模型“串聯”而成,因此模型分為4層,根據Kolmogorov定理確定每層所含隱藏神經元個數分別為119,50,50,200。本文列出了深度置信網絡里每層神經元的輸出結果,也就是每層神經輸出的特征向量。具體結果如表7所示。

最后將深度置信網絡無監督學習得來的特征向量放入深度置信網絡的分類器中,本文所用的分類器是神經網絡分類器,由此可以得到蛋白質編碼區的預測結果。根據放入測試集的分類標簽可知,當預測結果為1時,該測試序列被模型判別為外顯子,當預測結果為2時,該測試序列被模型判別為內含子。對比DNA序列原有的分類標簽,可以得出本文提出的深度置信網絡模型的準確率為83.43%。

3.3.2 對比分析

為了進一步驗證深度置信網絡對蛋白質編碼區識別問題的準確度,還運用了傳統的Logistic回歸分類器和貝葉斯判別法對蛋白質編碼區進行了判別分析。具體預測結果分析如表8所示,其中正確率為外顯子被正確預測的比率;靈敏度為所有實際外顯子中被正確預測為外顯子的比例;精確率為預測為外顯子的序列中真正為外顯子的比例;特異度為所有真實的內含子序列被正確預測為內含子的比例。由于靈敏度和精確率兩個指標有時會出現方向不同的結果,因此引入F得分,即靈敏度和精確率加權后的調和平均。根據以上五種評價指標[31]可以看出,相比于利用傳統的Logistic回歸和貝葉斯判別法對蛋白質編碼區進行識別,本文所使用的深度置信網絡對蛋白質編碼區具有更好的識別功能,也就是說,本文所使用的深度置信網絡模型能夠從眾多的DNA序列數據中提取出有效的信息對外顯子和內含子進行識別。

表7 DBN每層特征向量的輸出結果展示

表8 三類判別分析的結果分析指標表 %

3.4 預測結果分析

為了更加準確地判斷組合模型的識別效果,本文以測試DNA序列的前5條為例,由于每條測試序列中既包含編碼區也包含非編碼區,且它們一般是無規律間斷出現的,本文采用了一個移動平滑框對序列進行截取。圖3是移動平滑框截取DNA序列的模擬圖。

圖3 移動平滑框截取DNA序列的模擬圖

如圖3所示,數據框沿著測試DNA序列滑動,位于數據框結尾位置的堿基為C,數據框中包含有堿基C及其上游的一共250個堿基。如果被截取的序列被模型判定為外顯子,則說明堿基C之前的250個堿基構成的序列被判定為外顯子,此時模型的輸出值為“1”。然后數據框將沿著DNA序列向前移動一個堿基,此時數據框結尾處的堿基為G,若此時模型的輸出值為“1”則說明堿基G也為外顯子,若模型的輸出值為“2”則說明堿基G被模型判定為內含子中的堿基。以此類推,一條長度為N的DNA序列可以被切分成N-249條測試序列放入模型中進行判別,從而確定該條序列中外顯子和內含子的具體位置和數量。本文所采用的5條測試序列長度分別為2 176、4 775、13 054、7 658、3 967。為了更清晰地展示本文所提出的模型對蛋白質編碼區的預測效果,利用混合矩陣將預測值和真實值進行比較,結果如表9~表13所示,其中1表示外顯子,2表示內含子。

表9 第一條DNA序列混淆矩陣對外顯子識別結果

表10 第二條DNA序列混淆矩陣對外顯子識別結果

表11 第三條DNA序列混淆矩陣對外顯子識別結果

表12 第四條DNA序列混淆矩陣對外顯子識別結果

表13 第五條DNA序列混淆矩陣對外顯子識別結果

通過查看表9~表13對角線上的數據可以看出,在DNA測試序列上本文所提出的組合模型的判別效果是比較準確的,被錯誤判斷的序列占比較小。

為了更加直觀地評估模型的性能,在混淆矩陣的基礎上分別計算了5條測試序列的準確率、靈敏度、精確率、特異度以及F得分。具體結果如表14所示。

表14 5種評價指標得分表 %

根據表14的5種指標可以看出,利用移動平滑框結合深度置信網絡對DNA序列中的蛋白質編碼區進行預測是可行的,并且準確率較高。并且對于不同的DNA序列,模型識別的精確程度有小范圍的不同,但準確率都基本維持在98.48%左右。評測了模型的預測效果后,考慮如何對內外顯子進行準確定位,本文主要采用了短時傅里葉變換技術(Short Time Fourier Transform,STFT)對編碼區進行準確定位。

最后,為了更清晰地看出模型所預測的蛋白質編碼區所在區域位點,本文采用了STFT定位技術來對DNA測試序列的深度置信網絡判別模型輸出值進行分析。STFT是一種常見的時頻分析方法,通過一個時間窗口內的一段信號來表示某一時刻的信號特征,也就是把深度置信網絡模型的輸出值和窗函數相乘,然后進行一維傅里葉變換,再通過窗函數的滑動得到一系列的頻譜值,將這些結果映射到坐標軸上便得到一個二維的時頻圖。結果發現外顯子和內含子通過DBN輸出的頻譜值差別是很大的,那么找到頻譜出現變化的起始點,也就找到了蛋白質編碼區,即外顯子的確切位置。

本文以測試集的前5條DNA序列為例,將深度置信網絡模型的輸出值輸入STFT模型中對編碼區進行定位,由此可以得到不同DNA序列的時頻譜在位置軸上的投影,如圖4所示。從圖中可以看出,外顯子區域和內含子區域在固定頻率上是不一樣的,也就是說在位置軸上投影的幅頻特性有明顯區別。因此根據DNA序列的STFT時頻分析,可以確定出編碼區的位置,其中峰值為2的是內含子所在區域,峰值為1的為外顯子所在區域。

圖4 5條測試DNA的時域波形圖

根據圖4可以看出,藍線代表DNA序列的真實位點,紅線代表DNA序列的預測位點,它們時域圖重合的部分表明模型正確預測內外顯子的位點,反之則預測有誤。從圖中可以看出,本文提出的基于深度置信網絡的組合識別模型的判別能力較強,預測的位點也比較準確。

4 總結

本文著重探討了如何利用生物統計學方法從真核生物DNA序列中識別出蛋白質編碼區域,主要闡述了對DNA序列的數值轉換、特征變量的提取、特征變量的降維以及對DNA序列的分類預測和對蛋白質編碼區的準確定位。本文涉及了多種生物統計學方法,其中包括信號處理技術、重編碼技術、隨機森林、深度置信網絡以及STFT定位技術。將深度置信網絡模型運用到蛋白質編碼區的識別問題,突破了傳統蛋白質編碼區識別技術的壁壘。為了更好地證明模型的可行性,本文還利用了Logistic回歸模型和貝葉斯判別模型與深度置信網絡模型進行了對比,最后發現基于深度置信網絡模型的蛋白質編碼區識別技術在各項指標的評定下具有更好的實證效果,這對于生物信息學的研究起著十分重要的作用。

猜你喜歡
置信外顯子神經元
外顯子跳躍模式中組蛋白修飾的組合模式分析
融合有效方差置信上界的Q學習智能干擾決策算法
基于模糊深度置信網絡的陶瓷梭式窯PID優化控制
外顯子組測序助力產前診斷胎兒骨骼發育不良
外顯子組測序助力產前診斷胎兒骨骼發育不良
躍動的神經元——波蘭Brain Embassy聯合辦公
基于深度置信網絡的近距空戰態勢評估
ERK1/2介導姜黃素抑制STS誘導神經元毒性損傷的作用
毫米波導引頭預定回路改進單神經元控制
側腦室注射DIDS對缺血再灌注腦損傷大鼠神經元凋亡的拮抗作用
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合