?

基于LSTM的核小體序列可分類性分析①

2024-01-06 15:02劉建麗周德良
關鍵詞:聚體小體基因組

劉建麗, 周德良, 靳 文

(1.中國地質大學(北京) 水資源與環境學院,北京 100083;2.北京中電易達科技有限公司,北京 100190;3.內蒙古自治區人民醫院,內蒙古 呼和浩特 010017)

0 引 言

核小體是染色體的基本結構單元,主要由組蛋白八聚體、組蛋白HI和核小體DNA構成[1-2]。核小體占據著真核細胞內75% - 90%的基因組,且組蛋白的靜電位阻作用會阻止蛋白質分子與核心DNA的結合[3-4]。核小體定位指組蛋白八聚體在基因組DNA序列上的精確位置[5-6],其對基因轉錄調控、DNA復制與修復和DNA序列的功能及進化等都有著重要的影響[7-9],但核小體定位不是固定不變的,而是可以移動的[10-11]。

遞歸神經網絡(RNN)表現出時間行為且更適合時間序列預測,但由于梯度消失和梯度爆炸問題,RNN無法獲得長程語義環境[12-16]。長短期記憶網絡(long short-term memory network,LSTM)是RNN的擴展[15-17]。與RNN相比,LSTM在隱藏層中添加了輸入門、輸出門和遺忘門,并使用記憶態單元來存儲和獲取長程信息[18-19]。LSTM解決了梯度消失和梯度爆炸問題,并且可以學習時間序列數據的短程和長程語義特征。

本文將酵母2號染色體的核小體序列預處理為時間序列數據,與隨機時間序列數據一起利用LSTM進行迭代訓練和長、短程語義特征學習,然后利用得到的LSTM模型對核小體序列的可分類性進行分析研究,這對于核小體序列智能識別以及核小體定位具有一定的生物學意義。

1 核小體結構

核小體是染色體的基本結構單元[1-2],主要由組蛋白八聚體、組蛋白HI和核小體DNA構成,其中組蛋白八聚體由雙分子的H2A,H2B,H3和H4四種組蛋白組成,是核小體的核心結構;組蛋白HI位于組蛋白八聚體核心之外,其可以使核小體形成穩定結構;核小體DNA平均長約200bp,它們纏繞在組蛋白八聚體外圍,其中纏繞在組蛋白八聚體中心上的DNA稱為核心DNA,它們不易被核酸酶消化,且長約146bp,而連接相鄰核小體的DNA稱為連接DNA,長度約在8~114bp不等。核心DNA纏繞組蛋白約1.75圈,直接將大約7個組蛋白纏繞在其內,而連接DNA結合組蛋白HI共同構成相鄰核小體之間的連接區,核小體的具體結構見圖1。核心DNA可塑性強,易彎曲形成核小體,但連接DNA剛性較強,不易形成核小體。核小體定位指組蛋白八聚體在基因組DNA序列上的精確位置,其并非固定不變,而是可以移動的[5-6,10-11]。核小體定位及其動態性對基因轉錄調控、DNA復制與修復、可變剪切、DNA序列的功能及進化等都有著重要的影響[7-9]。

2 材料和方法

2.1 LSTM

遞歸神經網絡(recurrent neural networks,RNN)是一類表現出時間行為且更適合時間序列預測的神經網絡[13-14]。但由于梯度消失和梯度爆炸問題,RNN無法獲得長程語義環境。為了解決這些問題,長短期短期記憶網絡(LSTM)在1997年被提出[15],其整體結構如圖2所示。LSTM是RNN的擴展[15-17]。相對于RNN,LSTM在隱藏層中添加了輸入門、輸出門和遺忘門,并使用記憶態單元來存儲和獲取長程信息,其中輸入門控制錄入到記憶態單元的信息,遺忘門控制記憶態單元的遺忘信息并保留長程信息,輸出門控制輸出到輸出層的信息。LSTM的前向計算過程可表示如下:

ft=σ(Wf·[ht-1,xt]+bf)

(1)

it=σ(Wi·[ht-1,xt]+bi)

(2)

(3)

(4)

ot=σ(Wo·[ht-1,xt]+bo)

(5)

ht=ot·tanh(Ct)

(6)

圖1 核小體結構

2.2 數據提取與處理

從UCSC中(University of California Santa Cruz, http://genome.ucsc.edu/)下載酵母2號染色體的DNA序列,根據Brogaard[20]等人在2012年獲得的酵母全基因組單堿基精度的核小體定位圖譜,在酵母2號染色體中提取全部核小體序列,最終獲得4593條核小體序列,且每條核小體序列均按核小體中心位點左右各取60bp組成。另外,通過腳本程序生成4593條120 bp長的隨機序列。這樣,我們得到兩類序列:核小體序列和非核小體序列(即隨機序列),以每種序列的80%用作訓練集,余下20%用作測試集。每個序列以1為步長、每兩個堿基為一行放置于一個csv文件內,然后作為時間序列數據基于LSTM進行迭代訓練。

圖2 LSTM的整體結構如圖

2.3 網絡設計和訓練

本文設計的LSTM神經網絡共有3層,即輸入層、隱藏層和輸出層,其中輸入層輸入訓練數據,其節點數為2,由輸入數據包含的堿基個數決定;隱藏層迭代學習時間序列數據的長、短程語義特征,其節點數為160,由反復試驗確定;輸出層輸出學習分類結果,其節點數為2,由結果類別個數決定,具體網絡參數見表1。

表1 LSTM網絡的參數

3 結果和討論

3.1 核小體分類性

對于兩種序列,每種序列的80%用作訓練集,余下20%用作測試集。每個序列以1為步長、每兩個堿基為一行放置于一個csv文件內,被作為時間序列數據。利用LSTM按表1所取參數對訓練集數據進行訓練,然后利用訓練得到的檢測模型對核小體序列測試數據進行測試,得到的較好的測試結果,準確率高達92.67%,如表2。

表2 核小體序列(時間序列數據)檢測結果

同時為了比較時間序列數據和非時間序列數據的識別效果,對于上述提取的兩類序列,仍然是以每類序列的80%作訓練集,余下作為測試集。每個序列整體一行放置于一個csv文件內,并被處理作為非時間序列數據。利用RNN按表1所取參數對訓練集數據進行訓練,然后利用訓練得到的檢測模型對核小體序列測試數據進行測試,準確率為76.29%,如表3。

表3 核小體序列(非時間序列數據)檢測結果

從表2可以看到,當將核小體序列作為時間序列數據,并利用LSTM進行特征學習時,對于全部919個核小體測試序列,有852個核小體被正確識別,其中僅67個核小體被錯誤識別,準確率可高達92.67%。然而,當將核小體序列作為非時間序列數據,利用RNN進行特征學習時,對于全部919個核小體測試序列,僅有701個核小體正確識別,準確率只有76.29%。這表明,將核小體序列預處理為時間序列數據,不僅可以學習核小體序列數據的短程語義特征,同時可以學習核小體序列數據的長程語義特征,從而有利于提高檢測模型性能。然而,將核小體序列作為非時間序列數據進行處理時,只能學習核小體序列數據的短程語義特征,核小體序列的識別準確率也就只有表3的76.29%。

上述分析結果表明,將核小體序列預處理為時間序列數據,利用LSTM神經網絡可以實現核小體序列的高準確度識別。也就是說,只要合理地預處理核小體序列,并選擇合適的神經網絡,核小體序列是具有高度可分類性的。核小體序列主要由A,T,C和G四類堿基構成,人工設計核小體序列與非核小體序列之間的區分特征會非常困難。本文使用LSTM神經網絡實現了核小體序列的高準確度識別,這充分說明核小體序列與非核小體序列之間具有不同的分類特征,而LSTM模型則能夠通過迭代訓練學習獲得它們之間的區分特征,這不僅為核小體序列的可分類性奠定了堅實的基礎,同時也再次充分說明核小體序列具有高度的可分類性。

3.2 核小體分類性的意義

上述分析表明核小體序列具有高度的可分類性,這種可分類性無論對其本身,還是對于核小體定位來說,都具有重要的意義,詳述如下:

核小體序列的高度可分類性,直接否定了核小體與非核小體序列之間的模糊性或不可區分性。這個結果說明,如果有1萬條核小體序列和1萬條非核小體序列,將2萬條序列隨機打亂,即便從中任意選擇兩條序列,核小體與非核小體之間的可分類性都不可能趨于模糊。從另外一個角度說,核小體與非核小體序列之間可以高度相似,但不可能100%相同,而是兩類序列各自具有獨一份的身份特征[23],這對于基因組DNA序列的功能、表達與調控或許具有重要的意義。

2)核小體定位指組蛋白八聚體在基因組DNA序列上的精確位置。通過核小體序列的高度可分類性,可以實現核小體序列與非核小體序列的判斷識別[21-22],如果某段序列識別判斷為非核小體序列,則可以認定該位置非核小體定位位置,從而可以有利于更準確的判斷核小體在基因組DNA序列上的精確定位,這對于核小體定位以及基因轉錄調控、DNA復制與修復和DNA序列的功能及進化等具有重要的意義。

3)核小體定位并非固定不變,而是可以移動的,并且核小體占據著真核細胞內75% - 90%的基因組。因此,通過不同核小體序列的高度可分類性,或許可以在整條染色體DNA上逐一識別確定核小體序列與非核小體序列[21-22],其中核小體序列的連接區間就是核小體在基因組DNA上的移動區間,這對于核小體定位的動態性以及基因轉錄調控、DNA復制與修復和DNA序列的功能及進化等或許具有重要的意義。

在接下來的工作中,會提取酵母全部染色體的核小體序列進行進一步的核小體序列可分類性分析,同時會根據核小體與非核小體序列之間的可分類性,對酵母每條染色體上的核小體動態移動區間進行分析與判斷,相信這樣的工作或許對核小體定位及其動態變化的研究分析具有一定的意義和價值。

4 結 語

LSTM可以學習時間序列數據的短程和長程語義特征,具有很好的識別分類性能。本文將酵母2號條染色體的核小體序列數據預處理為時間序列數據,然后與非核小體序列(同為時間序列數據)一起利用LSTM進行迭代訓練和特征學習,得到的LSTM模型對核小體序列可以實現92.67%的識別準確率,相較RNN方法提高了16.38%,從而實現了核小體序列的高準確識別。這個結果表明,核小體序列與非核小體序列具有不同的分類特征,也就是說,核小體序列是具有高度可分類性的。

核小體序列的高度可分類性,否定了核小體序列與非核小體序列之間的模糊性或不可區分性,這對于基因組DNA序列的功能、表達與調控或許具有重要的意義。同時,核小體序列的高度可分類性,可以實現核小體序列與非核小體序列的判斷識別,這對于核小體定位及其動態性,以及基因轉錄調控、DNA復制與修復和DNA序列的功能及進化等的研究具有重要的生物學意義。

猜你喜歡
聚體小體基因組
PET熔融縮聚與溶液解聚形成環狀低聚物的對比分析
牛參考基因組中發現被忽視基因
一種優化小鼠成纖維細胞中自噬小體示蹤的方法
川崎病患兒血清學D-2聚體與C反應蛋白表達分析
炎癥小體與腎臟炎癥研究進展
苯丙氨酸解氨酶印跡交聯酶聚體的制備及部分催化性能研究
以粗孔微球硅膠為核芯的交聯酶聚體的制備
NLRP3炎癥小體與動脈粥樣硬化的研究進展
細胞漿內含有Auer樣桿狀小體的骨髓瘤1例
基因組DNA甲基化及組蛋白甲基化
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合