?

微生物宏基因組數據分析方法研究進展

2020-12-23 10:57趙圣國王加啟
微生物學雜志 2020年5期
關鍵詞:基因組測序數據庫

李 敏, 趙圣國, 鄭 楠, 王加啟*

(1中國農業科學院湖北北京畜牧獸醫研究所 動物營養學國家重點實驗室,北京 100193;2.華中農業大學動物科技學院 動物醫學院,湖北 武漢 430000)

微生物主要包括細菌、真菌、古生菌和原蟲等,是生態系統中不可缺少的一部分。微生物不論對人類還是動植物的營養健康、行為活動都起著重要的作用。近年來,腸道微生物與宿主之間的關系成為研究熱點。人體腸道微生物可以影響人的生長發育和健康疾病,對人們的生活至關重要[1]。通過對動物腸道微生物的研究發現,反芻動物微生物在維持宿主的能量代謝、營養吸收和生理性能等方面發揮著重要作用[2]。 微生物宏基因組是指全部微生物遺傳物質總和,它包含了可培養微生物和不可培養微生物基因,最早是在1998年由Handelsman等[3]研究土壤微生物提出的,通過宏基因組的克隆獲得了土壤微生物群落的全部基因集,數據分析表明土壤宏基因組中所包含的遺傳多樣性揭示了編碼自然產物中化學多樣性的新水平。近年來,隨著測序技術的不斷進步,大量不同環境條件下的宏基因組數據也陸續被報道。2008年,研究者利用海洋環境中的宏基因組樣本,獲得了具有生物技術潛力的蛋白質編碼基因,從而能夠比以前更大程度地利用巨大的、尚未開發的海洋微生物多樣性資源[4]。2009年,美國國立研究院發起的人類微生物組計劃(HMP)公布了大量高質量宏基因組數據供科學界使用,宏基因組數據的產生使人們獲得的信息量更多,并且取代了16S rRNA 數據成為新的研究熱點,但是就當時而言,處理和分析此類數據的軟件并不成熟[5]。由于宏基因組學研究的興起,越來越多的研究者致力于開發用于數據分析的軟件和工具,并在準確性和精確度上有了很大的提高。宏基因組數據的分析使人們對微生物的多樣性、群落功能以及微生物與環境之間的關系有了更全面的了解。隨著高通量測序技術和生物信息學的發展,微生物宏基因組數據分析的研究方法已經十分豐富,其基本流程如圖1所示。本文著重討論了宏基因組數據分析的方法及使用軟件,具體內容主要包括以下六個部分:質量控制、組成分析、序列組裝、序列分箱、基因預測和功能分析。系統概述了當前微生物宏基因組數據分析的基本流程和使用軟件(表1),對宏基因數據分析工具及軟件的優缺點和適用范圍進行了總結,為研究者快速篩選分析方法,揭示數據背后的生物學意義提供參考。

圖1 宏基因組數據分析流程圖Fig.1 Workflow for metagenomic data analysis

表1 宏基因組數據分析相關軟件

續表1

1 質量控制

宏基因組的測序數據是由大量來自不同微生物的短reads組成,進一步分析前需要對序列進行質量控制(quality control, QC)。質量控制主要包括兩個部分:去噪和去宿主序列。去噪是指剔除低質量的堿基和殘留的人工序列,這些序列會降低微生物組成分析的準確性,影響denovo組裝[6]。目前常用于去噪的軟件包括Trimmomatic[7]、PRINSEQ[8]、FASTX-Toolkit等。Trimmomatic是一種更加靈活、高效的預處理工具,它可以剪切引物、低質量的堿基和序列,并將序列剪切到一定長度且不干擾下游序列的分析,是一個專門針對Illumina的輸出而設計的工具;PRINSEQ除了可以剪切序列和堿基外,還可以通過GC含量過濾序列,對序列進行匯總統計;FASTX-Toolkit與Trimmomatic的質量控制功能相似,FASTX-Toolkit可以對序列進行匯總統計,但是產生結果的質量不如Trimmomatic。

宿主序列會引起微生物序列組裝錯誤,影響分析結果的準確性。Ward 等[9]在人的母乳和糞便樣本中,發現人類DNA序列分別達到了宏基因組文庫的64%和77%,這也進一步說明了去宿主序列的必要性。常用的工具包括MG-RAST[10]、TopHat2[11]等。MG-RAST 是基于Web界面分析的軟件,而TopHat2是利用計算機將序列映射并與參考基因組比對的軟件,需要有較高計算能力的計算機,而MG-RAST不需要。這兩種軟件均可用于牛瘤胃微生物宏基因組和轉錄組中DNA和RNA的過濾。

2 微生物組成分析

宏基因組數據分析主要包括組成分析和功能分析。微生物組成分析是基于宏基因組或轉錄組進行分類,并進一步分析微生物的豐度、種類等信息。對微生物種類分析主要有三種方法:16S RNA分析、全基因組分析、Marker基因分析。16S RNA分析可以有效地反應不同微生物群落的組成特征。SortMeRNA[12]是基于16S RNA分類的軟件,可以快速整理所有與rRNA數據庫匹配的片段并對多個序列進行排序,但是它很難檢測低豐度的微生物,分析過程也較為復雜。全基因組包含了微生物菌群的所有遺傳信息,通過全基因組分析不僅可以揭示微生物的組成特征,還能獲得相關的功能信息,如MEGAN[13]是一個被廣泛應用的軟件,它為宏基因組、宏基因轉錄組、rRNA提供了一種綜合的方法,可以執行多個數據庫的比較,并通過使用InterPro2GO[14]、SEED[15]、KEGG等軟件進行功能分析。Marker基因分析對原始物種水平進行了補充,包括真核、病毒的定量系統,菌株水平的鑒定以及菌株的追蹤,但嚴重依賴于選擇的Marker基因并且不能將物種與功能聯系起來,也無法重構基因組進行組裝,如MetaPhlAn2[16]使用“家族特異”的Marker基因對物種進行分類。Marker基因包括細菌、古菌、真核和病毒,可以實現精準的分類群分配、準確的估計物種的相對豐度和種水平精度,并以超快的分析速度實現株水平的鑒定和追蹤。

3 宏基因組序列的組裝

宏基因組序列的組裝是進行功能分析前重要的步驟。通過測序技術得到的reads較短,需要組裝獲得更長的contigs[17],如果contigs序列過短且出現錯誤,會進一步影響序列分箱、基因預測和功能注釋的準確性。序列組裝一般包括以下步驟:首先輸入一組短的基因序列,通過序列比對計算每對序列的重疊率,將較短的序列合并至較長的序列。目前主要有兩種組裝方式:依賴參考序列的組裝和從頭(denovo)組裝。

3.1 依賴參考序列的組裝

依賴參考序列的組裝是用一個或者多個已知的基因組為參考進行組裝的方法,但是如果序列存在插入、缺失或拷貝數的變化,便無法使用該方法組裝。常用的軟件包括MIRA4[18]、MetaAMOS[19]。MIRA4可以檢測和分類單核苷酸變態性(SNPs),組裝大量高度相似的序列,具有高度特異性和敏感性,但是該軟件只用于mRNA轉錄樣本。MetaAMOS可以檢測基因并識別變異序列,減少組裝宏基因組樣本時的裝配誤差,比MIRA4準確性更高、成本更低。但當宏基因組數據來自新的環境時,受參考基因組數據庫覆蓋能力所限制,這些軟件表現不佳[20]。

3.2 de novo組裝

在沒有已知參考基因組信息的情況下,將序列從頭組裝的過程即為denovo組裝。該組裝方式可以克服未知的瘤胃微生物基因組的瓶頸,因此普遍應用于瘤胃宏基因組的研究。目前新的組裝軟件不斷被推出,組裝的準確性和性能也有所提升。例如:MetaVelvet[21]、Meta-IBDA[22]。Meta-IBDA除可重建較長的contigs外,還可對來自同一物種不同亞種相似的contigs進行比對,這一特點可用來研究不同亞種基因組的結構變異和確定具有亞種生物學功能的保守區。從模擬的數據結果來看,MetaVelvet在目、科、屬等水平上N50評分均高于Meta-IBDA,Meta-IBDA在種水平上特異性較高,整體來看MetaVelvet的表現優于Meta-IBDA。

4 宏基因組序列的分箱

宏基因組學分箱(binning),即將宏基因組測序片段按照物種、亞種或者屬進行分類。分箱是根據基因特征對contigs或scaffolds進行分組,并對重建的基因組進行可視化。分箱的結果不僅可用于物種分類評估,還可以研究基因組內基因間的關聯性,直接影響宏基因組學研究的深度和精確度[23]。根據用于對現有序列進行分組的信息,宏基因組分箱可以分為兩種,即基于參考數據庫分箱和無參考數據庫分箱。

基于參考數據庫分箱的原理是與參考數據庫中的序列比對,對序列進行分類。Huson等[24]開發的 MEGAN是最早使用該原理的分箱軟件。使用該軟件分箱之前應利用BLAST[16]或其他比對工具將基因序列與已知序列數據庫進行比較,然后使用MEGAN計算和探索數據集的分類內容,最后用NCBI對結果進行匯總和排序。但由于現有的數據庫中物種數量非常少,參考數據庫還不夠完整、局限性較大、計算時間難以把握,此類方法對新環境中的序列樣本具有很大的局限性[25]。

無參考數據分箱是應用聚類技術對序列進行分類,可直接處理樣本[26]。根據現有的技術可以分為三類:基于序列組成的方法、基于豐度的方法和混合的方法[27]?;谛蛄薪M成的方法主要應用于具有不同核苷酸組成基因型的群落,并利用寡核苷酸頻率和基因組堿基組成的特征進行分類[31]。該方法雖然避免了計算上常見的難題,但是在短reads執行上有一定的限制,常用的軟件有LikelyBin[28]、TETRA[29]和SCIMM[30];基于豐度的分箱技術與基于序列的分箱技術相似,主要區別在于前者聚類的形成是由k-mer豐度來定義的,而不是由序列組成。該方法可以對短reads分箱,但是準確度不高,常用的軟件有AbundanceBin[31]和Canopy[32];混合方法是將上述兩種方法組合在一起的新技術,有望獲得最佳的結果。Lin等[33]證明,結合反映物種豐度的序列組成信息和豐度信息,可以獲得比其他兩種方法更準確的分箱結果,相關軟件有MetaBAT[34]、MaxBin[35]和GroopM[36]。

5 宏基因組基因預測和功能注釋

宏基因組基因預測和功能注釋是宏基因組數據分析的重要環節,通過基因預測和功能注釋,可以獲得相關的代謝通路信息[37]?;蝾A測是利用預測工具在基因組文庫中識別潛在的開放閱讀框(ORF)并鑒定蛋白質編碼序列,預測結果的準確性受多個因素的影響,尤其是測序的誤差和reads的長度。目前針對基因測序常用的軟件有FragGeneScan[38]、 Orphelia[39]和MetaGene[40]。Trimble等[41]通過統計模擬數據對這些軟件做了比較,FragGeneScan 對包含錯讀、低質量序列的識別具有較高的靈敏度,是目前可用的最準確的基因預測軟件之一,而Orphelia和 MetaGene適合更高質量的序列。因此,用戶可以根據測序數據的特點選擇合適的方法。

功能注釋是將基因或蛋白序列在特定的功能數據庫中進行比對,將基因或蛋白與特定的功能聯系起來,幫助了解相關的代謝通路,并進一步理解宿主與菌群、宿主與環境之間的關系。常用的功能注釋數據庫包括KEGG[42]、eggNOG[43]和CAZy[44]等。 KEGG包含三個類型的數據庫:PATHWAY數據庫、KO數據庫和COMPOUND數據庫,分別整合了蛋白質、基因組和化學功能信息,尤其在PATHWAY數據庫中還包含了細胞代謝、遺傳和細胞周期信息等,提供了一個更全面直接的分析方法;eggNOG提供了最全面和最新的數據庫,它所提供的蛋白質功能注釋的1 133個基因組跨越了三個領域,該數據庫最重要的一個特征是OGs自動功能分析和功能描述的注釋;CAZy是碳水化合物活性酶數據庫,它將序列與分解寡糖、多糖的酶特異性和三維結構聯系起來,提供了一個在線不斷更新的家族分類方法。目前功能注釋的軟件越來越多,技術方面也逐漸成熟,研究者可根據研究的代謝途徑選擇相應的注釋軟件。

6 宏基因組免組裝功能分析

免組裝功能分析是將原始reads(QC后)與現有功能數據庫或帶注釋的參考基因組進行比對獲得功能信息的方法。該方法的準確性依賴于參考數據庫的完善程度。對于已知的環境,如人的腸道,有關人腸道微生物的數據庫已經十分完善,所以這種方法獲得的結果是可信的。但是對于沒有完整參考數據庫的環境,如瘤胃(未分類和命名的微生物占比大于55%),這種方法獲得的結果就有很大的局限性[45]。MG-RAST[10]和HUMAnN[46]是目前被普遍應用的軟件。MG-RAST可供研究者免費使用,該軟件不受特定基因組和數據類型的限制,目前已有500個宏基因組通過該軟件處理。HUMAnN可直接從短序列中確定群落中的基因家族和存在的代謝通路及其相對豐度,能準確、有效地描述微生物代謝途徑和生物學功能。人類微生物組計劃(HMP)中就使用該軟件研究了來自102個人中7個主要身體部位的649個宏基因組,并確定了24個普遍存在的代謝途徑。

7 展 望

隨著測序技術的發展,宏基因組測序的微生物組研究已滲透到各個領域,包括海洋、土壤、人、動物以及環境等。通過對宏基因組數據的分析,挖掘了微生物的多樣性、種與種之間的進化關系,揭示了微生物與環境、微生物與宿主之間的協作關系。但是,宏基因組數據分析最大的難題仍是生物信息學和計算瓶頸,如序列組裝。由于宏基因組數據比較復雜,在組裝過程中高度相似的序列容易出現錯誤,組裝和分箱的準確率不高,而且計算成本較高,因此軟件性能等各個方面還有很大的提升空間。一方面要加強實驗和分析流程的標準化,另一方面提高對未知環境的微生物組研究和認識,將已有的數據整合構建為高質量的參考數據庫,其次,優化宏基因組數據的組裝和分箱流程,開發新的算法,提高宏基因組數據的利用率。

猜你喜歡
基因組測序數據庫
兩種高通量測序平臺應用于不同SARS-CoV-2變異株的對比研究
“植物界大熊貓”完整基因組圖譜首次發布
牛參考基因組中發現被忽視基因
生物測序走在前
外顯子組測序助力產前診斷胎兒骨骼發育不良
科學家找到母愛改變基因組的證據
血清HBV前基因組RNA的研究進展
基因測序技術研究進展
數據庫
數據庫
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合