?

基因組測序技術及其應用研究進展

2018-05-14 08:59李國治鄧衛東
安徽農業科學 2018年22期
關鍵詞:高通量測序

李國治 鄧衛東

摘要 基因組測序技術從第1代Sanger測序經第2代高通量測序已發展到第3代單分子測序,第2代高通量測序技術是當前基因組測序中最主要的分析技術。對高通量測序技術在全基因組de novo測序、全基因組重測序、簡化基因組測序、宏基因組測序分析和表觀基因組學研究等領域的應用原理、步驟及現狀進行綜述,以為基因組測序技術的應用提參考。

關鍵詞 高通量測序;全基因組重測序;宏基因組測序;表觀基因組學

中圖分類號 Q75 文獻標識碼 A 文章編號 0517-6611(2018)22-0020-03

Abstract Genome sequencing technology has been developed from the first generation of Sanger sequencing to the third generation of single molecule sequencing through the second generation of highthroughput sequencing. The second generation of highthroughput sequencing technology was the most commonly used technology in genome sequencing. The application principles, steps and status of highthroughput sequencing technology in genomewide de novo sequencing, genomewide resequencing, reducedrepresentation sequencing, metagenomic sequencing and epigenetic research were reviewed in this paper to provide reference for applying genome sequencing technology.

Key words Highthroughput sequencing;Genomewide resequencing;Metagenomic sequencing;Epigenetic

以Sanger測序為代表的第1代測序技術讀長達1 000 bp,準確率高達99.99%,可靠性高。但由于其依賴于酶和電泳分離技術,導致測序成本高,分析速度慢。Roche/454焦磷酸測序、Illumina/Solexa聚合酶合成測序、ABI/SOLiD連接酶測序和Ion PGM半導體芯片測序是第2代測序技術的4種主流測序方法,其突出特點是單次運行(run)產出序列數據量大,故這4種測序方法被統稱為高通量測序技術。因測序原理各異,4種測序方法的數據產量、數據質量和運行成本也不相同。Roche/454測序讀長(600~1 000 bp)最長,通量(0.5~1.0 Gb/run)最低;Illumina/Solexa測序讀長(100 bp)較短,通量(600Gb/run)較大;ABI/SOLiD測序讀長(50 bp)最短,創新應用雙堿基編碼,降低測序錯誤率,其原理與重測序相似,對于具有高質量參考基因組序列物種的重測序特別適用;Ion PGM測序基于半導體芯片技術,無需激光、照相機或標記等技術,成本不到普通測序的10%[1]。并行單分子合成測序、單分子實時合成測序、納米孔單分子測序、基于熒光共振能量傳遞測序、半導體測序等單分子測序方法屬于第3代測序技術,以邊合成邊測序(SBS)技術為基本原理,無需PCR擴增,簡化文庫構建,與第2代測序技術相比,讀長更長,后續拼接工作更為簡單,可對未知基因組測序,但錯誤率仍較高,因采用水解法,不能重復測序[2-4]。上述3代測序技術各有優缺點,已被廣泛應用于全基因組de novo測序、全基因組重測序、簡化基因組測序、宏基因組測序分析和表觀基因組學研究等方面。該研究重點對這3種測序技術在基因組DNA水平研究中的具體應用進行綜述。

1 全基因組de novo測序

全基因組de novo測序不參考任何已有的DNA序列信息,直接測序某物種的基因組,因此被稱為從頭測序。從頭測序技術首先獲取某物種基因組DNA樣品,檢測樣品質量,評估基因組特征,構建梯度插入片段文庫上機測序,采用生物信息學分析手段將測序產生的海量DNA序列片段(reads)進行排序、拼接,從而組裝出該物種完整的基因組DNA序列圖譜。

全基因組de novo測序生物信息學分析可獲得基因組拼裝信息:原始數據、測序覆蓋率、Contig N50、Scaffold N50、GC含量等;基因組注釋:基因預測、功能注釋(與Interpro、Swiss-Prot、NR等同源比對)、重復序列分析及Non-coding RNA注釋等;基因功能分類:GO分類、KEGG通路等;比較基因組學研究:對相近物種基因組數據進行比較,從功能、結構、進化等方面分析目標基因組;構建數據庫:按照國際標準建立具有良好兼容性的基因組數據庫,實現基因數據查詢與共享。

從頭測序組裝物種基因組圖譜是通過識別不同reads間的重疊區域(overlap),確定其相對位置順序,把多條較短的reads序列片段拼接成較長的contigs,進一步構建mate-pair或paired-end文庫,選擇大片段測序獲取兩端reads序列,通過兩端reads序列確定contigs間的相對位置,按照contigs間的位置關系拼接成scaffolds,最后填補空缺序列(gaps)獲得物種全基因組DNA序列?;蚪M從頭拼接組裝常用軟件有:Velvet、SOAPdenovo、ABySS和CLC Genomic Workbench等[5]。Velvet是EMBL-EBI開發的一款在linux系統下運行的拼接軟件,是目前廣泛使用的拼接短reads(25-500bp)的首選工具,不足之處是無法同時利用多個CPU進行拼接[6]。SOAPdenovo由華大基因開發,在linux系統下采用一種新型短read拼接方法對大型動植物、細菌和真菌基因組進行從頭拼接。ABySS用于大型基因組從頭拼接,在C++環境中運行,優點在于可以同時執行多項拼接任務。CLC Genomic Workbench由丹麥Aarhus公司研發的一種綜合性跨平臺拼接軟件,在windows/macosx/linux操作系統下可分析來自Illumina、SOLiD、454、HeliScope等多個平臺的基因組數據。

ICGSC完成一只雌性近交系紅色原雞全基因組de novo測序拼接組裝,構建了其完整基因組序列圖譜,含有1.05 Gb堿基對,contigs N50為36 kb,覆蓋率為98%,堿基替代率為0.02%[7]。Li等[8]運用Solexa聚合酶合成測序技術完成熊貓全基因組de novo測序,獲得其2.4 Gb基因組序列圖譜,研究結果表明熊貓與狗的遺傳關系最近,熊貓TIR1基因失活導致感受不到肉的鮮美,所以熊貓不吃肉。Wang等[9]對一只雌性藏雞de novo測序,繪制出藏雞基因組序列圖譜,采用比較基因組學和群體基因組學分析方法揭示了藏雞高原適應性的分子機制,鈣離子通路在藏雞高原適應中扮演著重要作用。Li等[10]運用de novo組裝策略獲得中國和歐洲10個代表性豬種高質量基因組序列,共鑒定出8.86~15.95 Mb單核苷酸多態(SNP)、15.99~23.07 Mb插入變異和3.61~5.63 Mb缺失變異,中國豬種遺傳多樣性明顯高于歐洲豬種;還鑒定出參考基因組中缺失的137.02 Mb序列,包含1 737個蛋白編碼基因,其中有74個基因與肌肉生長和脂肪沉積相關,76個基因與免疫調控相關,研究結果為豬肉產量和抗病性等生產性能分子遺傳學研究奠定了重要基礎。

2 全基因組重測序

對已有參考基因組序列的物種進行個體或群體全基因組測序稱為全基因組重測序。全基因組重測序結果與已有參考基因組序列進行比對,檢測出全基因組范圍的單核苷酸多態(SNP)、插入缺失突變(InDel)、拷貝數變異(CNV)和機構變異(SV)等變異信息,獲得個體或群體分子遺傳特征,進行動物重要經濟性狀候選基因預測及遺傳進化分析,廣泛應用于遺傳變異檢測、性狀基因定位、遺傳圖譜構建和遺傳進化研究。

全基因組重測序數據分析最關鍵的一步在于序列比對(mapping),將重測序所得的reads序列與已有的參考基因組序列進行相似性比較,比對過程一般按兩步進行:首先歸類整理reads數據或參考基因組序列,然后用適當算法比對和定位reads序列。用于序列比對的軟件有很多種,如2008年推出的SeqMap、Soap、Zoom、MAQ、RMAP,2009年推出的SOAP2、SHRiMP、BOAT、BFAST、MOM、BWA、MapNext、Bowtie,2010年推出了BWA-SW,各種軟件處理數據的方法、重點和能力不同,選擇合適比對軟件的主要依據是產生分析數據的測序平臺,能處理多個平臺產生的數據的軟件有較好的實用性和應用前景。目前,多數比對軟件只處理一個測序平臺產生的數據,只有MAQ、SHRiMP、BFAST、BWA等軟件通過轉換格式可以處理2個測序平臺產生的數據。

Li等[11]對48份家豬樣本(6個藏豬群體、5個四川豬種)進行全基因組重測序(深度131×),與55個歐亞野豬和家豬基因組數據比對分析,檢測出低氧適應、能量代謝等268個基因位點,揭示藏豬高原低氧適應的遺傳基礎;比較基因組學研究發現,早在690萬年前藏豬和家豬祖先開始分化,早于牦牛和家牛(490萬年前)以及人類和黑猩猩(500萬~700萬年前)的分化時間;遺傳對比分析野生種和馴養種表明,人工選擇比自然選擇更能改變馴養動物基因組;歐亞豬種明顯的遺傳背景差異證明地理隔離導致的遺傳差異比野生種與馴化種的差異大。Daetwyler等[12]對2頭奶牛和232頭公牛(其中荷蘭種129頭、德國種43頭、澤西種15頭)開展全基因組重測序(深度8.3×),共檢測出28.3萬個變異位點,平均每1000個堿基上含有1.44個雜合位點;鑒定出了與胚胎死亡、骨骼畸形、卷毛以及產奶等性狀連鎖的基因,并分析出胚胎死亡與牛繁殖力降低顯著相關;該項研究成果為提高牛產肉量和產奶量奠定了科學基礎。Yi等[13]對12只不同品種的雞進行全基因組重測序,共檢測出8 840個CNVs區域,片段大小從1.1~268.8 kb不等,平均長度11.1 kb,覆蓋98.2 Mb堿基,占全基因組的9.4%;共分析出2 214個CNVs與2 216個RefSeq功能基因相關;在CNVs覆蓋區域發現了與疾病易感性和抗病性相關的FZD6L基因和IMS1基因。

3 簡化基因組測序

簡化基因組測序(Reduced Representation Genome Sequencing)能大幅降低基因組的復雜度,顯著降低測序成本,快速鑒定高密度SNP位點,常用于遺傳變異檢測、高密度遺傳圖譜構建、重要性狀候選基因定位和群體遺傳進化分析。常用于動物基因組研究的簡化基因組測序技術主要有簡化代表文庫測序(Reduced-Representation Libraries sequencing,RRLs)和限制性酶切位點關聯DNA測序(Restriction-site-Associated DNA sequencing,RAD-seq)。

RRLs將某群體中不同個體DNA樣本混合,選擇特異內切酶消化基因組DNA,回收特定長度的酶切片段,作為全基因組序列的簡化代表性文庫用于高通量測序,將測序片段與參考基因組序列比對,或拼接組裝測序片段相互比對,快速檢測SNPs。RAD-seq利用限制性內切酶消化目標基因組DNA,在酶切基因組片段兩端加上P1接頭,打斷加有P1接頭的片段,選擇特定長度的片段加上P2接頭,PCR擴增富集既有P1接頭又有P2接頭的DNA tags,并進行高通量測序比對,對有無參考基因組的物種進行SNPs的快速開發和基因分型。

Van等[14]利用HaeⅢ酶切3個品種66頭?;蚪M混合樣構建RRLs文庫,經Illumina Genome Analyzer 測序5000萬條,檢測到62042個候選SNPs,對其中23357個隨機SNPs進行基因分型驗證,準確率達到92%。Kerstens等[15]利用Sau 3A消化2個品系6只火雞基因組混合樣建立RRLs文庫,經高通量測序和數據分析,鑒定出1.1萬個SNPs,基因分型驗證其中340個代表性SNPs,準確率達到95%,證明RRLs技術在未知基因組序列的情況下可有效開發SNPs。Baird等[16]利用SbfⅠ分別消化96條F2代和親本三刺魚基因組,通過RAD-seq技術測序分析,檢測出1.3萬個SNPs,定位到弱骨盆結構刺退化和體側骨板缺失等性狀的基因位點。李勇等[17]采用RAD-seq技術對618頭母豬基因組測序并進行遺傳分型,獲得79 725個SNPs,在未知驗證群表型值的情況下分析最佳線性無偏預測(best linear unbiased prediction,BLUP)、基因組BLUP、一步基因組BLUP預測育種值的準確性和偏向性,結果表明基于RAD-seq的基因組選擇法能有效預測種豬繁殖性狀的育種值。

4 宏基因組測序分析

宏基因組是指生態環境中全部微生物基因組的總和,宏基因組學以基因組學技術為基礎,研究環境中微生物的多樣性、種群關系、功能關系及與環境間的關系,無需人工培養微生物,直接提取環境中微生物混合基因組DNA并測序,從群落水平上解析微生物活動,挖掘微生物新資源。

全基因組測序分析和16S rDNA測序分析是宏基因組學研究的2個主要策略,分別以環境樣品中全部DNA序列和16S rDNA序列為研究對象。2種測序分析策略直接提取環境樣品中全部基因組DNA,全基因組測序分析經酶切或超聲波打斷DNA,16S rDNA測序分析經16S rDNA可變區PCR擴增,建立質粒文庫并測序,去噪處理測序數據;全基因組測序分析拼裝去噪序列并進行基因預測,利用比對和數據庫搜索分析方法對預測基因進行功能注釋和分類注釋;16S rDNA測序分析聚類分析去噪序列,生成操作分類單元,開展多樣性和系統發育樹構建等后續分析。

Parmar等[18]對飼喂青草、干草的水牛瘤胃微生物進行宏基因組測序分析發現,門水平上擬桿菌最多,屬水平上普氏菌最多;食糜中厚壁菌和擬桿菌占比高于胃液;飼喂干草的水牛瘤胃食糜中擬桿菌數量隨著日糧中粗飼料含量的增加顯著升高,梭菌數量也顯著增加;飼喂青草、干草的牛瘤胃液中糖苷水解酶水平隨著日糧中纖維素含量的增加而升高。Singh等[19]對不同飼料轉化率肉雞糞便中微生物菌群進行宏基因測序比對發現,細菌比率高達95%以上,真核生物比率達2%以上,古菌和病毒比率分別在0.2%以上;在門水平上,高、低飼料轉化率肉雞糞便樣品中變形菌、厚壁菌和擬桿菌比率分別為52.04%和78.83%、27.53%和11.97%、17.53%和7.10%。Larsbrink等[20]對奶牛瘤胃微生物進行宏基因組測序,共鑒定出27 755個碳水化合物水解酶類候選基因,此類候選基因可編譯出90種蛋白,其中57%蛋白通過酶促作用激活抗纖維素底物相關酶類。

5 表觀基因組學研究

基因組DNA序列無變化,但有基因表達和性狀發生可遺傳的變異,這種現象稱為表觀遺傳。表觀遺傳學研究采用高通量測序技術及相應的研究方法進行基因表達調控機制研究,DNA甲基化、組蛋白修飾是表觀遺傳學研究的2個重要領域。

DNA甲基化表觀遺傳學研究主要采用全基因組重亞硫酸氫鹽測序(全基因組Bisulfite測序)和甲基化DNA免疫共沉淀測序(MeDIP-Seq)。全基因組Bisulfite測序對預處理的DNA進行巢式PCR擴增,采用瓊脂糖凝膠電泳檢測盒單克隆測序擴增產物,準確獲得全基因組甲基化水平數據,被認為DNA甲基化檢測的“金標準”,適用于構建全基因組DNA單堿基分辨率甲基化圖譜。MeDIP-Seq特異性識別5-甲基胞嘧啶抗體,富集全基因組DNA甲基化片段,對CpG島富集的甲基化區域進行高通量測序,比較不同組織細胞DNA甲基化的差異,廣泛應用于分子標記育種和遺傳疾病診斷。組蛋白修飾表觀遺傳學研究主要集中在甲基化、乙?;揎?,染色質免疫沉淀結合高通量測序技術(ChIP-Seq),研究蛋白質與DNA相互作用關系,在全基因組范圍高效而準確地篩選和鑒定蛋白結合位點。

Lister等[21]采用全基因組Bisulfite測序技術構建人類基因組甲基化圖譜,為人類遺傳疾病的研究奠定了堅實基礎。張小麗[22]采用MeDIP-Seq技術構建3頭210日齡長白母豬DNA文庫,獲取高度匹配的32.91Gb DNA序列,鑒定出不同組織中甲基化差異區域(DMRs),外顯子區域DMRs內CpG的比率顯著高于啟動子、內含子、轉錄起始位點上游2 kb等區域,證明啟動子區域的甲基化能調控基因表達,該研究為深入解析動物不同組織脂肪功能提供了表觀遺傳基礎數據。Sun等[23]采用ChIP-Seq技術研究小白鼠組織中的RNA Pol-Ⅱ 啟動子,檢測到38 639個Pol-Ⅱ 啟動子,有12 270個新啟動子,識別不同組織中注釋基因的Pol-Ⅱ 啟動子,發現37%編碼基因受選擇性啟動子調控。

參考文獻

[1] HARISMENDY O,NG P C,STRAUSBERG R L,et al.Evaluation of next generation sequencing platforms for population targeted sequencing studies[J].Genome Biol,2009,10(3):1-13.

[2]DERRINGTON I M,BUTLER T Z,COLLINS M D,et al.Nanopore DNA sequencing with MspA[J].Proc Natl Acad Sci USA,2010,107(37):6060-6065.

[3]LUAN B Q,PENG H B,POLONSKY S,et al.BaseByBase ratcheting of single stranded DNA through a solidstate nanopore[J].Phys Rev Lett,2010,104:238103.

[4]EID J,FEHR A,GRAY J,et al.Realtime DNA sequencing from single polymerase molecules[J].Science,2009,323:133-138.

[5]朱大強,李存,陳斌,等.四種常用高通量測序拼接軟件的應用比較[J].生物信息學,2011,9(2):106-112.

[6]ZERBINO D R,BIMEY E.Velvet:Algorithms for de novo short read assembly using de Bruijn graphs[J].Genome Res,2008,18(5):821-829.

[7]International Chicken Genome Sequencing Consortium.Sequence and comparative analysis of the chicken genome provide unique perspectives on vertebrate evolution[J].Nature,2004,432(7018):695-716.

[8]LI R Q,FAN W,TIAN G,et al.The sequence and de novo assembly of the giant panda genome[J].Nature,2010,463(7279):311-317.

[9]WANG M S,LI Y,PENG M S,et al.Genomic analyses reveal potential independent adaptation to high altitude in tibetan chickens[J].Molecular biology and evolution,2015,32(7):1880-1889.

[10] LI M Z,CHEN L,TIAN S L,et al.Comprehensive variation discovery and recovery of missing sequence in the pig genome using multiple de novo assemblies[J].Genome research,2017,27(5):865-874.

[11]LI M Z,TIAN S L,JIN L,et al.Genome analyse identify distinct patterns of selection in domesticated pigs and Tibetan wild boars[J].Nat Genet,2013,45(12):1431-1438.

[12]DAETWYLER H D,CAPITAN A,PAUSCH H,et al.Wholegenome sequencing of 234 bulls facilitates mapping of monogenic and complex traits in cattle[J].Nat Genet,2014,46(8):858-865.

[13]YI G Q,QU L J,LIU J F,et al.Genomewide patterns of copy number variation in the diversified chicken genomes using nextgeneration sequencing[J].BMC Genomics,2014,15(1):1-16.

[14]VAN TASSELL C P,SMITH T P L,MATUKUMALLI L K,et al.SNP discovery and allele frequency estimation by deep sequencing of reduced representation libraries[J].Nature methods,2008,5(3):247-252.

[15]KERSTENS H H D,CROOIJMANS R P M A,VEENENDAAL A,et al.Large scale single nucleotide polymorphism discovery in unsequenced genomes using second generation high throughput sequencing technology:Applied to turkey[J].BMC Genomics,2009,10(1):1-11.

[16]BAIRD N A,ETTER P D,ATWOOD T S,et al.Rapid SNP discovery and genetic mapping using sequenced RAD markers[J].PLoS One,2008,10(3):3376.

[17]李勇,苗澤圃,蒙小云,等.RAD-seq技術在大白豬繁殖性狀基因組選擇上的應用[J].農業生物技術學報,2017,25(9):1508-1515.

[18]PARMAR N R,SOLANKI J V,PATEL A B,et al.Metagenome of Mehsani buffalo rumen microbiota:An assessment of variation in feeddependent phylogenetic and functional classification[J].J Mol Microbiol Biotechnol,2014,24(4):249-261.

[19]SINGH K M,SHAH T M,REDDY B,et al.Taxonomic and genecentric metagenomics of the fecal microbiome of low and high feed conversion ratio(FCR)broilers[J].J Appl Genet,2014,55(1):145-154.

[20]LARSBRINK J,ROGERS T E,HEMSWORTH G R,et al.A discrete genetic locus confers xyloglucan metabolism in select human gut Bacteroidetes[J].Nature,2014,506(7489):498-502.

[21]LISTER R,ECKER J R.Finding the fifth base:Genomewide sequencing of cytosine methylation[J].Genome Res,2009,19(6):959-966.

[22]張小麗.豬背部淺層和背部深層脂肪組織全基因組甲基化研究[D].雅安:四川農業大學,2013.

[23]SUN H,WU J J,WICKRAMASINGHE P,et al.Genomewide mapping of RNA PolⅡ promoter usage in mouse tissues by ChIPSeq[J].Nucleic Acids Res,2011,39(1):190-201.

猜你喜歡
高通量測序
污水處理中壓力變化對污泥中微生物群落組成的影響研究
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合