?

杜仲果實和葉片轉錄組數據組裝及基因功能注釋

2012-01-08 11:06李鐵柱杜紅巖劉慧敏烏云塔娜葉生晶
中南林業科技大學學報 2012年11期
關鍵詞:杜仲測序長度

李鐵柱,杜紅巖 ,劉慧敏,烏云塔娜,王 淋,葉生晶

杜仲果實和葉片轉錄組數據組裝及基因功能注釋

李鐵柱1a,杜紅巖2,劉慧敏1b,1c,烏云塔娜1b,1c,王 淋1b,1c,葉生晶1b,1c

(1.中南林業科技大學a.生命科學與技術學院;b.經濟林育種與栽培國家林業局重點實驗室;c.林學院,湖南長沙 410004;2中國林業科學研究院經濟林研究開發中心, 河南 鄭州 450003)

所構建的杜仲果實和葉片轉錄組數據庫獲得了54 471 338條reads數據,包含4 902 420 420nt數據信息,對reads進行拼接,獲得了452 421條Contig,總長度為90 705 736 nt; 對contig進行拼接后,獲得了147 027條Scaffold,總長度為65 877 052 nt;同理,對Scaffold進一步拼接后,獲得了49 610條Unigene,總長度為37 616 729 nt; Unigene和COG數據庫進行比對表明,杜仲果實和葉片轉錄組中的Unigene根據功能大致可分為25類;杜仲果實和葉片轉錄組中的Unigene根據GO功能可分為生物過程、細胞組分和分子功能3大類42分支;以KEGG數據庫為參考,依據代謝通路可以將轉錄組中的數據分成125類,包括脂類代謝,DNA剪切,植物激素生物合成,苯丙氨酸生物合成,萜類化合物與類固醇類化合物合成等。

杜仲;果實;葉片;轉錄組;基因功能

杜仲(Eucommia ulmoides)是一種名貴的藥用植物,也是溫帶最具開發意義的膠原植物, 具有重要的經濟價值[1-2]。常規育種與分子生物學相結合是林木遺傳改良的必由之路[3]。隨著后基因組時代的到來, 轉錄組學、蛋白質組學、代謝組學等各種組學技術相繼出現, 其中轉錄組學是率先發展起來以及應用最廣泛的技術[4-5]。轉錄組研究是基因功能及結構研究的基礎和出發點, 了解轉錄組是解讀基因組功能元件和揭示細胞及組織中分子組成所必需的, 并且對理解機體發育和疾病具有重要作用[6]。細胞的功能是從基因的表達開始的,轉錄組是指某一時間細胞內所有基因轉錄而來的RNA 總稱[7]。通過分析轉錄組,可高通量地獲得基因表達的 RNA 水平有關信息, 可以揭示基因表達與一些生命現象之間的內在聯系。據此我們可以高通量表征細胞生理活動規律,確定細胞代謝特性,并進而對細胞進行修飾改造[8-9]。

目前關于轉錄組的研究也是比較多的。例如,2010年朱立煌[10]利用水稻全基因組芯片, 系統考察了超級雜交稻“兩優培九”及其雙親—“培矮64s“(母本 )和“ 93—11”(父本 )在 7個不同發育時期的組織中的基因表達譜, 結果表明, 從轉錄譜來看, 雜種 F1與親本間的相似性大于親本之間的相似性; 在發現的 3 000多個雜種和親本間差異表達的基因中, 有各種不同的差異表達類型, 多數是偏于單親的顯性表達, 但也有只在雜種中出現的超親表達。2011年張樂等[11]以大豆基因組的46 430個高置信編碼基因和2 071條大豆全長轉錄本序列為數據來源,應用CodonW軟件對大豆全基因組密碼子組成、同義密碼子使用頻率和全長轉錄組編碼區密碼子使用各項參數的計算和統計分析發現,基因的表達水平與編碼區G+C和GC3s含量均呈極顯著正相關,且G+C和GC3s含量越高的基因密碼子使用偏好性越高,并確定了UCC和GCC為大豆最優密碼子。2011年吳劍鋒等[12]利用 tpa 及其野生型植株的開放花制備的mRNA反轉錄成cDNA與擬南芥ATH1芯片進行雜交,篩選出在tpa及其野生型植株中表達有差異的基因,并利用RT-PCR技術對芯片篩選出的基因進行驗證,獲得了152個在野生型(W1)和完全退化株(M3)轉錄組中差異表達的基因,61個在W1和部分退化株(I2)轉錄組中差異表達的基因,以及24個在I2和M3轉錄組中差異表達的基因,通過對41個基因的RT-PCR驗證,獲得了At2g42840、At1g57750、At5g20630、At2g03090、At3g08030、At5g08000、At2g28790、At5g63310 和At2g24270等9個在 tpa 及野生型植株中具顯著不同的時空表達特性的基因。2010年Olivia Wilkins等[13]通過對擬南芥一天中4個不同時間點上干旱對轉錄組調節的影響研究支持了干旱應答轉錄的假說,即干旱應答轉錄是在一天的不同時間里,通過顯著的激素和應激反應途徑形成的。2006年M.Becerra等[14]通過研究生長在奶酪乳清蛋白培養基上的乳酸克魯維酵母,與生長在合成培養基上的該酵母作比較,發現當培養基變化時,與糖基化和分泌途徑相關的基因表達完全發生了重排,該酵母系統也被用來檢測乳清補充劑作為抗氧化劑的優勢,生長在乳清蛋白培養基上的乳酸克魯維酵母,其和谷胱甘肽生物合成有關的基因的轉錄并沒有增加,然而,在這種介質中生長的酵母,其和谷胱甘肽代謝和氧化應激反應有關的其他基因則出現了過量表達。

1 材料與方法

1.1 植物材料

于杜仲幼果時期(5月份左右),在國家林業局泡桐研究中心采集“華仲六號”杜仲果實和葉片為材料。

1.2 杜仲果實和葉片總RNA提取

果實和葉片RNA的提取參照陳建[16]的“幾種提取杜仲RNA方法的比較”。

1.3 杜仲果實和葉片的轉錄組測序

轉錄組測序工作委托深圳華大公司完成。

1.4 杜仲果實和葉片轉錄組數據組裝及基因功能注釋技術路線

圖1 數字化轉錄組數據庫的分析Fig. 1 Data Analysis of Digital Transcriptome

本研究對杜仲果實和葉片合成調控時期的轉錄組進行測序,展開了對數據庫中Unigene的全面分析和注釋。具體流程如圖1所示。

2 結果與分析

對杜仲果實和葉片進行測序后,共獲得了54 471 338個reads片段,包含了4 902 420 420個核苷酸序列信息,其中片段長度大于20個堿基的百分比為96.05%,中間未知序列的片段為0,GC%值為47.00%,由此可以看出此次轉錄組測序結果較好,可為后續的數據組裝提供很好的原始數據。

2.1 杜仲果實和葉片轉錄組數據的組裝

對13 333 334個reads片段采用over-lap的方法進行拼接,共獲得了452 421個Contig片段,序列信息達到了90 705 736 nt;其中,長度在75~100 nt范圍內的Contig片段有273 533條,比

圖2 杜仲果實轉錄組的Contig數據長度分布圖Fig. 2 Contig Data Length Distribution for Digital Transcriptome of Eucommia ulmoides Oliv Fruits

在Contig數據的基礎上,進一步采用over-lap的方法進行拼接,共獲得了147 027個Scaffold片段,序列信息達到了65 877 052 nt;其中,長度在100~500 nt范圍內的Scaffold片段有111 874條,比例達到了76.09%;500~1 000 nt的有19 303條,比例為13.13%;1 000~1 500 nt的有7 730條,占5.26%;1 500~2 000 nt的有4 113條,占2.80%;≥2 000 nt的有4 007條,2.73%(見表2、圖4、圖5)。

在Scaffold數據的基礎上,進一步拼接,數據共獲得了49 610個Unigene片段,序列信息達到了37 616 729 nt,片段大小從100~3 256 nt;其中,長度在100~500 nt范圍內的Unigene片段有27 428條,比例達到了55.29%;500~1 000 nt的有例達到了60.46%;100~200 nt的有80 470條,比例為17.79%;而≥200 nt的共有88 087條,比例為19.47%(見表1、圖2、圖3)。由此可見,Contig數據主要以75~100 nt的為主,完全符合Illumina測序的預期結果。10 240條,比例為20.64%;1 000~1 500 nt的有5 136條,占10.35%;1 500~2 000 nt的有3 215條,占6.48%;≥2 000 nt的有3 591條,占7.24%(見表3、圖6、圖7)。

表1 杜仲果實和葉片轉錄組的Contig數據組裝質量統計Table 1 Data Assembly for Contig in Digital Transcriptome of Eucommia ulmoides Oliv Fruits and Leaves

圖3 杜仲葉片轉錄組的Contig數據長度分布圖Fig. 3 Contig Data Length Distribution for Digital Transcriptome of Eucommia ulmoides Oliv Leaves

表2 杜仲果實和葉片轉錄組的Scaffold數據組裝質量統計Table 2 Data Assembly for Scaffold in Digital Transcriptome of Eucommia ulmoides Oliv Fruits and Leaves

圖4 杜仲果實轉錄組的Scaffold數據長度分布圖Fig. 4 Scaffold Data Length Distribution for Digital Transcriptome of Eucommia ulmoides Oliv Fruits

圖5 杜仲葉片轉錄組的Scaffold數據長度分布圖Fig. 5 Scaffold Data Length Distribution for Digital Transcriptome of Eucommia ulmoides Oliv Leaves

表3 杜仲果實和葉片轉錄組的Unigene數據組裝質量統計Table 3 Data Assembly for Unigene in Digital Transcriptome of Eucommia ulmoides Oliv Fruits and Leaves

對Unigene進行覆蓋度的分析發現,94 334條Unigene能夠與測序的原始數據reads相對應,且不同的Unigene與reads的對應關系各不相同,分別用測序深度—depth(reads堿基數/ 序列長度)和覆蓋度—coverage( 中有reads覆蓋的堿基數/ 序列長度)表示,depth的范圍在0.038 3~17 784.1之間,coverage的范圍在3.83%~100%之間;所有的43 879條沒有出現未知序列,只有2 046條有未知序列;GC%為22.07%~71.09%;Unigene對應的reads,即樣品中能唯一比對到指定Unigene序列的reads數(Unique-mapped-Reads)從1~81 612條范圍不等。

圖6 杜仲果實轉錄組的Unigene數據長度分布圖Fig. 6 Unigene Data Length Distribution for Digital Transcriptome of Eucommia ulmoides Oliv Fruits

2. 2 杜仲轉錄組Unigene的cds的blast分析

圖7 杜仲葉片轉錄組的Unigene數據長度分布圖Fig. 7 Unigene Data Length Distribution for Digital Transcriptome of Eucommia ulmoides Oliv Leaves

對杜仲轉錄組所有的Unigene的cds進行blast分析,共發現了30 280個Unigene片段,片段大小從100~3 256 nt;其中,長度在100~~500 nt范圍內的Unigene片段有15 138條,比例達到了50.00%;500~1 000 nt的有9 913條,比例為32.74%;1 000~1 500 nt的有5 204條,占 17.19%;1 500~ 2 000 nt的 有2606條, 占8.61%;≥2 000 nt的有2009條,占6.63%(見表4、圖8)。

表4 杜仲轉錄組All-Unigene的cds的blast分析表Table 4 Eucommia transcriptome All-Unigene cds blast analysis

在蛋白質數據庫中對杜仲轉錄組所有的Unigene進行blast分析后,共發現了28 074個Unigene片段,片段大小從100~3 256 nt;其中,長度在100~500 nt范圍內的Unigene片段有26 575條,比例達到了94.66%;500~1 000 nt的有5 268條,比例為18.76%;1 000~1 500 nt的有588條,占2.09%;1 500~2 000 nt的有92條,占0.33%;≥2 000 nt的有31條,占0.11%(見表5、圖9)。

表5 杜仲轉錄組All-Unigene在蛋白質數據庫中的blast分析Table 5 Eucommia transcriptome All-Unigene blast in the protein database

圖8 杜仲轉錄組All-Unigene的cds的blast分析圖Fig.8 Eucommia transcriptome All-Unigene cds blast analysis

在ESTscan數據庫中對杜仲轉錄組的cds進行分析,共發現1 595個Unigene片段,片段大小從100~2 000 nt;其中,長度在100~500nt范圍內的Unigene片段有1394條,比例達到了87.40%;500~1 000 nt的有180條,比例為11.29%;1 000~1 500 nt的有16條,占1.00%;1 500~2 000 nt的有92條,占0.19%;≥2 000 nt的有31條,占0.06%(見表6、圖10)。

表6 杜仲轉錄組All-Unigene在ESTscan數據庫中的cds分析Table 6 Eucommia transcriptome All-Unigene analysis in ESTscan the database cds

圖9 杜仲轉錄組All-Unigene在蛋白質數據庫中的blast分析圖Fig.9 Eucommia transcriptome All-Unigene database of protein blast analysis

圖10 杜仲轉錄組All-Unigene在ESTscan數據庫中的cds分析圖Fig.10 The cds Eucommia transcription group All-Unigene ESTscan database analysis

2.3 杜仲轉錄組Unigene的COG功能分類

共有125 934條 可以與數據庫中的基因具有相似性,且較多的單條Unigene能夠與多種基因相對應,建立了125 934條對應關系。杜仲果實和葉片轉錄組中的Unigene根據功能大致可分為25類(圖11中用A~Z表示),并對每一類的基因數量進行了統計(表7)。從表中和圖中可以看出,Unigene的COG功能種類比較全面,涉及了大多數的生命活動,整體功能類的基因數量最多,有20 153條;核結構相關基因類的數量最少,只有3條;其他種類基因的表達豐度不盡相同,具體種類和數量見表7。

表7 杜仲果實和葉片轉錄組的UnigeneCOG功能分類Table 7 COG Function Classification of Eucommia ulmoides Oliv Fruits and Leaves in Digital Transcriptome

2. 4 Unigene的GO功能分類分析

根據分析發現,共有8 260條Unigene可以與數據庫中的基因具有相似性,且較多的單條Unigene能夠與多種基因相對應,建立了8 260條對應關系,從而得到盡可能多的注釋和分類。杜仲轉錄組中的Unigene根據GO功能大致可分為生物過程、細胞組分和分子功能3大類42分支(見圖12),并對每一類的基因數量進行了統計(見表8)。從表中和圖中可以看出,其中細胞組分這一大類中,涉及的基因最多,有3 959條;在生物過程這一大類中,涉及的基因有2 602條;在分子功能這一大類中,涉及的基因有2 665條。其他種類基因的表達豐度不盡相同,具體種類和數量見表8。

表8 杜仲果實和葉片轉錄組的UnigeneGO功能分類Table 8 Gene Ontology of Eucommia ulmoides Oliv Fruits and Leaves Unigene in Digital Transcriptome

圖11 杜仲果實和葉片轉錄組的UnigeneCOG功能分類Fig. 11 COG Function Classification of Eucommia ulmoides Oliv Fruits and Leaves in Digital Transcriptome

圖12 杜仲果實和葉片轉錄組的UnigeneGO功能分類Fig. 12 Gene Ontology of Eucommia ulmoides Oliv Fruits and Leaves Unigene in Digital Transcriptome

2.5 Unigene 的KEGG代謝途徑分類

利用KEGG數據庫作為參考,依據代謝通路可以將轉錄組中的數據分成125類,包括生化代謝通路,植物—真菌互作,DNA剪切,植物激素生物合成,苯丙氨酸生物合成,萜類化合物與類固醇類化合物合成,脂類代謝,RNA降解等,具體列于表9。其中,不飽和脂肪酸的生物合成,涉及的基因有93條,占整體的0.63%;黃酮類代謝,涉及的基因有249條,占整體的1.68%;苯丙素類代謝,涉及的基因有421條,占整體的2.84%;類胡蘿卜素類代謝,涉及的基因96條,占整體的0.61%;蕓苔素類代謝,涉及的基因25條,占整體的0.17%;葉酸代謝途徑,涉及的基因13條,占整體的0.09%;維生素B5代謝途徑,涉及的基因31條,占整體的0.21%;維生素B2代謝途徑,涉及的基因有24條,占整體的0.16%;α-亞麻酸代謝途徑,涉及的基因有138條,占整體的0.93%。

3 結論與討論

所構建的杜仲果實和葉片轉錄組數據庫獲得了54 471 338條reads數據,包含4 902 420 420 nt數據信息,對reads進行拼接,獲得了452 421條Contig,總長度為90 705 736 nt; 對contig進行拼接后,獲得了147 027條Scaffold,總長度為65 877 052 nt;同理,對Scaffold進一步拼接后,獲得了49 610條Unigene,總長度為37 616 729 nt;對杜仲轉錄組所有的Unigene的cds進行blast分析,共發現了30 280個Unigene片段, 在蛋白質數據庫中對杜仲轉錄組所有的Unigene進行blast分析后,共發現了28 074個Unigene片段,在ESTscan數據庫中對杜仲轉錄組的cds進行分析,共發現1 595個Unigene片段,共有125 934條 Unigene可以與COG數據庫中的基因具有相似性,共有8 260條Unigene可以與GO數據庫中的基因具有相似性。

2010年高珍[16]通過對滸苔測序得到29 370 732條reads片段,平均長度75 bp,總長為2 202 804 900 bp,將Reads數據組裝成contig,得到2 288 272條contig片段,平均長度為40 bp,總長91 817 153 bp。

2011年LIU Xin- xing等[17]通過對四倍體擬南芥的轉錄組的研究,得到了23 476 310條reads片段,堿基對總長度達到了1 690 294 320 bp,非冗余副本(≥100 bp)的數量為125 953條,轉錄的中長度為41 665 175,經過組裝,得到的contigs(≥100 bp)的數量從155 306( kmer =33 bp)條到23 117 ( kmer = 57 bp)條不等。

將本次測序結果與上述兩人的測序結果相比,可以看出本次測序得到的數據量更大,所以本次測序結果較好。

[1] 杜紅巖,李 欽,杜蘭英,等.杜仲雄花茶營養成分的測定分析[J]. 中南林業科技大學學報,2007,27(6):88-89.

[2] 薛 萍.杜仲研究現狀與發展前景[J].經濟林研究,1995,13(3).

[3] 陳 英,江香梅,張 露,等.基于油茶59萬條EST序列的轉錄組學初步分析[J].林業科學,2011,47(2):161-163.

[4] Lockhart DJ, Winzeler EA. Genomics, gene expressand DNA arrays. Nature, 2000, 405(6788): 827–836.

[5] 房學爽,徐剛標.表達序列標簽技術及其應用[J].經濟林研究,2008,26(2):127-130.

[6] 祁云霞,劉永斌,榮威恒. 轉錄組研究新技術:RNA-Seq 及其應用[J].遺傳, 2011,33(11): 1191-1202.

[7] 井趙斌,魏 琳,俞 靚,等.轉錄組測序及其在牧草基因資源發掘中的應用前景[J].草業科學,2011,28(7): 1364-1369

[8] Jewett MC, Oliveira AP, Patil KR, et al. The role of highthroughput transcriptome analysis in metabolic engineering.Biotechnol Bioproc Eng, 2005, 10: 385-399.

[9] Donson J, Fang Y, Espiritu-Santo G, et al. Comprehensive gene expression analysis by transcript profiling. Plant Mol Biol, 2002,48: 75-97.

[10] 朱立煌.超級雜交水稻LYP9及其親本的轉錄組學研究[J].中國基礎科學·研究進展.

[11] 張 樂,金龍國,羅 玲,等. 大豆基因組和轉錄組的核基因密碼子使用偏好性分析[J]. 作物學報, 2011,37(6):965-974.

[12] 吳劍鋒,張海娟,盧海宇,等. 基因芯片分析蕪菁雌蕊退化突變體 tpa 及野生型開放花的轉錄組差異[J]. 中國農業科學 ,2011,44(5):972-981.

[13] Olivia Wilkins, Katharina Brautigam, Malcolm M.Campbell.Time of day shapes Arabidopsis drought transcriptomes[J]. The Plant Journal,2010( 63):715-727.

[14] M Becerra, M I Gonzalez-Siso, M E Cerdan. A transcriptome analysis of Kluyveromyces lactis growing in cheese whey[J].International Dairy Journal , 2006 (16):207-214.

[15] 陳 建.幾種提取RNA方法的比較[J].林業科技開發,2007,21(5):19-21.

[16] 高 珍.滸苔生理生態特性和轉錄組研究[D].甘肅:甘肅農業大學,2010.

[17] LIU Xin- xing, CHEN Chao. De Novo Assembly of Allotetraploid Arabidopsis suecica Transcriptome using Short Reads for Gene Discovery and Marker Identification[J]. 中國生物工程雜志, 2011,31(7): 45-53.

Transcriptome data assembly and gene function annotation of Eucommia fruits and leaves

LI Tie-zhu1a, DU Hong-yan2, LIU Hui-min1b,1c, WUYUN Ta-na1b,1c, WANG Lin1b,1c,YE Sheng-jing1b,1c
(1a. School of Life Science&Technology; 1b. Key Lab of Non-wood Forest Product of Forestry Ministry; 1c.School of Forestry, Central South University of Forestry and Technology, Changsha 410004, Hunan, China; 2.Non - timber Forestry Research and Development Center, CAF, Zhengzhou 450003, Henan, China)

The transcriptome library of Eucommia fruits and leaves contained 54471338 reads consist of 4902420420 nt. 452421 Contigs were obtained by assembling the reads, and the total length of all Contigs was 90705736 nt;In the transcriptome library, 147027 Scaffolds were obtained by assembling the Contigs, and the total length of all Scaffolds was 6587705 nt; Also the 49610 Unigenes were obtained by by assembling the Scaffolds in the transcriptome library, and the total length of all Unigenes was 37616729 nt;Unigene and the COG database to compare, Unigene in the transcriptome of Eucommia fruits and leaves can be broadly divided into 25 classes according to the function; The Unigenes GO functions in the the transcriptome library were classificated into 3 categories: biological process, cellular component and molecular function and 42 branches;In this study,the KEGG database as a reference,data in the transcriptome can be divided into 119 classes,according to the metabolic pathway,such as lipid metabolism, DNA replication, biosynthesis of plant hormones,Biosynthesis of phenylpropanoids, Biosynthesis of terpenoids and steroids and so on.

Eucommia ulmoides;fruits;leaves; transcriptome;Gene Ontology

S722.3;Q945

A

1673-923X(2012)11-0122-09

2012-10-10

國家林業公益性行業科研專項(201004029);國家十二五科技支撐計劃(2012BAD21B0502)

李鐵柱(1979-),男,河南南陽人,博士研究生,主要從事生態學研究

杜紅巖(1963-),男,河南中牟人,研究員,博士生導師,主要從事杜仲育種栽培與綜合利用的研究;E-mail:dhy515@126.com

[本文編校:歐陽欽]

猜你喜歡
杜仲測序長度
外顯子組測序助力產前診斷胎兒骨骼發育不良
繩子的長度怎么算
1米的長度
中草藥DNA條形碼高通量基因測序一體機驗收會在京召開
基因測序技術研究進展
外顯子組測序助力產前診斷胎兒骨骼發育不良
愛的長度
長度單位
略陽杜仲
殃及池魚
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合