?

虹鱒肝組織新轉錄本分析及基因結構優化

2019-04-28 03:39馬芳劉哲康玉軍權金強
中國實驗動物學報 2019年2期
關鍵詞:虹鱒文庫堿基

馬芳,劉哲,康玉軍,權金強

(甘肅農業大學動物科學技術學院,蘭州 730070)

轉錄組是指細胞在特定階段產生的全部轉錄本,包括mRNA、rRNA、sRNA和tRNA[1]。轉錄組學已經被廣泛用來研究生物體對環境的各種復雜反應,解釋基因組的功能元素。隨著RNA-seq變得越來越便宜,常常成為研究環境壓力的方法。豐富的RNA-seq數據可以構建完整的轉錄組,提供豐富的差異基因表達信息,并可用于識別涉及熱應激反應的生物通路。在魚類中,通過利用RNA-seq識別不同魚類溫度適應機制的研究正在迅速增加。但是,現有數據庫中對轉錄本的注釋還不全面,通過RNA-seq技術,還能檢測到新轉錄本。目前,越來越多的研究開始關注RNA-seq技術在新轉錄本預測和基因結構優化方面的應用[2-3]。

虹鱒(Oncorhynchusmykiss)作為鮭科魚類的一員,正迅速的成為水產養殖中的重要魚類。作為典型的冷水魚,最適的生活溫度是12 ~ 18℃。對于高溫的耐受性低,當溫度超過24℃時免疫功能嚴重下降,組織受損[4]。以前的研究利用微陣列技術驗證了虹鱒對溫度變化的反應[5],并對虹鱒不同種類的熱應激反應進行了比較[6]。

本課題組前期應用RNA-seq技術對虹鱒熱應激下肝組織中差異表達基因進行了鑒定[7],本研究中,在前期研究的基礎上運用生物信息學方法鑒定新的轉錄本并對已注釋基因的結構進行優化及,為深入理解虹鱒熱應激的機制奠定基礎,同時為虹鱒基因組的進一步完善提供數據基礎。

1 材料與方法

1.1 實驗動物及飼養

選擇身體健壯,平均體重為(400 ± 10.5)g的全同胞虹鱒200尾運送至實驗室,置于一個3000 L的水箱在18℃下訓養7 d。試驗前,隨機挑選120尾分為六組,每組20尾,分別置于6個300 L的室內循環流水水箱中暫養一周。飼養期間嚴格按照虹鱒飼養標準飼喂,光照周期為12 h光照和12 h黑暗,嚴格按照虹鱒飼養標準飼喂。

1.2 熱處理及采樣

暫養結束后,選3組繼續18℃飼養,對其余3組進行熱處理升溫,從18℃到24℃以恒定的速率每24 h升高1℃。然后隨機從各組取1尾魚采取肝組織,18℃作為對照組,24℃作為熱處理組。采樣時,用0.05 g/L的間氨基苯甲酸乙酯甲磺酸鹽(MS-222)對實驗用魚進行麻醉,采集肝組織,迅速貯存到液氮中,然后-80℃保存備用。

1.3 RNA提取

利用TRIzol試劑盒 (Invitrogen, Carlsbad, CA, USA對肝組織的總RNA進行提取,用NanoPhotometer? spectrophotometer (IMPLEN, CA, USA)和1%瓊脂糖凝膠電泳對總RNA的純度進行檢測。用Qubit 2.0熒光光度計(LifeTechnologies, CA, USA)和Bioanalyzer 2100 (Agilent Technologies, CA, USA)檢測提取的總RNA的濃度和完整性。樣品檢測合格后進行文庫構建。

1.4 文庫構建和轉錄組測序

應用the NEBNext? UltraTMRNA Library Prep Kit構建6個測序文庫。用帶有Oligo(d T)的磁珠純化mRNA,隨后加入NEBNext First Strand Synthesis Reaction Buffer(5X)使mRNA打斷成短片段,應用六聚體引物和M-MuLV Reverse Transcriptase (RNase H-)合成一鏈cDNA,隨后用RNase H和DNA polymerase I合成二鏈cDNA。利用AMPure XP beads純化雙鏈cDNA選擇150~200 bp的cDNA片段。最后通過PCR擴增得到cDNA文庫。構建好的文庫用Agilent Bioanalyzer 2100檢測合格后,使用Illumina HiseqTM2500平臺進行測序獲得150 bp的雙末端原始數據。

1.5 新轉錄本預測

原始數據(raw reads)去除帶接頭(adapter)的reads和含ploy-N和低質量的reads后獲得clean data。同時計算clean data的Q20a、Q30和GC含量。后面的所有的分析都基于高質量的clean data。應用TopHat v2.0.12將clean data比對到參考基因組,隨后利用Cufflinks v2.1.1軟件對比對結果進行組裝,用Cuffcompare和已知的基因注釋文件進行比較,尋找潛在的新轉錄本。利用GOseq軟件對新轉錄本進行GO功能注釋。KOBAS(2.0)軟件對KEGG注釋通路進行分析。

1.6 新轉錄本熱應激下基因表達分析

根據轉錄本的長度和新轉錄本的比對結果計算每個轉錄本的FPKM(expected number of fragments per kilobase of transcript sequence per millions base pairs sequenced每百萬片段中來自某一基因每千堿基長度的數目)作為表達量的單位,歸一化處理后的數據用log2作為新轉錄本表達的數據。采用DESeqR package (v1.18.0)對熱處理組和對照組之間差異表達的新轉錄本進行分析,P< 0.05的轉錄本為差異表達。

1.7 已知基因結構優化

組裝的轉錄本與虹鱒基因注釋信息進行對比,如果在已注釋基因邊界外的區域有連續的匹配讀段,則將基因的5′和3′端進行延伸,優化已注釋基因的結構。

2 結果

2.1 測序結果數據處理與分析

測序數據已提交NCBI數據庫(SRP092649)。6個文庫(CL1、CL2、CL3和HL1、HL2、HL3)總共產生了287 277 772條原始數據(raw reads),去除帶接頭的reads,去除N的比例大于10%的reads和去除低質量的reads后獲得277 680 702條clean reads。通過對堿基質量進行了評估和堿基組成的檢測,可以保證下游分析的準確性。RNA-Seq測序的堿基質量值是堿基識別出錯概率的整數映射,使用Phred堿基質量值公式計算。堿基質量值越高表明堿基識別準確度越高,例如堿基質量值10 (Q10)、20 (Q20)、30 (Q30)和40 (Q40)分別表示堿基識別出錯的概率為10%、1%、0.1%和0.01%。6個文庫中堿基質量值≥Q30的堿基百分比分別為90.17%、89.77%、89.62%、91.25%、91.47%和91.30%,說明堿基質量較高(表1)。6個樣品的堿基組成情況如圖1,各個堿基占的比例約為25%,G和C堿基及A和T堿基含量每個測序循環上分別相等,且整個測序過程穩定不變,呈水平線,不存在堿基分離現象。利用Top Hat2軟件將clean reads與虹鱒參考基因組進行比對,由表1可知,6個樣品中clean reads與虹鱒參考基因組進行比對效率在66.17% ~ 68.61%之間,其中有單位點(uniquely mapped)比對率在64.83% ~ 67.31%之間,多位點(multiple mapped)比對率在1.23% ~ 2.28%之間,說明測序數據的比對率正常。

表1 clean data與參考基因組序列比對結果Table 1 Comparison of clean data with the reference genome sequences

圖1 原始數據堿基組成Figure 1 Base composition of raw data

2.2 新轉錄本的發掘

通過過濾掉少于50個氨基酸殘基的編碼肽鏈和只包含單個外顯子的序列,共獲得6555個新的轉錄本(表2)。其中表達量較低的(≤10)的基因為1991個,占30.4%;高表達的(>1000)的基因為133個,占2.03%(圖2)。新轉錄本的長度大都在500 bp以上,約占62.1%,說明新鑒定的轉錄本主要為蛋白質編碼基因(圖3)。新轉錄本在染色體上的分布如圖4所示,在chrUn染色體上分布最多,有5411條;在染色體chrUn26上最少,有11條。

表2 利用RNA-seq技術鑒定的虹鱒新轉錄本Table 2 Novel transcripts in the rainbow trout identified by RNA-Seq technology

注:部分數據未列出。

Note. Some data are not listed.

圖2 虹鱒肝新轉錄本表達量統計Figure 2 Statistical data of the expression of new transcripts in the liver of rainbow trout

圖3 虹鱒肝新轉錄本的長度分布Figure 3 Length distribution of the new transcripts in the liver of rainbow trout

圖4 轉錄本在染色體上的分布Figure 4 Distribution of the transcripts on chromosomes

2.3 新轉錄本的注釋

利用Blast2Go軟件對篩選到的新轉錄本進行GO富集分析,3097個新轉錄本注釋到細胞組成、生物學過程和分子功能。在分子功能中,綁定分子功能類別所占比例最多,其次是酶活性活性類別。在生物學過程中,代謝過程類別所占比例最多,其次是生物合成過程類別。在細胞組分中,胞外區類別所占比例最多(圖5)。

圖5 虹鱒肝新轉錄本GO注釋結果Figure 5 GO annotation results for the new transcripts in the liver of rainbow trout

利用KOBAS(2.0)軟件對KEGG注釋通路進行分析,3617個新轉錄本注釋到284條代謝通路。主要的10條代謝途徑見圖6,分別是代謝途徑(metabolic pathways)、粘著斑(focal adhesion)、內吞作用(endocytosis)、PI3K-Akt信號通路(PI3K-Akt signaling pathway)、MAPK信號通路(MAPK signaling pathway)、胰島素信號通路(insulin signaling pathway)、碳代謝(carbon metabolism)、Rap1信號通路(Rap1 signaling pathway)、AMPK信號通路(AMPK signaling pathway)、細菌侵入上皮細胞(bacterial invasion of epithelial cells)。

2.4 新轉錄本表達譜分析

總共有30個新轉錄本在熱應激下差異表達,參與了虹鱒熱應激。其中15個顯著上調表達(Novel00236、Novel00736、Novel01309、Novel01495、Novel02292、Novel02550、Novel02698、Novel03125、Novel03334、Novel03377、Novel03766、Novel04249、Novel05645、Novel06326、Novel06367)(P< 0.05),15個顯著下調(Novel00295、Novel00475、Novel00942、Novel01074、Novel01430、Novel03158、Novel03185、Novel03283、Novel03815、Novel04339、Novel05149、Novel05519、Novel05701、Novel06040、Novel06166)(P< 0.05)(圖7)。

圖6 虹鱒肝新轉錄本KEGG分析Figure 6 KEGG analysis for new transcripts in the liver of rainbow trout

2.5 已注釋基因結構優化

利用RNA-seq測序結果對已注釋基因的結構進一步優化。如果在已注釋基因邊界之外的區域有連續的匹配讀段支持,則將基因的UTR區域向上游或向下游延伸,優化基因邊界?;蚪Y構優化結果顯示,本研究中共有19 424個已注釋基因5′或3′端在原有基礎上發生了延伸(表3)。其中5′端為14 719個延伸,3′端為14 796個延伸(表4)。

圖7 熱應激后虹鱒肝新轉錄本的差異表達Figure 7 Differential expression of new transcripts in the liver of rainbow trout after heat stress

3 討論

虹鱒作為典型的冷水性魚,對高溫的耐受能力差,隨著全球氣候的變暖,對虹鱒的養殖造成了越來越嚴重的影響,因此了解虹鱒熱應激下的生存機制,提高虹鱒的抗逆性至關重要。目前,越來越多的研究深入的探索魚類熱應激的機制[8-10]。對于虹鱒,轉錄水平上進行的熱應激研究相對較少,一些研究采用活體[11-13],或采用體外細胞培養的方法[14-15],初步研究了熱應激下虹鱒個別已知mRNA的表達水平變化,沒有系統研究熱應激調控機理。目前發展的高通量轉錄組測序技術RNA-seq,在研究基因結構和功能方面具有突出的優勢,通過RNA-seq可以全面快速地獲得某一物種特定組織或器官在某一狀態下的轉錄本信息。

表3 基因3′和5′端延伸情況Table 3 Extension of the 3′ and 5′ ends of genes

表4 部分3′或5′端延伸的基因Table 4 Partial 3′ or 5′ extension genes

隨著轉錄組測序技術的快速發展,越來越多的新轉錄本被發現,但是,在現有的數據庫中對新轉錄本的注釋還不全面。豬基因組自基因圖譜公布后,還有不少新的轉錄本被發現[16]。利用RNA-seq技術對綿陽正常組合骨延遲愈合組進行了測序,發現了12 431個新轉錄本[3]。

本研究應用構建虹鱒熱應激下的6個轉錄本序列,將虹鱒熱應激下肝RNA-seq結果中的原始數據,去除帶接頭的reads,去除N的比例大于10%的reads和去除低質量的reads后獲得277 680 702條clean reads。然后對將clean data比對到參考基因組,隨后對比對結果進行組裝,并與已知的基因注釋文件進行比較,尋找潛在的新轉錄本。共發現6555個新轉錄本,表達量較低的(reads ≤ 10)的基因為1991個,說明虹鱒肝中至少表達了4564個新轉錄本,并且大多數是高表達[7]。熱應激下新轉錄本的表達譜分析揭示了這些新轉錄本也參與了虹鱒抗熱應激過程。盡管關于虹鱒對熱應激脅迫的分子機制已經有很多研究[14, 17-18],但是還沒有對這些未知因子在熱應激下的作用機制進行深入分析,因此,本研究首次系統的分析了新轉錄本在熱應激下的調控規律和作用。我們發現在肝中總共有30個新轉錄本受到熱應激的調控,其中15個表達顯著上調,15個表達顯著下調,這給了解虹鱒熱應激的機制進一步奠定了基礎。

RNA-seq還在進一步完善基因結構信息方面發揮著重要的作用,將clean data比對到參考基因組后,發現共有19 424個已知基因的5′或3′UTR區在原有基礎上發生了不同的延伸。該結果表明,已知基因的5′或3′UTR區預測不完全,而這些延伸優化了已知基因的結構。

本實驗通過對RNA-seq結果進行生物信息學分析,發現了6555個新轉錄本,30個新轉錄本參與了虹鱒抗熱應激過程。對已注釋基因的結構進行了優化。這些結果使得虹鱒的全基因組更加全面,也為進一步了解虹鱒熱應激的機制提供更有力的理論基礎。

猜你喜歡
虹鱒文庫堿基
用生命保衛中央文庫的陳為人
那條逆流而上的死魚
專家文庫
應用思維進階構建模型 例談培養學生創造性思維
優秀傳統文化啟蒙文庫
中國科學家創建出新型糖基化酶堿基編輯器
關于推薦《當代詩壇百家文庫》入選詩家的啟事
生命“字母表”迎來新成員
生命“字母表”迎來4名新成員
虹鱒和硬頭鱒早期幼魚滲透生理及能量平衡的比較研究?
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合