?

睡蓮屬葉綠體基因組密碼子偏好性及系統發育分析

2022-06-14 01:00黃祥楚光明鄭新開程錦濤陳健豪徐迎春金奇江楊梅花
中國農業科技導報 2022年4期
關鍵詞:葉綠體堿基睡蓮

黃祥, 楚光明, 鄭新開, 程錦濤, 陳健豪,徐迎春, 金奇江, 楊梅花*

(1.石河子大學農學院,新疆 石河子 832003;2.石河子大學特色果蔬栽培生理與種質資源利用兵團重點實驗室,新疆 石河子 832003;3.南京農業大學園藝學院,南京 210095)

密碼子作為核酸和蛋白質之間的連接,在遺傳信息傳遞過程中起著重要作用[1]。DNA上攜帶的遺傳信息以三聯體密碼子的形式翻譯成氨基酸,每個氨基酸對應至少1種密碼子,最多6種密碼子[2]。編碼相同氨基酸的密碼子被稱為同義密碼子。從原核生物到真核生物,同義密碼子的使用頻率不同,存在密碼子使用偏好性(codon usage bias,CUB)[3-4]。密碼子使用偏好性受環境、堿基突變、基因漂移和基因表達水平等影響,其中選擇和突變壓力是主要影響因素[5-7]。研究表明,親緣關系越近或生存環境越相似的物種越可能采用相似的密碼子選擇策略[5],如單子葉物種偏好使用G/C結尾的密碼子,雙子葉植物偏好使用A/U結尾的密碼子[8-12]。對植物基因組密碼子偏好性的分析在一定程度上有助于研究物種的起源、進化及適應外界環境的分子機制[3]。

睡蓮是睡蓮科(Nymphaeaceae)睡蓮屬(Nymphaea)多年生水生植物,具有很高的觀賞、食用、藥用價值及生態修復功能[13-14]。睡蓮屬有50余種,除南極洲以外在全球廣泛分布,該屬位于被子植物的根部,對研究被子植物的起源和進化具有重要作用[15]。然而,睡蓮屬的分類存在一些爭議?;谒彽男螒B和地理分布將睡蓮屬劃分為5個亞屬[13],分別為新熱帶睡蓮亞屬(subgenus Hydrocallis)、古熱帶睡蓮亞屬(subgenus Lotus)、廣熱帶睡蓮亞屬(subgenus Brachyceras)、澳洲睡蓮睡蓮亞屬(subgenus Anecphya)和廣溫帶睡蓮亞屬(subgenus Nymphaea);基于葉綠體非編碼標記將睡蓮屬劃分為3個亞屬[16-17],分別為廣溫帶睡蓮亞屬、澳洲-廣熱帶睡蓮亞屬(subgenus Anecphya?Brachyceras)和新熱帶-古熱帶睡蓮亞屬(subgenus Hydrocallis?Lotos)。

植物葉綠體含有獨立的基因組,基因組結構簡單,遺傳相對保守[18]。葉綠體基因組中rbcL、matK和trnL?trnF等基因序列被廣泛應用于植物系統發育研究[19-21]。隨著高通量測序技術的廣泛應用,越來越多的植物葉綠體基因組被測序,為比較基因組學、分子系統發育學的研究提供了數據庫。目前,睡蓮屬已報道了22種植物的參考葉綠體基因組,主要以個體水平的基因組特征等研究為主[14,22-23],缺乏密碼子使用偏好性和屬內物種間橫向水平的系統研究。因此,本研究基于22種睡蓮屬植物的葉綠體基因組數據,系統地對睡蓮屬葉綠體基因組編碼區的密碼子使用偏好性及其影響因素進行比較分析,并基于同義密碼子相對使用度(relative synonymous codon usage,RSCU)和葉綠體基因序列比較了睡蓮屬植物的系統發育關系,以期為睡蓮屬植物密碼子偏好性選擇的潛在分子機制和相關物種的系統進化研究提供數據支持。

1 材料與方法

1.1 葉綠體基因組數據

22個睡蓮屬植物葉綠體基因組序列和注釋信息來自NCBI數據庫(National Center for Biotechnology Information,https://www.ncbi.nlm.),根據注釋信息提取蛋白編碼序列,去除長度小于300 bp和重復的編碼序列后用于后續密碼子使用特征分析。

1.2 分析方法

1.2.1 密碼子使用特征分析 使用CodonW 1.4.2軟件分析22個睡蓮屬植物葉綠體基因組蛋白質編碼序列(coding sequence,CDS)同義密碼子的RSCU、有效密碼子數目(effective number of codon,ENC)、密碼子適應指數(codon adaptation index,CAI)、同義密碼子中GC含量和密碼子第3位 A、T、C、G 的含量(用 A3s、T3s、C3s、G3s表示)。使用在線軟件CUSP(http://imed.med.ucm.es/EMBOSS/)計算GC總含量(GCall)和密碼子第1、第2、第3位堿基組成中的GC含量(分別用GC1、GC2和GC3表示)。

1.2.2 中性繪圖分析 計算各CDS中密碼子GC1和GC2的平均值GC12,以GC3和GC12為橫縱坐標進行中性繪圖,分析GC3和GC12之間的相關性。若GC3與GC12相關顯著,則突變是密碼子偏好性主要影響因素;若相關不顯著,表明選擇壓力對密碼子使用影響較大[24]。

1.2.3 ENC-plot分析 以GC3為橫坐標,ENC為縱坐標,進行ENC-plot繪圖,并繪制標準曲線(式1),分析堿基組成對密碼子偏好性的影響。若基因分布在標準曲線附近,則密碼子偏好性僅受到突變影響;若基因坐落在標準曲線下方,則密碼子偏好性受到選擇的影響[25]。

1.2.4 PR2-plot分析 以G3/(G3+C3)為橫坐標,A3/(A3+T3)值為縱坐標,進行PR2-plot繪圖,圖中中心點為A=T且C=G時的值,表示密碼子無使用偏好性,只受到突變的影響[26]。

1.2.5 相關性分析 使用R語言Performance Analytics軟件包中chart.Correlation命令,采用Spearman秩相關系數計算方法,對睡蓮屬葉綠體各基因密碼子不同位置的堿基GC含量和ENC進行相關性分析。

1.2.6 最優密碼子分析 根據ENC大小進行排序,選取前后各10%的基因構建高偏好性和低偏好性庫[27]。計算2個庫各密碼子的RSCU值和ΔRSCU值,去除蛋氨酸(AUG)、色氨酸(UGG)及終止密碼子UUA、UAG、UGA,將同時滿足RSCU>1和ΔRSCU≥0.08的密碼子確定為最優密碼子[26]。

1.2.7 系統發育分析 基于59個密碼子(除去蛋氨酸、色氨酸和終止密碼子)的RSCU值,使用SPSS 25.0軟件對22種睡蓮屬植物進行組間平均聯接法的聚類分析,繪制樹狀圖[11]?;谄涡蛄泻虲DS全長序列,使用MEGA 7.0的系統鄰接法(neighbor-joining,NJ),采用1 000次的Bootstrap檢驗各分支的置信度,其他參數為軟件默認設置,對22種睡蓮屬植物葉綠體基因組構建系統進化樹[28]。

2 結果與分析

2.1 密碼子組成特征分析

由表1可知,22種睡蓮屬植物葉綠體基因組密 碼子 適應 指 數(CAI)為 0.168~0.170,平均0.169,即CAI較低,表明睡蓮屬植物葉綠體基因組密碼子偏好性較弱;有效密碼子數(ENC)為51.301~51.577,平均51.401,即ENC較高,表明睡蓮屬植物葉綠體基因組密碼子偏好性弱;密碼第1、第2和第3位堿基GC含量分別為46.26%、38.67%和32.54%,即不同位置堿基含量均小于50%,表明睡蓮屬植物葉綠體基因偏好使用以A/U結尾的密碼子。

表1 22種睡蓮屬植物密碼子偏好性分析Table 1 Codon usage bias analysis of total 22 Nymphaea 續表Continuted

2.2 密碼子偏好影響因素分析

目前,睡蓮屬植物完成葉綠體基因組測序的種較多,為保證樣本的代表性,根據睡蓮屬植物的生態習性,在22個已完成葉綠體基因組測序的睡蓮屬物種中選擇8個物種的葉綠體基因組蛋白編碼序列為研究對象,包括4種熱帶睡蓮:澳洲巨花睡蓮(N.gigantea)、藍星睡蓮(N.colorata)、小花睡蓮(N.micrantha)、延藥睡蓮(N.stellata);4種耐寒睡蓮:白睡蓮(N.alba)、黃睡蓮(N.mexicana)、睡蓮(子午蓮)(N.tetragona)、香睡蓮(N.oborata)。通過ENC-plot、PR2-plot和中性繪圖分析睡蓮屬葉綠體基因組密碼子偏好性的影響因素。

2.2.1 ENC-plot分析 ENC實際值和期望值的差異可反映突變或選擇壓力對密碼子使用偏好性的影響。由圖1可知,僅有少部分基因沿標準曲線分布,大部分基因位于標準曲線的下方,即大部分基因的ENC實際值小于期望值,說明睡蓮屬大部分葉綠體蛋白編碼基因的密碼子使用偏好性主要受到選擇壓力的影響,小部分基因受到突變的影響。

圖1 ENC-plot分析Fig.1 Analysis of ENC-plot

2.2.2 PR2-plot分析 在沒有選擇壓力情況下,每個密碼子不同位置的核酸突變都是隨機的,概率也一樣,密碼子堿基的偏倚分析可以體現A、T、C、G堿基使用頻率的差異。由圖2可知,4個區域中基因數量分布不均:垂直方向,大部分基因位于中線下方;水平方向,中線右側基因數量高于左側,但分布差異小于垂直方向。由此表明,睡蓮屬植物葉綠體基因組密碼子第3位堿基組成中堿基G頻率大于堿基C,堿基T頻率大于堿基A,進一步說明睡蓮屬葉綠體大部分蛋白編碼基因受到選擇壓力的影響。

圖2 PR2-plot分析Fig.2 Analysis of PR2-plot

2.2.3 中性繪圖分析 中性繪圖可以分析密碼子第1、2位堿基和第3位堿基組成間的相關性,體現密碼子使用的偏好性。由圖3可知,GC3值分布范圍較?。?.243 6~0.396 2),GC12值分布范圍較大(0.345 3~0.550 4),僅有少量基因沿對角線分布,說明密碼子第3位堿基組成與第1、2位堿基組相關性不顯著。線性回歸系數較?。?.026 7~0.146 6),表明突變對密碼子使用偏好性的影響最高僅占14.66%。因此,睡蓮屬葉綠體基因組密碼子使用偏好性主要受到選擇壓力的影響,突變等因素對密碼子偏好性形成的影響較弱。

圖3 中性繪圖分析Fig.3 Analysis of neutrality plot

2.3 相關性分析

對睡蓮屬葉綠體各基因密碼子不同位置堿基組成情況以及ENC值進行相關性分析,結果(表2)表明,GC1與GC12顯著相關,與GC2、GC3不顯著相關;GC2與GC12和GCall顯著相關;GC3與GC3s和GCall顯著相關,說明睡蓮屬葉綠體密碼子三堿基的組成整體相關性較低。而ENC與GC2、GC3、GC3s和GCall顯著相關,與GC1和GC12不顯著相關,說明在睡蓮屬葉綠體基因組密碼子中,第2、3位堿基組成對密碼子使用模式存在較大影響。

表2 睡蓮屬不同位置密碼子的GC含量和各參數的相關性分析Table 2 Correlation analysis of GC contents and related parameters in codons of Nymphaea

2.4 最優密碼子分析

根據ENC值對22種睡蓮屬植物葉綠體基因組高表達和低表達的基因建庫,并計算高、低兩庫的RSCU和ΔRSCU,進行最優密碼子分析,結果(圖4)表明,睡蓮屬植物葉綠體基因組的最優密碼子數為5~11個。其中,澳洲巨花睡蓮(N.gigantea)、墨西哥黃睡蓮(N.mexicana)、子午蓮(N.tetragona)和香睡蓮(N.odorata)的最優密碼子數最多(11個),而埃及白睡蓮(N.lotus)和小腺睡蓮(N.glandulifera)最優密碼子數最少(5個),且最優密碼子的第3位堿基偏向于A和U。22種睡蓮屬植物共同擁有2個最優密碼子,分別為CCA(纈氨酸,Pro)和AAU(纈氨酸,Asn),密碼子第3位堿基均偏好于A和U。

圖4 最優密碼子分析Fig.4 Analysis of optimal codons

2.5 系統進化分析

2.5.1 基于葉綠體密碼子RSCU聚類分析 根據葉綠體基因組密碼子的RSCU值對22種睡蓮屬植物進行聚類,結果(圖5)表明,在平方歐式距離為23.8處,子午蓮和香睡蓮這2種廣溫帶亞屬睡蓮單獨聚成一類,其他20種睡蓮聚成一類。在平方歐式距離為9.5處,康納迪睡蓮等9種古熱帶-新熱帶亞屬睡蓮聚為一類,澳洲巨花睡蓮等11種澳洲-廣熱帶睡蓮亞屬聚為一類。在平方歐式距離為8.2處,白睡蓮和墨西哥黃睡蓮2種廣溫帶亞屬睡蓮從澳洲-廣熱帶睡蓮亞屬分出,單獨聚成一類;同一類亞屬睡蓮之間存在相類似的密碼子特征。由此表明,除白睡蓮和墨西哥黃睡蓮這2種廣溫帶亞屬睡蓮外的20種睡蓮葉綠體密碼子RSCU聚類結果支持了睡蓮屬劃分為3個亞屬的論點。

圖5 基于葉綠體密碼子RSCU的22種睡蓮屬植物樹狀聚類Fig.5 Cluster of total 22 Nymphaea species based on RSCU value of chloroplast codons

2.5.2 基于葉綠體基因序列系統發育分析 基于葉綠體基因組rbcL、matK和trnL?trnF基因序列和蛋白編碼序列(CDS)分別構建22種睡蓮屬植物的系統發育樹,結果(圖6)表明,4種系統發育樹的拓撲結構相似,均包含3個大類。其中,基于matK、trnL?trnF基因序列和CDS構建的系統發育樹將睡蓮屬劃分為新熱帶-古熱帶睡蓮亞屬、澳洲-廣熱帶睡蓮亞屬和廣溫帶睡蓮亞屬;基于rbcL基因序列的系統發育樹將廣溫帶睡蓮亞屬和澳洲-廣熱帶睡蓮亞屬聚成一類,將古熱帶睡蓮亞屬和新熱帶睡蓮亞屬單獨聚成一類。

圖6 22種睡蓮屬植物葉綠體系統發育樹Fig.6 Phylogenetic tree of total 22 chloroplasts from Nymphaea

3 討論

密碼子使用偏好性在生物長期進化過程中廣泛存在,且對基因表達以及蛋白的功能具有重要作用[11]。研究表明,密碼子不同位置堿基受到的選擇壓力存在差異,第1、2位堿基較第3位堿基受到的選擇壓力更大[29]。本研究表明,睡蓮屬葉綠體基因組密碼子不同位置的GC含量存在差異,GC1(46.26%)>GC2(38.67%)>GC3(32.54%),表明睡蓮屬植物偏好使用A、U結尾的密碼子,這和雙子葉植物偏好使用A和U結尾密碼子而單子葉植物好使用G和C結尾密碼子的研究結果一致[8-12]。CAI和ENC是判斷密碼子偏好性強弱的重要指標[29],在本研究中,22種睡蓮屬植物葉綠體基因組CAI變幅為0.168~0.170,平均0.169;ENC變幅為51.301~51.577,平均51.401。由此表明,睡蓮屬葉綠體基因組密碼子偏好性較弱,可能與其葉綠體基因較為保守有關[30]。

不同物種密碼子的使用偏好性存在差異受多種因素影響,自然選擇和基因突變是重要的影響因素[31]。通過ENC-plot、PR2-plot和中性繪圖對睡蓮屬葉綠體基因組密碼子偏好性的影響因素進行分析,結果表明,睡蓮屬大部分葉綠體蛋白編碼基因的密碼子使用偏好性主要受到自然選擇壓力的影響;相關分析結果表明,GC3與GC1、GC2相關性不顯著,進一步證明了這一觀點,可能與睡蓮屬植物種群數量多、分布范圍廣、葉綠體基因的高效表達有關[32]。最優密碼子分析表明,22種睡蓮最優密碼子數量存在差異,共有的密碼子僅有2個(CCA、AAU),可能與高、低表達庫中所使用的編碼基因不同和不同種間的差異有關[33]。睡蓮屬中最優密碼子的確定為今后睡蓮的葉綠體基因表達、密碼子優化和修飾等研究提供理論依據。

睡蓮屬系統進化分析表明,基于密碼子RSCU值的聚類結果和基于葉綠體基因序列構建的系統發育樹結構相似,均能對22種睡蓮屬植物進行到亞屬的劃分,表明基于密碼子RSCU值的分類結果可以作為睡蓮屬分類研究的補充[34]。這和木蘭科[11]、蘭科[35]等植物研究結果不同,和小麥、玉米等7種作物[36]研究結果一致。這可能與睡蓮屬葉綠體基因組密碼子偏好性較弱有關,在進化過程中睡蓮屬植物葉綠體基因受外界因素影響較小。本研究基于不同區域的葉綠體基因序列將睡蓮屬劃分為3個亞屬,即廣溫帶睡蓮亞屬、新熱帶-古熱帶睡蓮亞屬和澳洲-廣熱帶睡蓮亞屬;但基于葉綠體rbcL、matK和trnL?trnF等基因序列對睡蓮屬植物在亞屬層次內的分類存在差異,因此,開發準確度更高的堿基序列區域可能會為睡蓮屬近緣種的區分提供更好的解決方法。

猜你喜歡
葉綠體堿基睡蓮
睡蓮盛放
基因“字母表”擴充后的生命
與睡蓮作伴的追光者
創建新型糖基化酶堿基編輯器
共生
人不吃飯行嗎
生命“字母表”迎來新成員
生命“字母表”迎來4名新成員
睡蓮
豆腐睡蓮
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合