?

基于454 GS FLX高通量測序的南疆沙蜥微衛星特征分析及其候選引物設計

2019-09-23 08:09宋琪郭憲光陳達麗
四川動物 2019年5期
關鍵詞:微衛星堿基高通量

宋琪, 郭憲光, 陳達麗

(1.中國科學院成都生物研究所,成都610041; 2. 中國科學院大學,北京100049;3. 四川大學華西基礎醫學與法醫學院,成都610064)

微衛星DNA又叫簡短串聯重復或簡單序列重復(simple sequence repeats,SSRs),一般是以1~6個核苷酸為重復單位的串聯重復序列,在種群內不同個體之間的重復數量不同(Tóthetal.,2000)。隨著PCR技術的出現,微衛星DNA的這一特性被轉化為用途廣泛的遺傳標記。同時,微衛星DNA在病毒到真核生物的基因組中均有分布,且具有高度的長度多態性(Zaneetal.,2002),加之微衛星這一共顯性分子標記有突變率快、多態性高、易于擴增等優點,被廣泛應用于種群遺傳、譜系地理、個體識別和親子鑒定等領域(Selkoe & Toonen,2006)。開發微衛星標記的方法雖然很多,但步驟繁瑣、耗時耗力的問題在二代測序系統推出前一直存在。2007年,羅氏454公司推出了基于焦磷酸測序法的第二代基因組測序系統——Genome Sequencer FLX System (GS FLX)。454高通量測序除具有二代測序高效、快捷的普遍特點外,還有比其他二代測序的片段讀長更大的優點,因此更適合于微衛星標記的開發(Allentoftetal.,2009;Xiaetal.,2018)。

南疆沙蜥Phrynocephalusforsythii隸屬于鬣蜥科Agamidae沙蜥屬Phrynocephalus,是我國特有的一種小型卵胎生爬行動物(頭體長36~50 mm,尾長48~62 mm),分布于新疆維吾爾自治區天山山脈以南海拔1 400~3 100 m 的廣大地區。南疆沙蜥的研究集中在生態適應(戴昆,馬鳴,1991)、核型(曾曉茂等,1997)、組織學(吾瑪爾·阿布力孜,楊立中,1999;吾瑪爾·阿布力孜等,2000)、基于ND4基因的譜系地理格局(Zhangetal.,2010)以及線粒體基因組特征(Chenetal.,2016,2019;Shaoetal.,2016)等。微衛星標記的研究僅見于Nie等(2015)運用轉錄組測序對青海沙蜥P.vlangalii開展微衛星位點篩選,跨物種在南疆沙蜥中檢測得到22個可擴增的微衛星位點。

本研究通過Roche 454 GS FLX高通量測序對南疆沙蜥進行低覆蓋度基因組測序,并利用Krait(Duetal.,2018)首次在南疆沙蜥基因組中進行微衛星的查找與統計,旨在對其基因組水平上的微衛星重復序列的種類、數量等分布特征進行初步探索??紤]到微衛星標記多態性,三堿基和四堿基重復微衛星的不易產生由于滑鏈錯配形成影子帶(O’reilly & Wright,1995)等優越性(O’connell & Wright,1997),因此,選取部分三、四堿基重復的微衛星進行引物設計篩選,得到可用于微衛星分析的部分候選引物,以期為利用微衛星標記研究南疆沙蜥種群遺傳結構奠定基礎。

1 材料和方法

1.1 樣品收集、基因組DNA提取及Roche 454 GS FLX高通量測序

用于基因組測序的南疆沙蜥標本(標本號:WGXG08351)于2008年6月采自新疆維吾爾自治區若羌縣(86.25804°E,41.33690°N,海拔827 m),標本經75%乙醇固定后,保存于中國科學院成都生物研究所兩棲爬行動物標本館。其肝臟組織樣品固定于95%乙醇,-20 ℃保存。將提取的基因組DNA送至上海美吉生物信息科技有限公司進行Roche 454 GS FLX基因組測序。采用GS FLX系統對測序數據進行過濾、整理,使用Newbler 2.6(Roche,2011)對優化后的原始數據從頭拼裝,并將組裝出的contigs和未拼裝進去的single read序列合并。

1.2 微衛星序列的查找及引物設計

采用Krait(Duetal.,2018)對合并的總序列進行完美型微衛星位點的查找,搜索標準如下:單堿基重復≥12個拷貝,二堿基重復≥7個拷貝、三堿基重復≥5個拷貝,其他堿基重復(四堿基、五堿基、六堿基)≥4個拷貝;重復序列兩端的側翼序列長100 bp;其余參數采用默認設置。同時,對部分三堿基和四堿基重復類型在Krait中基于primer3和primer3-py進行引物設計,參數為:PCR產物長100~450 bp;引物長20~27 bp;引物熔解溫度55~65 ℃;GC含量30%~70%;其余采用默認參數設置。對設計出的引物再依據以下原則二次篩選:①引物序列堿基盡量隨機分布,3’端不超過3個連續的G或C,避免引物在GC富集序列區的錯誤引發;②引物自身及引物之間盡量無互補序列,避免引物自身折疊成發卡結構使引物本身復性,引物自身無連續4個堿基或4個堿基的互補;③引物序列3’端盡量無連續的3個相同堿基相連的情況,避免引起錯配。

2 結果

2.1 測序數據統計及基因組組裝

采用Roche 454 GS FLX高通量測序對原始測序數據的每條read質量過濾后,對下機數據進行統計,得到78 927條reads,共39 807 639 bp,最短的22 bp,最長的1 132 bp,平均長度為504.4 bp,本次測序獲得的reads長度主要為581~760 bp。利用Newbler對reads拼接得到670個contigs,共341 384 bp,最短的100 bp,最長的15 140 bp,平均為509.5 bp。未拼接上的reads有55 239個,共27 984 639 bp。

2.2 南疆沙蜥基因組微衛星的數量和分布特點

將組裝出的contigs和未組裝進去的single read序列合并,得到合并序列55 909個,共28 326 023 bp。對合并的總序列進行微衛星位點的查找,獲得南疆沙蜥全基因組中6種完美型微衛星12 109個,總長度371 160 bp,占基因組的1.32%,相對豐度為427.62個/Mb。其中,數量最多的為四堿基重復類型,占重復類型序列總數的33.34%;其次是二堿基重復類型,占28.09%;其余幾種類型占比均小于20%,最少的為六堿基重復類型,只占1.46%,相對豐度為6.25個/Mb(表1)。

表1 不同重復類型的完美型微衛星在南疆沙蜥基因組的分布情況Table 1 Distribution of perfect SSRs with different repeat types in the genome of Phrynocephalus forsythii

2.2.1 各種重復拷貝類別的數量和相應的比例同一種類型的重復序列中,各重復拷貝類別所占的比例也不相同(表2)。單堿基重復類型中,C最多,有1 206個;二堿基重復類型中,AC最多,有2 101個。AAC(392個)、AAAT(1 592個)、AAAAT(181個)和AACCCT(40個)分別是三堿基、四堿基、五堿基和六堿基重復類型中最多的重復拷貝類別。所有搜索到的完美型微衛星中,AC(17.35%)、AAAT(13.15%)、C(9.96%)、AG(9.67%)、A(3.95%)、ATAG(3.63%)、AAC(3.24%)、AGG(2.96%)、AAT(2.64%)和AAAC(2.58%)是數量最多的前10種重復拷貝類別。其他重復拷貝類別數量均不超過300個,相對豐度均不超過10個/Mb(圖1)。

2.2.2 各種重復類型微衛星拷貝數的數量分布單堿基重復分布范圍為12~32次,主要分布在12~16次,有1 464個,占單堿基重復類型總數的86.94%;二堿基重復分布范圍為7~204次,主要分布在7~11次,有1 402個,占二堿基重復類型總數的41.21%;三堿基重復分布范圍為5~35次,主要分布在5~13次,有1 832個,占三堿基重復類型總數的80.81%;四堿基重復分布范圍為4~121次,主要分布在4~15次,共3 616個,占四堿基重復類型總數的89.57%;五堿基重復分布范圍主要為4~7次,共492個,占五堿基重復類型總數的90.77%;六堿基重復分布范圍為4~10次,主要分布在4~7次,共169個,占六堿基重復類型總數的95.48%(圖2,表3)。

2.2.3 微衛星位點的引物設計及候選引物序列挑選了部分三堿基和四堿基重復的微衛星進行引物的設計,對引物二次篩選后,最后保留100對候選引物(表4)。

3 討論

本研究利用Roche 454 GS FLX高通量測序平臺對南疆沙蜥進行了低覆蓋度基因組測序,并利用Krait(Duetal.,2018)進行微衛星的查找與統計。結果表明,不同類型的微衛星在南疆沙蜥基因組中豐度差異很大,以四堿基重復類型最多。與以往對物種基因組中進行微衛星查找的研究相比,這種情況很少見。植物基因組中,已有研究表明占優勢的微衛星是二堿基重復(Tóthetal.,2000)或六堿基重復(馬秋月等,2013;廖卓毅等,2014)。對動物的研究,無脊椎動物中占主導的微衛星重復類別沒有特別明顯的規律,最豐富的類型既有單堿基重復(汪自立等,2013),又有二堿基重復(高煥等,2004)和三堿基重復(魏朝明等,2007;汪自立等,2013);脊椎動物中單堿基重復占主導的較多(黃杰等,2012,2015;戚文華等,2013;李午佼等,2014;聶虎等,2017;崔凱,岳碧松,2018)。有研究推測,多數物種基因組微衛星中單堿基重復豐度最高,可能是由于微衛星序列越長,突變率就越高,因此穩定性就越差(Wierdletal.,1997);在很多真核生物中,重復長度和重復頻率呈負相關(Kattietal.,2001)。然而,我們對南疆沙蜥的研究結果與之相差甚遠,與南疆沙蜥同屬于爬行類的紅尾蚺Boaconstrictor和原矛頭蝮Protobothropsmucrosquamatus也并未表現出一致的微衛星重復類型(聶虎等,2017)??傮w而言,不同物種基因組中的微衛星重復類型豐度表現不盡相同,重復長度和重復頻率的相關關系可能也不宜一概而論。

圖1 南疆沙蜥基因組中相對豐度最高的微衛星基序分布Fig. 1 Relative abundance of the most relative abundant microsatellite motifsin the genome of Phrynocephalus forsythii

重復基序Motif數目Counts長度Length/bp占比Percent/%平均長度Average length/bp相對豐度Relative abundance/(個/Mb)AC2 10195 14417.3545.2974.19AAAT1 59247 76013.1530.0056.22C1 20617 2049.9614.2742.59AG1 17134 5629.6729.5141.35A4786 2943.9513.1716.88ATAG43925 9323.6359.0715.50AAC39210 5273.2426.8513.84AGG3587 5062.9620.9712.64AAT32013 1912.6441.2211.30AAAC3127 0722.5822.6711.02

圖2 南疆沙蜥不同重復拷貝類型微衛星的重復次數分布
Fig. 2 Distribution of the copy number in different microsatellite motifs forPhrynocephalusforsythii

表3 分布頻率最高的重復拷貝類型微衛星的拷貝數分布情況Table 3 Distribution of the number of copy repeats among the most frequent microsatellite motifs

表4 100對擴增南疆沙蜥微衛星DNA的候選引物Table 4 The list of 100 pairs of candidate primers to amplify the microsatellite DNA loci for Phrynocephalus forsythii

ssr-4503(ATC)18TCTCATAGGTCTGGTTCACTAAGC59.60GCTGTGCCTCACTGATAGACG60.80151ssr-5180(ATC)15GACAAACATGCACCACCACC59.97GGGTCACACTCAATATTCTGTGG59.06158ssr-6874(ATC)12CCATATCCAGTCTCCTGCTAGG59.17AGTAACAGGAGGGCATCAGG58.79206ssr-587(AAAT)4ATCCTTGCAGGTGGGAATGG56.99TTGTAAGCTGCCTTGAGTCC57.81102ssr-100(AAAT)5GATGGGTTCCTACCAGGTGC60.11ATTGCAGCCTTGTGTAAGCC59.11155ssr-141(AAAT)5CTGTAAACCGCCCAGAGTCC60.39AAACAGAACTCGAGGCAAAGG58.78158ssr-380(AAAT)5TCAATGACACCAAGCACTGC60.16TGTAAACCGCCCAGAGTAGC59.75102ssr-17(AAAT)5GTGCTCACAGGCCAGTACC60.38CTACAGCTGGTAGGCAGGC59.86147ssr-392(AAAT)6TCAATGACACCAAGCACTGC58.98TTGTAAACCGCCCTGAGTCC59.96154ssr-449(AAAT)6AGAGTGGGAGGGAAGGAAGG59.19TTTGTCGCCTGATTGTTCGC59.76123ssr-153(AAAT)7AGTTGTCCATGTACAGGCAGG60.00GTATTCTGTTAGCGCCCACG59.07161ssr-252(AAAT)7AATGTTGCTGATACTGGTACTAGG59.83GCTACAGCTCACTTGATATGGC59.19106ssr-213(AAAT)8TCAATGACACCAAGCACTGC60.14ATCATGGGCCAATCGTGGG60.15157續表4位點Locus重復基序Repeat motif上游引物序列Forward primersequence (5’-3’)熔解溫度Meltingtemperature/℃下游引物序列Reverse primersequence (5’-3’)熔解溫度Meltingtemperature/℃PCR產物長度PCR productlength/bpssr-636(AAAT)8ATAAGATGAGGTGCAGGCGG58.56GTGCAACTTGGTGAGGATCC58.83116ssr-84(AAAT)11TCAATGACACCAAGCACTGC59.05AACACACTGCCCAGAGTAGC59.96133ssr-1024(AAAT)11CGTCTTTCCTTGGGAGTGCC60.96TTGTTCGCCGCTTAGAGTCC60.39165ssr-1777(AAAT)11CTGTAAGACGCCTTGGGTCC60.39TGGGCCAGTTTGACTCTTGG60.18199ssr-990(AAAT)12TGAACTTTCAGTGACAACAGCC59.32AAACATGACCACAGTGCTGC59.33177ssr-1208(AAAT)14ACTGAGTGGAACGATGTCTGG59.73TGACCTTGTTGGCAGATGGG60.25120ssr-1223(AAAT)14ACCTTTGGGTAGTGGACAGC59.60CCTTAGTCCACTGAGCCACC59.75156ssr-1338(AAAT)14TGCTTCATTGCTGAACTGCC59.40TGAGCCGCTTAGGTCTTTCC59.75199ssr-1663(AAAT)14GCCAGCCAGCTTATAACAGG58.69CCCTGTCATGTGATTGCTTGC60.14169ssr-1771(AAAT)14TCTTGGAGGACTGATGAAGGC59.44TGGTGTTAAATGATGCTGTGACC59.49163ssr-1158(AAAT)15AGTTCTTCGGGAAGATGGCC59.75CAGGATGATCCAGTACGGCC59.97119ssr-1403(AAAT)15GCAGGCTTCGTGTACAATCC59.27GGAGAGTGCATGGTTTCATTCC59.58186ssr-835(AAAT)15CTGACATGCCTCACAATGCC59.55CTGGGTTGCCAAATGAGTGG59.40170ssr-1310(AAAT)16TTGTCACCCATACTGAGGCC59.38CAGGTTATCACACTGCTGGC58.91158ssr-1066(AAAT)16ACTGCAACTCCCAGAAGTCC59.60CCACCCAGAGTAGCCCTAGG60.76191ssr-262(ATAG)4CTGTAAACCGCCCAGAGTCC60.18AGATCCTGGCCGTGAAAGC60.08136ssr-910(ATAG)13CCAAAGTGGCCTTGCTGC59.66ATCCCCAGAGTGATGCATGG59.52117ssr-844(ATAG)17ATCTACCTCACTGGACCTGG57.83CACCCAGGTAGTGTAGTTTGC58.58203ssr-913(ATAG)17AAAGTGCCACCAAGCCCAGC63.90TAGCTGGCTGGCTGGCTGG64.61126ssr-789(ATAG)20ATGGGTCTCTTCAGGCAAGC60.03TGACTTGACTGACTAGCTGGC59.73198ssr-1668(ATAG)23AGGAAATACACTGCCCAGAGC60.07AATCAGCAAAGGTCAGTGGG58.08191ssr-83(AAAC)4TCAATGACACCAAGCACTGC59.05AACACACTGCCCAGAGTAGC59.96133ssr-240(AAAC)4AGCTGTCACCCATGTATGGC60.18GCTTAGCTCCAGTCTCAGGG59.54186ssr-379(AAAC)4CCACTTCCAGCCAGTGAAGC57.39TATATTGTTGGATGCTGCCC55.55109ssr-621(AAAC)4GTGCCTCAGCTGGTATCAGG60.07TCCTTGAGAATTTGCACCAACC59.37145ssr-1321(AAAC)13TTCTGTTGGGAAGACGGTGC60.53TTGTGGATACCCTGGACTGC59.38171ssr-183(AAAG)4GTGCTCACAGGCCAGTACC60.25CTCCCACTCACCTTCCTTCC59.38136ssr-1087(AAAG)11CGGATACAAATACAAAGAGCCC57.19CCTGTGTTAACCGACAACAGG59.13200ssr-1406(AAAG)14AACTCCAGGCTAGGCTGTGG61.56TGTCCTTGCAGAGTTCTCAGG59.65162ssr-1665(AAAG)14TATGGGCTTACCTCACCAGG58.49TTGCCACCATTGTCCTAGGC60.32148ssr-404(AAAG)16GATGGGTTCCTACCAGGTGC59.24CCAAATCCAGATCAGGTTGCC59.25202ssr-354(AATG)4GTGCTCACAGGCCAGTACC60.18TGATTCATTGTGGTTTCAGCTGG59.74117

ssr-1664(AATC)11ATCCTCCTGCAGATACAGCC58.94AGGTGTTCATGTAGAAGGCTAGC60.12104ssr-81(ATCC)10CCACTTCCAGCCAGTGAAGC61.24CCATCCATCCATCCATCCATCC60.36172ssr-3524(ATCC)13AATGCCTACTGCCAGAAACC58.16AGTGATTTGACTGCTGCTGC59.12147ssr-4478(ATCC)14GTCTGTCCGTCCATCCATCC59.89CTGACCCTGCTTAGCTTCCG60.46213ssr-5989(ATCC)12AAGCAAGCAACTGAGCAAGC59.97GCTAGTCTTGTTAGGATTGCACC59.38125ssr-8782(ATCC)11TCTGTGTTGATGTTCCATGTCC58.59GCACAATGCAAGAACAATGC57.13204ssr-113(AAGG)6GCTTGAGGAAGGAAGGGAGG59.75TGAACAATAGCTTGCAACAGCC60.03139ssr-581(AAGG)6GGTGCGCTGTTATTCTTGCC59.38GTGGGTGTGCTTGCTTATGC60.11138ssr-574(ACGG)4TTGGTTGGTGTACAGAGGCG60.32TTGATCCAACGGGCTCAAGG60.32145ssr-764(ACTG)4TGTTTAATTGTCGATTCAGGATGGC59.89GACAGGTGATCCCAGTACGC60.18138ssr-517(ACTC)9GTAGTCCATTGTTGCAAGCCG57.62CCATGGAGTCACAAAGAGTTGG59.18170ssr-91(AGGG)4AGCTGTCACCCATGTATGGC60.11AGGAGATGAAGAACGGGTTGG59.72176ssr-723(AGGG)5TGACTGAAGGGAGGAGGAGG57.84GCAGAATCACTAGCCATGGC59.05113

從南疆沙蜥重復基序的拷貝數分布來看,重復次數少的類型占多數。譜系(Weber & Wong,1993;Schl?ttereretal.,1998)、種群(Goldstein & Clark,1995)和克隆株(Wierdletal.,1997)的微衛星分析結果均支持SSR位點的變異頻率與拷貝數存在一定相關性,即重復次數越多,SSR產生變異的可能性越大,但Schl?tterer(2000)認為這種相關性是否呈線性關系還有待進一步研究。

據Guichoux等(2011)統計,自1990年以來,有關微衛星的論文數量增長迅猛,一定程度上也促進了二代測序技術的發展。而二代測序出現之前,微衛星重復類型的獲得對于非模式生物來說均是一個瓶頸(Guichouxetal.,2011)。隨著高通量測序技術的發展,測序成本逐漸降低,可獲得的數據越來越多,這為進一步增進對非模式物種的深度了解提供了很好的契機。Nie等(2015)運用Illumina高通量RNA-seq測序技術對青海沙蜥進行轉錄組測序,鑒定篩選出25個微衛星位點,其中22個位點可在南疆沙蜥中擴增。本研究使用454 GS FLX高通量測序技術對南疆沙蜥進行基因組測序,SSR分子標記開發及分析,利用軟件預測首次對南疆沙蜥基因組微衛星進行了搜索統計并設計篩選了100對基于三堿基和四堿基重復的候選引物,為利用微衛星標記研究南疆沙蜥種群遺傳結構奠定了基礎。

猜你喜歡
微衛星堿基高通量
酰胺質子轉移成像和擴散峰度成像評估子宮內膜癌微衛星不穩定狀態
綠鰭馬面鲀全基因組微衛星分布特征
新一代高通量二代測序技術診斷耐藥結核病的臨床意義
基于轉錄組西施舌微衛星標記開發及隱種鑒定
花斑無須鯰(Ageneiosus marmoratus)全基因組微衛星分布特征研究
應用思維進階構建模型 例談培養學生創造性思維
高通量血液透析臨床研究進展
比較高通量血液透析與血液透析濾過在尿毒癥患者中的應用效果
中國科學家創建出新型糖基化酶堿基編輯器
中草藥DNA條形碼高通量基因測序一體機驗收會在京召開
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合