?

四川山鷓鴣基因組中內源性逆轉錄病毒的分析

2019-09-23 08:09鄭帥周闖范振鑫李靜岳碧松孟楊
四川動物 2019年5期
關鍵詞:鷓鴣拷貝數拷貝

鄭帥, 周闖, 范振鑫, 李靜, 岳碧松, 孟楊, 2*

(1. 生物資源與生態環境教育部重點實驗室,四川大學生命科學學院,成都610065; 2. 四川大學自然博物館,成都610065)

內源性逆轉錄病毒(endogenous retrovirus,ERV)起源于逆轉錄病毒,是當逆轉錄病毒感染宿主的生殖細胞并將基因組插入到生殖細胞基因組中,傳遞給下一代所形成。因此,ERV是位于宿主基因組中的病毒基因組,具有如下結構:5’ LTR-gag-pol-env-LTR 3’。長末端重復是位于ERV序列兩端的2段相同DNA序列,含有啟動子、聚腺苷酸化位點等調控元件。gag、pol和env分別代表3個蛋白質的編碼基因。雖然在漫長的演化過程中,其結構會發生一些變異,但仍然具有很高的保守性,識別基因組中ERV也主要是根據其結構特征和蛋白質編碼基因的序列相似性。

ERV插入宿主基因組中的位置是隨機的(Bolisettyetal.,2012),如果插入到基因附近或基因內部,就會改變基因原有結構,影響基因表達,可能產生有害的結果。但對宿主不利的ERV在負選擇作用下會被逐漸清除出宿主基因組,而不妨礙宿主正常的生理活動,而對宿主有利的ERV就會被保留下來。ERV在宿主基因組中并非靜止,它可以通過自我復制產生新的拷貝,插入到基因組中的其他位置。病毒的再次感染也會形成新的ERV,這樣宿主基因組中就存在很多來源于同一種逆轉錄病毒的ERV拷貝,形成ERV家族(Gifford & Tristem,2003)。除了垂直傳遞外,ERV還可以在宿主間進行水平傳遞,從一個宿主中釋放出來,感染另一個宿主。ERV與同源的外源性逆轉錄病毒之間也存在交互,它們可以相互交換基因組片段,形成新的重組病毒(Payne & Nair,2012)。ERV具有許多重要的生物學功能,比如參與人類胎盤的形態發生,避免宿主被同源的外源性病毒感染,調節插入位點附近的基因表達等(武元峰,欒洋,2014)。

由ERV衍生的重復序列在鳥類基因組中廣泛存在,其含量為0.17%~4.11%(Zhangetal.,2014),但大多數都是不完整的ERV片段或單獨出現的長末端重復。很多鳥類的性狀都與ERV的插入有關,例如雌相羽(Matsumineetal.,1991)、白羽雞(Changetal.,2006)、綠殼蛋(Wangetal.,2013)等。某些種類的ERV還具有致癌性,如ALV-J能夠引起家雞Gallusgullusdomesticus發生腫瘤(Gaoetal.,2010)。

四川山鷓鴣Arborophilarufipectus是中國西南山區特有的珍稀雉科Phasianidae鳥類,被世界自然保護聯盟(IUCN)列為瀕危(EN)物種,也是國家Ⅰ級重點保護野生動物。受捕獵、生境喪失等影響,其成熟個體的數量僅為1 000~2 499只,且在持續下降中(IUCN,2018)。其生態習性(廖文波,胡錦矗,2010)、行為特征(廖文波,2011)、基因組中的微衛星(Huangetal.,2015)、Chicken Repeat 1轉座子(Cuietal.,2016)等已有研究,對山鷓鴣屬Arborophila鳥類的系統發生關系和演化歷史的研究也取得了很大進展(李雪娟等,2014;Yanetal.,2017)。但對四川山鷓鴣基因組中的ERV仍然知之甚少,本文比較全面地呈現了四川山鷓鴣基因組中ERV的分布情況,對全面了解這一瀕危物種,采取更好的保護策略具有重要意義。

1 材料與方法

1.1 基因組測序

測序樣品來源于四川老君山國家級自然保護區的1只四川山鷓鴣。相關項目信息和原始數據已上傳至NCBI(PRJNA419836)。測序采用paired-end共構建了8種不同插入長度的DNA文庫,包括小片段文庫(插入長度為250 bp、500 bp與800 bp)和大片段文庫(插入長度為2 kb、5 kb、10 kb、15 kb與20 kb)。對小片段文庫,測序采用Illumina HiSeq X Ten平臺,大片段文庫采用Illumina HiSeq 2500平臺,測序深度達~274×,讀長均為150 bp,獲得的數據總量為347.94 Gb。

1.2 基因組的de novo組裝

首先使用SOAPdenovo 2 2.04-r240(SOAPdenovo-63mer;Luoetal.,2012)將讀長組裝成contig和scaffold。小片段文庫用于組裝contig,大片段文庫用于將contig連接為scaffold,運行參數為:SOAPdenovo-63mer all-s config_file-o out_prefix-K 27-p 30-d 5-M 3-F;然后使用SSPACE 3.0(Boetzeretal.,2011)根據大片段文庫將SOAPdenovo2輸出的scaffold進一步連接,運行參數為:SSPACE_Standard_v3.0.pl-l library.txt-s scaffold_file.fa-T 30-v 1-g 0-k 7;最后使用GapCloser 1.12(Luoetal.,2012)根據小片段文庫對scaffold中的缺口(連續的N)進行填補,采用默認的參數運行。最終獲得1.09 Gb的基因組序列,scaffold N50長度為4.57 Mb。

1.3 確定和注釋ERV

采用LTRharvest 1.5.10(Ellinghausetal.,2008)確定基因組中的ERV,主要參數設置為:minlenltr=100,maxlenltr=1 000,similar=90,overlaps=no。注釋采用LTRdigest 1.5.10(Steinbissetal.,2009),采用關鍵詞“retro”搜索Pfam數據庫,找到了與ERV蛋白質相關的41個條目,又包括了Steinbiss等(2009)構建的Pfam文庫,最終確定了1個含有53個Pfam條目的文庫,作為LTRdigest的輸入,用于檢測gag、pol和env基因所編碼蛋白質的結構域。

1.4 定義家族與估算年齡

首先使用Usearch 1.0.667_i86linux32(Edgar,2010)聚類,主要參數設置為:cluster_fast id=0.80,query_cov=0.80,maxaccepts=5,maxrejects=105;然后使用RAxML 8.2.12(Stamatakis,2014)構建系統發生樹,主要參數設置為:raxml-f a-x 1237-p 1237-# autoMRE-m GTRGAMMA-T 4;最后進行手工檢驗,若有2個或多個Usearch家族處于系統發生樹的同一分支,則將這些家族合并,形成一個新的家族。

年齡估算使用公式T=D/2R,式中,T代表ERV的年齡,D是2個長末端重復序列的演化距離,采用MEGA X(Kumaretal.,2018)計算,R是每百萬年的堿基替換率,采用紅原雞Gallusgallus和火雞Meleagrisgallopavo的常染色體年替換率:3.6×10-9(Axelsson,2004)計算。

2 結果

2.1 ERV的數量與結構特征

位于ERV序列兩端的長末端重復長度一般為100~1 000 bp,是識別基因組中ERV的重要特征。具有2個可識別的長末端重復的ERV稱為全長ERV,2個長末端重復之間的序列稱為ERV的內部序列。通過denovo從四川山鷓鴣基因組中確定了3 962 個全長ERV拷貝,總長度為18.01 Mb,占基因組的1.65%。利用LTRdigest對ERV的引物結合位點,多嘌呤序列,gag、pol和env3個基因編碼的蛋白質結構域進行注釋。發現有4個拷貝同時具有這5種特征,即具有完整的結構;11個拷貝同時含有3種蛋白質結構域;72個拷貝同時具有引物結合位點和多嘌呤序列,表明它們具有自我復制的能力;554個拷貝含有至少1個蛋白質結構域,其中,約73%(404個拷貝)含有逆轉錄酶域(Pfam ID:RVT_1)。

在排除了重復的、長度<80 bp、未知堿基N的含量>80%和被Chicken Repeat 1污染的拷貝后,共獲得2 579個高質量的全長ERV拷貝,其中318個含有逆轉錄酶域被用于定義ERV家族。

2.2 ERV家族的定義與命名

根據Wicker等(2007)提出的轉座子家族的定義方法,基于逆轉錄酶序列的相似性,將318個含有逆轉錄酶域的ERV拷貝分成了48個不同的家族。其中11個家族的拷貝數>3,2個家族的拷貝數為2,其余35個家族的拷貝數為1。為了確定四川山鷓鴣基因組中的ERV與已發現其他物種的關系,將拷貝數>3的11個家族中所有拷貝的內部序列作為查詢序列,用BLASTN搜索了Repbase數據庫(Baoetal.,2015),結果發現,仍然有4個家族的序列中含有Chicken Repeat 1。為了盡可能避免Chicken Repeat 1對ERV家族的污染,將這4個家族移出分類系統,最終獲得7個ERV家族,并依據BLASTN結果中的Repbase條目名稱,力求反映與其他物種ERV的親緣關系,對這7個ERV家族分別進行了命名(表1):每個家族名都由2個部分組成:第一部分為代表四川山鷓鴣這一物種的“Aru”前綴,第二部分為代表家族歸屬的類別名。

表1 ERV家族Table 1 Assigned ERV families

注: BLASTN結果中匹配到對應的Repbase條目的ERV拷貝數

Note: Number of matched ERV copies corresponding to the Repbase entry by BLASTN

AruERV-L是四川山鷓鴣基因組中最大的ERV家族,包含了122個拷貝。為了確定其他鳥類中是否也含有ERV-L拷貝,將AruERV-L家族所有拷貝的內部序列作為查詢序列,用BLASTN(identity≥80%,coverage≥80%)分別搜索了紅原雞、綠尾虹雉Lophophoruslhuysii、日本鵪鶉Coturnixjaponica、火雞、非洲鴕鳥Struthiocamelus、原鴿Columbalivia和斑胸草雀Taeniopygiaguttata7種具有代表性的鳥類基因組。結果在后3種鳥中未發現ERV-L的拷貝,前4種鳥的ERV-L拷貝數分別是159個、137個、70個和35個。

2.3 ERV的年齡分布

在ERV插入基因組的事件發生時,其兩端的長末端重復序列相同,但隨著時間的增加,基因突變使2個長末端重復之間產生差異。因此可以通過比較全長ERV 5’端和3’端的長末端重復的差異來估算ERV的年齡,即該ERV的插入事件發生在多少時間以前(Hudaetal.,2008)。

上述7個家族中有5個家族含有年齡為0的ERV拷貝,即2個長末端重復完全相同的拷貝(圖1)。也就是說這些ERV拷貝的插入事件發生在最近,即這些家族的某些拷貝在最近有活動,進行了自我復制,產生了新的拷貝。5個家族中,AruDawg中年齡為0的拷貝含有9個,AruERV-K1含有3個,AruERV-L含有2個,AruERV-4、AruERV-20各含有1個。

將年齡在1百萬年以內的ERV拷貝稱為年輕拷貝。7個家族中,除AruERV-K2外,其余的均含有年輕拷貝,AruERV-K1含有年輕拷貝的比例最高,約86%(6/7),AruDawg含有年輕拷貝的數量最多,為45個(約54%)??梢酝茰y,這2個ERV家族至今仍處于活躍狀態(圖1)。

圖1 ERV家族年齡分布Fig. 1 Distribution of the ages of ERV families

3 討論

雖然四川山鷓鴣基因組中全長ERV拷貝的總量接近4 000個,但大多數拷貝都缺少進行自我復制所必需的引物結合位點、多嘌呤序列等調控元件,只有約2%的拷貝保留有進行自我復制產生新拷貝的能力,這些拷貝是演化過程中維系ERV家族存在的關鍵。

AruERV-L是四川山鷓鴣基因組中含量最豐富的ERV家族,其年齡分布范圍也非常廣泛,最遠可追溯到12百萬年以前,可見AruERV-L在四川山鷓鴣中具有悠久的演化歷史。ERV-L是一個值得注意的ERV家族,Bénit等(1999)發現該家族普遍存在于胎盤哺乳動物中。而紅原雞、綠尾虹雉、四川山鷓鴣、日本鵪鶉和火雞也都含有ERV-L,且四川山鷓鴣分支在雉科鳥類的系統發生樹中出現的最早(李雪娟等,2014),因此有理由推測,ERV-L普遍存在于雉科鳥類中。在非洲鴕鳥、原鴿和斑胸草雀3種非雉科鳥類中并未發現ERV-L,這說明ERV-L在鳥類中的存在并不具有普遍性。那么ERV-L在哺乳動物和鳥類中的引進就很可能是獨立發生的。

四川山鷓鴣基因組中最年輕的ERV家族是AruERV-K1。年輕的ERV一般具有比較完整的結構,能夠自主轉錄與復制,對宿主的各項生理功能產生影響的可能性更大。ERV插入基因組中位置的隨機性,也使得其具有影響宿主生理活動各個方面的潛能(Bolisettyetal.,2012)。經過漫長的演化,四川山鷓鴣表現出了特殊的環境適應性(Fuetal.,2017),而ERV始終動態地存在于基因組中,很可能在其適應性演化中扮演著重要角色。因此,深入了解這些ERV的生理功能,對采取更加科學的方法保護四川山鷓鴣具有十分重要的意義。

猜你喜歡
鷓鴣拷貝數拷貝
線粒體DNA拷貝數在兒童腦性癱瘓患者中的表達及臨床意義
鷓鴣
鷓鴣
線粒體DNA拷貝數變異機制及疾病預測價值分析
卵巢癌與宮頸癌PIK3CA基因拷貝數變異及意義
小麥Glu-3位點基因拷貝數的變異分析
文化拷貝應該如何“拷”
文化拷貝應該如何“拷”
鷓鴣爺
鷓鴣
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合