雷 丹, 閆振天, 張肖肖, 陳 斌
(重慶師范大學昆蟲與分子生物學研究所, 媒介昆蟲重慶市重點實驗室, 重慶 401331)
有機陽離子轉運體(organic cation transporter, OCT)家族是溶質載體超家族(solute carrier surfamily 22A, SLC22A)成員,具有OCT1, OCT2和OCT3 3個亞家族(Koepsell, 2013)。OCT利用有機陽離子遷移時所產生的電化學梯度差提供的驅動力,對有機陽離子介導的各種帶正電荷的內源性代謝物(氨基酸、脂肪酸、神經遞質、前列腺素、二羧酸鹽和肉堿等)和異生素(藥物、殺蟲劑和環境毒素)進行排泄,與有機陰離子轉運體(organic anion transporter, OAT)和肉堿轉運蛋白(carnitine transporter, OCTN)一樣被認為是一類重要藥物傳遞蛋白(Koepsell and Endou, 2004)。過去的數十年里,人們利用動物模型、離體器官灌注或從體外組織和細胞水平對有機陽離子轉運的機制進行了一些研究(舒焱, 2011)。目前,已在人及大鼠、小鼠和秀麗隱桿線蟲Caenorhabditiselegans等動物中開展了OCT基因鑒定、表達和功能研究(Gründemannetal., 1994; Burckhardt and Wolff, 2000; Eralyetal., 2004)。隨后,人類的一些OCT基因陸續被鑒定出來,它們間的氨基酸序列相似性在70%左右(Zhangetal., 1997)。研究表明,OCT1, OCT2和OCT3在脊椎動物一些組織中共表達,但它們在表達模式和功能上有較大差異(Motohashietal., 2002; Koepsell and Endou, 2004; Giacominietal., 2010)。這些轉運蛋白尤其在脊椎動物腎臟等排泄器官中表達,提示它們可能在藥物排泄中發揮作用(van Montfoortetal., 2003; Baganzetal., 2008)。在無脊椎動物中也有關于OCT家族基因的分子克隆和轉運功能研究(Tayloretal., 1997; Rheault and O′Donnell, 2004)。秀麗隱桿線蟲具有底物特異性的多種有機陽離子轉運體,它們共同作用以排除廣譜的、結構多樣的異生素和環境毒素(TheC.elegansSequencing Consortium, 1998; Eralyetal., 2004)。在FlyAtlas(www.flyatlas.org)中發現CG8654在馬氏小管中高度表達,且發現其具有與人類OCT2直系同源基因相似的功能,并將CG8654作為OCT直系同源(Wangetal., 2018)。目前,已有有機陽離子蛋白在調節藥物相關副作用和毒性機制的綜述,但在昆蟲中鮮有研究,尚未有OCT家族基因在全基因組水平的系統鑒定、序列特征和系統發育分析。
蚊蟲蚊媒病的控制主要依賴于對媒介蚊蟲的控制,截止目前,殺蟲劑仍是媒介蚊蟲控制的主要措施(Fernandesetal., 2018)。但蚊蟲對殺蟲劑已產生了抗藥性。擬除蟲菊酯是目前蚊蟲控制的主要殺蟲劑,也是WHO推薦的唯一蚊帳藥浸和主要室內噴灑殺蟲劑(Fernandesetal., 2018)。中華按蚊Anophelessinensis是我國及東南亞的主要傳瘧媒介,近年來中華按蚊對擬除蟲菊酯殺蟲劑產生了廣泛抗藥性,嚴重阻礙了中國的瘧疾消除計劃(Chenetal., 2019)。近年來,我們以中華按蚊為模式種,以擬除蟲菊酯為代表性殺蟲劑在基因組水平系統地開展了中華按蚊殺蟲劑抗性分子機理研究,已深度測序了中華按蚊基因組和轉錄組,系統地開展了P450, CCE, OBP, UGT和ABC等家族基因的多樣性、序列特征及與擬除蟲菊酯抗性的關系研究(Heetal., 2016; Yanetal., 2018; Heetal., 2019; Zhouetal., 2019)。然而,對于藥物進入蚊蟲體內后如何被代謝轉運出體外,以及對于重要轉運蛋白OCT家族的基因知之甚少。
本研究基于重慶師范大學中華按蚊基因組與轉錄組測序數據,在全基因組水平鑒定和命名了中華按蚊OCT家族的基因,分析了該家族基因的保守基序和結構域等序列特征,在基因組上定位了所有OCT基因,并系統地研究了OCT基因的系統發育關系。本研究是OCT家族基因在昆蟲中的首個全基因組多樣性和序列特征研究,為昆蟲OCT基因提供了信息框架,也為中華按蚊OCT基因的進一步研究,特別是OCT基因在殺蟲劑抗性機制方面的功能研究奠定了基礎。
本研究所使用的中華按蚊基因組和轉錄組數據來自重慶師范大學昆蟲與分子生物學研究所,岡比亞按蚊Anophelesgambiae、黑腹果蠅Drosophilamelanogaster和秀麗隱桿線蟲Caenorhabditiselegans等已確定的OCT氨基酸序列下載自NCBI(https:∥www.ncbi.nlm.nih.gov/)、VectorBase(https:∥www.vectorbase.org/)和EMBL(https:∥www.ebi.ac.uk/)數據庫。把這些下載的序列作為詢問序列(閾值設為 1e-5),使用BLASTP和TBLASTN分別搜索中華按蚊基因組及其氨基酸數據庫,鑒定和提取中華按蚊OCT序列。從Pfam(https:∥pfam.xfam.org/)數據庫中下載OCT保守結構域的隱馬爾科夫模型文件(PF00083,PF07690),使用HMMER軟件包中hmmsearch再次搜索中華按蚊基因組氨基酸數據庫以獲得OCT序列。將上述2種方法獲得的序列整合,在對應的基因組序列左右側翼區各擴1 500 bp以獲得完整的CDs,并進行FGENESH+(https:∥www.softberry.com/berry)預測CDs及氨基酸。再將序列提交至NCBI,在線BLASTP比對進行驗證,同時使用SMART(http:∥smart.embl-heidelberg.de/)在線分析其氨基酸結構域。將上述所獲得的中華按蚊OCT基因作為詢問序列,基于本實驗室中華按蚊基因組框架圖再次進行TBLASTN搜索,閾值設為1e-5,進行第二次預測及手工校對,去重復及整合以上鑒定結果,并將鑒定的氨基酸提交至Pfam(https:∥pfam.xfam.org/)與CDD(https:∥www.ncbi.nlm.nih.gov/Structure/cdd/)在線網站進行序列完整性檢測以確定最終的中華按蚊OCT家族基因?;谕瑯拥姆椒?,在全基因組水平鑒定岡比亞按蚊OCT家族基因。
將所鑒定的OCT序列提交至ProtParam, TMHMM和SignalP在線網站(https:∥www.expasy.org/resources),分別對其分子量、等電點、親水性系數和跨膜區等理化性質進行預測。通過本地Blastp作兩兩比對,以確定中華按蚊54個OCT氨基酸序列彼此之間的一致性。在線軟件Muscle(https:∥www.ebi.ac.uk/tools/msa/muscle/)對中華按蚊OCT氨基酸序列進行多重比對,然后導入GeneDoc2.7.0與ScanProsit軟件,分別預測保守區域及保守位點。通過在線軟件MEME(http:∥meme-suite.org/tools/meme)對中華按蚊OCT氨基酸序列進行16個motif預測(長度設為6~18),以發現各個亞家族特異性保守基序,最后在多重比對圖中標注出來。
通過在線軟件GSDS(http:∥gsds.cbi.pku.edu.cn/)預測中華按蚊OCT基因外顯子,分析內含子相位,并繪制其基因結構圖。將所鑒定的中華按蚊OCT家族氨基酸序列提交到Pfam(https:∥pfam.xfam.org/)中進行結構域預測。使用中華按蚊OCT基因CDs序列搜索中華按蚊基因組序列,鑒定中華按蚊OCT家族基因在Scaffold上的位置,定位岡比亞按蚊OCT基因在染色體上的位置,并做中華按蚊和岡比亞按蚊OCT基因的共線性分析,用Mapchart, Illustrator和Adobe Photoshop CS6繪制中華按蚊OCT基因在Scaffold上的定位圖。
使用最大似然法(maximum likelihood),通過PAUP4.0和MEGA7.0軟件,以黑腹果蠅為外群,基于中華按蚊OCT家族的氨基酸序列構建系統發育樹?;贛odelTest軟件優化選擇OCT氨基酸序列的最佳進化模型,通過1 000次重復,計算系統發育樹上各分支bootstrap值,并討論各分支的統計可信度。根據Orthomcl v.2.0.9在線軟件采用內置算法BLASTP, E值設為1e-5,對中華按蚊OCT基因進行亞家族初分類,并進一步進行序列比對、結構特征及OCT基因間的系統發育關系的分析,參考已報道的OCT基因的分類系統、Cluster聚類結果、結構域和Scaffold上的位置分布對中華按蚊OCT家族基因進行分類和命名。
在中華按蚊和岡比亞按蚊全基因組水平均鑒定獲得54個OCT家族基因,兩者間同源基因氨基酸序列一致性達到55%~95%。這54個中華按蚊OCT家族基因分屬于OCTA, OCTB和OCTC 3個亞家族,參考岡比亞按蚊直系同源基因的位置信息對中華按蚊33個OCTA亞家族成員、15個OCTB亞家族成員和6個OCTC亞家族成員分別命名為AsOCTA1-30,AsOCTB1-14和AsOCTC1-6。其中位于Scaffold55上的基因AsOCTA17在本實驗室注釋的中華按蚊數據庫中未找到對應的ID號信息,是本研究新注釋的基因;僅AsOCTB12不具有完整的開放閱讀框,氨基酸數目大多為450~540,親水系數在0.500左右,表明中華按蚊OCT為疏水性蛋白(表1)。肽鏈拓撲結構預測顯示,約2/3的OCT的氨基和羧基末端都位于細胞內且有11個左右跨膜結構,每個跨膜區約有21~25個氨基酸殘基。當跨膜時,在第2與第3跨膜結構之間形成一個大的細胞外環,富含糖基化位點,在第6與第7跨膜區之間有一個較大的細胞內環,結構類似左右對稱,符合典型的跨膜轉運蛋白。
中華按蚊這54個OCT基因中部分能預測完整序列的基因之間的內含子與外顯子分布式樣差異較大(圖1),共有196個外顯子,長102~998 bp,每個基因有1~9個外顯子;AsOCTA5,AsOCTB13,AsOCTA16和AsOCTB12僅有1個外顯子;AsOCTB6和AsOCTB7外顯子數目最多,達到9個,但長度較短; 16個基因有4個外顯子,7個基因有3個外顯子。對密碼子起始核苷酸分析,共有Phase 0(54個),Phase 1(42)和Phase 2(51)型3種相位,分別占內含子總數的36%, 30%和34%。OCTC亞家族基因之間內含子相位分布較其他兩個亞家族穩定,內含122內含子相位組合。
除AsOCTA20和AsOCTB2外,其余OCT基因編碼的氨基酸序列均含有MFS_1與Sugar_tr跨膜結構域,此為我們鑒定OCT基因的關鍵特征;這2個結構域序列中富含甘氨酸殘基,有助于OCT作為膜蛋白與特異性底物結合。各亞家族基因編碼的氨基酸序列中具有數目不等的跨膜結構域(transmembrane domain, TMD),其中AsOCTA有6~22個,AsOCTB有6~13個,AsOCTC有12個TMD。2/3的AsOCT與AsOCTC一樣,具有12個TMD,但其中位置在前的6個TMD的氨基酸序列差異較大,亞家族之間較各個亞家族內成員的TMD氨基酸序列相似性也較低。有3個在中華按蚊各亞家族OCT氨基酸序列中均保守的序列,分別是位于TMD2與TMD3之間的GRK-(PT)-VL,TMD6后的PES-(APVS),以及TMD10和TMD11之間EQFPT-(VI)-RN(圖2,紅色背景);其中第1和第3種序列與脊椎動物中的OCT保守序列特征一致(Zhuetal., 2015)。在各亞家族氨基酸序列中也分別鑒定了2~3個亞家族特異保守序列(圖2,黃色背景),在AsOCTA中有2個特異性保守序列,分別是TMD4后的(IL)-RG和TMD12后的LPETK;AsOCTB中在連接TMD2與TMD3之間的第一個外環中存在WBLVCD,位于TMD8內的VELP及TMD8后的(ND)R-X-GR(KR);AsOCTC亞家族氨基酸序列中2個特有的保守序列分別是TMD2前的6個氨基酸序列(MI)S-X-VLP和TMD7后的LMMWFP。此外,我們還發現在AsOCTA和AsOCTB中TMD12后具有5個LPETK保守序列。這些保守區域對于OCT及各亞家族基因的鑒定及功能認知具有重要價值。
中華按蚊54個OCT基因被定位到26條Scaffold上(圖3),近一半的基因分布在Scaffold14, Scaffold49和Scaffold116上,分別有13, 8和5個基因,其他的Scaffold上僅有1~3個基因。分布在Scaffold14上的大部分OCT基因聚集成簇(間距小于20 kb),分布在Scaffold116上的AsOCTA10a和AsOCTA10b聚集成簇,分布在Scaffold49上的AsOCTA19a和AsOCTA19b聚集成簇,這些成簇的基因在系統發育關系中緊鄰,它們可能來源于基因重復事件。雖然AsOCTA23a和AsOCTA23b分別分布在Scaffold84和Scaffold150上,但基因相似度高,系統發育關系近,也可能源于基因重復事件。
岡比亞按蚊OCT家族基因被定位到5條染色體上(2L, 2R, 3L, 3R和X),共線性分析表明中華按蚊OCT基因大部分對應到岡比亞按蚊2R和3R染色體上(圖3)。中華按蚊與岡比亞按蚊并非所有的OCT基因都為一對一的直系同源關系,在AsOCTA和AsOCTB中共有4對基因(AsOCTB4a和AsOCTB4b,AsOCTA10a和AsOCTA10b,AsOCTA19a和AsOCTA19b,以及AsOCTA23a和AsOCTA23b)僅分別對應到岡比亞按蚊的一個基因(表1),表明這4對基因發生了基因重復事件。
圖1 中華按蚊OCT基因的結構及內含子相位統計Fig. 1 The structure and intron phase statistics of the OCT genes of Anopheles sinensis
圖3 中華按蚊OCT基因在Scaffold上的分布(A)及參考岡比亞按蚊在染色體上的定位(B)Fig. 3 Distribution on scaffolds of OCT genes of Anopheles sinensis (A) and their locationon chromosome in reference of An. gambiae (B)藍色箭頭標示OCT基因的轉錄方向。Blue arrows indicate the transcription direction of OCT genes.
基于OCT氨基酸序列及其計算出最佳進化模型為LG+G+F構建了中華按蚊54個OCT基因的系統發育樹(圖4)。在系統發育樹的分枝末端具有較好的自展值,bootstrap值在65%~100%之間(AsOCTB2與AsOCTB14除外)。這54個OCT基因明顯按3個亞家族形成了3個組,OCTC基因較為原始,是一個明顯的單系群,其bootstrap值為99%;OCTB基因較為進化,也是一個明顯的單系群,其bootstrap值為100%;OCTA基因介于前兩者之間,進化關系較為復雜。
圖4 基于核苷酸序列用最大似然法構建的中華按蚊OCT基因的系統發育樹(1 000次重復)Fig. 4 Phylogenetic tree of the OCT genes of Anopheles sinensis based on amino acide sequencesusing maximum likelihood method (1 000 replicates)以黑腹果蠅的Orct(GenBank登錄號: AFY98627.1)和Orct2(GenBank登錄號: AFY98628.1)為外群。Orct (GenBank accession no.: AFY98627.1) and Orct2 (GenBank accession no.: AFY98628.1) from Drosophila melanogaster as the outgroup.
本研究首次在中華按蚊全基因組水平鑒定了OCT家族基因,共54個。參考已有OCT分類系統、序列相似性、基因結構特征及系統發育關系(圖1和2),將這些基因分為OCTA, OCTB和OCTC 3個亞家族,分別有33, 15和6個基因。岡比亞按蚊OCT家族也有54個基因,但在中華按蚊OCTA和OCTB中共有4對基因(AsOCTB4a和AsOCTB4b,AsOCTA10a和AsOCTA10b,AsOCTA19a和AsOCTA19b,以及AsOCTA23a和AsOCTA23b)僅分別對應到岡比亞按蚊的一個基因(表1),而且這些基因對在Scaffold成簇排列(AsOCTA23a和AsOCTA23b分布在不同的Scaffold)(圖3),推測這4對基因發生了基因重復事件。相應地,岡比亞按蚊也有4對基因發生了基因重復事件,這些預示了這兩個種不完全相同的轉運機制或者進化。岡比亞按蚊OCT家族基因被定位到2L, 2R, 3L, 3R和X,共5條染色體上,而中華按蚊OCT基因大部分對應到岡比亞按蚊2R和3R染色體上(圖3)。
中華按蚊OCT家族氨基酸序列具有較高的保守性,所有OCT均具有MFS_1與Sugar_tr跨膜結構域(AsOCTA20和AsOCTB2除外),2/3的OCT基因具有OCTC的12個TMD,在空間上形成疏水性口袋,這與其他物種OCT的結構特征一致,符合該家族的細胞內和細胞外特征。中華按蚊OCT家族幾乎所有的序列都存在早期脊椎動物中GRK-(PT)-VL和EQFPTVIR這2個保守基序,同時,中華按蚊OCT還具有一個共同的保守基序PES-(APVS),各OCT亞家族也存在各自的保守基序,而這些保守的基序可能與特殊的功能相關,還需要我們進一步研究探索。本研究是對OCT序列保守性的首次系統研究,對于OCT及各亞家族基因的鑒定及功能具有重要價值。中華按蚊54個OCT基因明顯按3個亞家族形成了3個系統發育組(圖4),OCTC基因較為原始,是一個明顯的單系群;OCTB基因較為進化,也是一個明顯的單系群; OCTA基因介于前兩者之間,進化關系較為復雜。由此進一步提示,OCT基因的系統發育關系和分類需要在全基因組水平研究更多的物種而得以改進和完善。
本研究首次在全基因組水平上鑒定和命名了中華按蚊OCT家族基因,預測了該家族基因的理化特性,分析了OCT的結構域和保守基序,在基因組上定位了所有的OCT基因,并探究了OCT基因的系統發育關系,不僅為昆蟲的OCT基因提供了信息框架,也進一步豐富了中華按蚊基因組數據。同時,對于后續中華按蚊OCT基因功能的進一步研究,特別是對該類基因在殺蟲劑抗性機制方面的功能研究奠定了基礎,具有一定的意義。