李可群
(同濟大學 化學科學與工程學院,上海 200092)
地球上的一切生命形式都有一個共同的起源,無論動物、植物、真菌、原生生物還是原核生物,它們都籍由一部共同的進化歷史而有著或近或遠的關聯。重建所有生物的進化歷史并以樹狀結構即系統發育樹的形式來表示生物類群的進化關系,一直是系統發育學研究的核心問題,也是進化生物學研究的重要內容[1]。不過,近年來快速發展的分子系統發育分析方法在計算物種分歧時間時,大多基于分子進化速率恒定的“分子鐘”假說[2],不過大多數生物分子在長時間尺度和不同譜系的進化速率并不恒定,從而計算得到的結果與化石年齡往往存在較大偏差。如原口動物和后口動物分歧時間化石給出的年代大在5.55億~5.60億年前,而近年來快速發展的生物分子鐘方法推算結果大多介于8.51億~12億年前,僅有極少數給出小于6億年前的結果,即幾乎所有分子鐘研究結果顯示兩者分異早于寒武紀生物大爆發至少1億年[3]。為此,本研究提出了不基于分子進化速率恒定假說的分子絕對進化速率計算公式[4]、多重突變的校正方法[5]和基于計算所得結果進行判斷的物種選擇規則[6]等,本研究提出使用序列分子比較得到的序列差異率來直接確定分子系統發育分析中物種組成的方法。
對于有m個物種的某物種類群A,若其各物種序列分子自它們共同祖先序列分子而來的遺傳距離為xA(i)(i=1,2,…,m,系真實遺傳距離[4,6],下同),則其平均未突變概率為[6]:
(1)
本研究以常見的三物種類群體系為例討論使用序列差異率和參照類群來直接確定分子系統發育分析中物種組成的方法,四物種類群體系可做類似處理。圖1中實線部分為文獻[7]使用COX1蛋白質序列分子計算寒武紀物種分歧時間時的計算框圖。為了表述方便,我們把圖1中物種類群A、B和C權且稱為計算物種類群,而虛線部分對應的物種類群S稱為參照物種類群。由于分子進化研究中比較的是突變后的序列差異率,那么圖1中先期分歧的參照物種類群S數學上也可視為一個像物種類群A、B和C一樣的自時間t2分歧的物種類群。圖1中物種類群的平均未突變概率的計算可分成兩種情形。
圖1 使用序列差異率和參照類群直接確定分子系統發育分析中物種組成的計算框圖
(1)無共同遺傳距離
當一個物種類群對,即其兩個物種類群均沒有與其他物種類群存在共同的遺傳距離,如圖1中物種類群對C和B,則有
(2)
e-(xC(k)+xB(j))=e-xC(k)e-xB(j)=1-pCB(kj)
(3)
將式(2)兩邊取自然對數有
(4)
(2)存在共同遺傳距離
即一個物種類群對中的物種類群與其他物種類群存在共同的遺傳距離,如圖1中物種類群對S和B
(5)
(6)
由圖1中不同物種類群對,再采用類似式(4)和式(6)的處理方法,可得
(7)
(8)
(9)
(10)
將式(4)、式(6)至式(10)進行下列數學處理可分別得到圖1中各進化區段平均未突變概率對應的參數。
(1)d的計算
將式(6)+式(9)-式(4)-式(7),再等式兩邊除以2有
(11)
(2)xA的計算
由式(9)+式(10)-式(4),在等式兩邊除以2,有
(12)
將式(12)減去式(11),有
(13)
(3)xB的計算
由式(4)+式(10)-式(9),再等式兩邊除以2有
(14)
(4)xC的計算
由式(4)+式(8)-式(6),再等式兩邊除以2有
(15)
文獻[6]指出,若三物種類群體系(參見圖1)中計算物種類群A、B和C的序列分子均滿足下式,即
(16)
式(16)中c的取值分別為1,2,3,4,這些關系式為式(17)和式(18)推導過程的條件;式(16)中其他物理量的定義請參照式(1)。則有三物種類群體系中的物種選擇規則為
(17)
(18)
式(17)和式(18)中f=e-d,m、n和p分別為計算物種類群A、B和C的序列分子數。
由2.1部分可知,要使用判別式式(17)和式(18),需先通過物種選擇來選擇滿足式(16)的計算物種類群A、B和C。如果一個物種類群對的兩個物種類群序列分子分別兩兩比較得到的序列相同率的平均值,即平均序列相同率也能滿足類似式(16)的數學關系式,即
(19)
式(19)中e-yij為第一個物種類群第i個物種序列分子與第二個物種類群第j個物種序列分子比較得到的序列相同率,m0和n0分別為兩個物種類群的物種數,而e-y為它們的平均序列相同率。那么由遺傳三角形定量關系式(3)有e-yij=e-yie-yj,并由式(19)可得
(20)
式(20)中,e-ya、e-yb分別為2個物種類群序列分子自共同祖先序列分子而來的平均未突變概率。由于物種類群對平均序列相同率滿足式(19),那么無論其中一個物種類群為單一物種(其未突變概率為單一數值)還是平均未突變概率滿足式(16)的一組物種,不難理解另一物種類群平均未突變概率也與滿足式(16)。因此可以通過以下步驟來選擇滿足式(16)的計算物種類群。
(1) 先使用隨意選擇的一個非參照物種類群物種序列分子與待選擇的參照物種類群序列分子分別進行比較,若得到的各序列相同率滿足式(19),說明選擇的參照物種類群滿足式(16)要求。
(2) 由該參照物種類群序列分子與待選擇的計算物種類群序列分子兩兩進行比較,若得到的各序列相同率滿足式(19),說明選擇出的計算物種類群也滿足式(16)的要求,按此方法可分別選擇圖1中的計算物種類群A、B和C。
(3) 使用本文標題1下的相關方法計算出圖1計算框圖中計算物種類群進化路徑上各區段的平均未突變概率,再代入式(17)和式(18),若滿足判別式要求,說明選擇的各計算物種類群符合物種選擇規則對物種類群的要求。
由于文獻[7]計算得到的寒武紀物種分歧時間與化石年齡很接近,筆者使用該體系來驗證計算物種類群組成選擇方法。文獻[7]中計算物種類群A(鯊魚)、B(環節動物)和不同物種類群C(腕足動物、輪蟲動物、線蟲動物、節肢動物和軟體動物)COX1蛋白質序列分子的物種名和美國生物信息技術中心(NCBI)序列號參見該文獻和文獻[6]。另外,選用的為一組真菌的COX1蛋白質分子作為參照物種類群S,它們的物種名及序列號為:1.Saccharomyces cerevisiae(QHB12464.1);2.Fusarium asiaticum(QJT69681.1);3.Fusarium oxysporum(AAX21832.1);4.Agaricus bisporus(ABY85433.1);5.Yarrowia lipolytica(AGS44095.1);6.Candida orthopsilosis(AAX73017.1);7.Ceratocyotis fismbriata(QRB98357.1);8.Aspergillus tubingensis(AAF81762.1);9.Metschnikowia hibisci(YP_009935242.1);10.Ustilago maydis(AAZ67011.1);11.Rhizophagus irregularis(AML60582.1);隨意選擇的一個非參照物種類群的物種為環節動物,其COX1蛋白質序列分子的物種名及其序列號為:Urechis caupo(AAT12180.1)。這個環節動物與參照物種類群各COX1蛋白質序列分子比較時的平均序列相同率以及參照物種類群分別與計算物種類群A、B和C的COX1蛋白質序列分子比較時的平均序列相同率,見表1。
表1 一些物種類群與COX1蛋白質序列分子比較時的平均序列相同率
由表1可以看出,表中各物種類群對的r1、r2和r3均與2、3、4非常接近,說明它們的平均序列相同率均能與式(20)相符很好,表明參照物種類群并可由它推斷文獻[7]選用的計算類群A、B和C均能滿足式(16),即物種選擇規則對物種類群的要求。
根據上文1標題的相關公式計算得到的圖1各進化區段的平均未突變概率, 以及代入物種選擇規則判別式式(17)和式(18)后的計算結果(表2)。
表2 使用參照類群真菌選擇不同計算類群時的計算結果①
由表2計算結果可以看出,由文獻[7]中物種類群A和B以及不同物種類群C組成體系計算得到的R1和R2都很接近1.0,說明使用本文提出的方法來選擇計算物種類群是可行的。
實際計算表明在滿足上述條件外,同一計算物種類群選用自其共同祖先而來的進化速率(或遺傳距離)存在一定差異的序列分子有利于得到滿意的物種分歧時間等計算結果。
兩個同源序列分子的回復突變和平行突變會導致比較得到的序列差異率數值減少和相關遺傳距離被低估,故需校正。文獻[5]給出了式(3)經多重突變校正后的遺傳三角形定量關系式
0.9e-(xC(k)+xB(j))=0.9-pCB(kj)
(21)
式(21)各物理量含義同式(3)。將式(21)兩邊除以0.9,則其有
(22)
(23)
不難理解,式(6)至式(10)也可做類似處理,并可同樣得到經多重突變校正后的圖1中各進化區段平均未突變概率對應的參數,如參數d的計算式為
(24)
與式(21)類似,多重突變校正同樣影響到式(19)中e-cyij的計算,即有
(25)
pyij為第一個物種類群第i個序列分子與第二個物種類群第j個序列分子比較得到的序列差異率。由式(20)推導過程可以看出,使用多重突變校正后式(25)得到的e-yij不影響其結論。同樣根據文獻[6]經多重突變校正的物種選擇規則與式(16)至式(18)相同。
文獻[8]基于同一種序列分子進化速率恒定的假設,使用不同的蛋白質和核苷酸序列分子計算了Kimura給出的鯊魚、鯉魚、蠑螈、雞、針鼴鼠、袋鼠、狗和人體系中序列分子絕對進化速率,發現序列分子絕對進化速率k和其物種分歧時間t之間存在很好的線性關系,即
(26)
該文獻依據化學動力學中的阿侖尼烏斯公式,給出了分子進化中的“活化能公式”
(27)
式(27)中Ea為序列分子位點突變的活化能,k0為極限進化速率,R為常數。如前文所述,筆者在文獻[7]計算“寒武紀生物大爆發”時,得到的各物種類群分歧時間與化石年齡很接近,加上選用計算體系與物種選擇規則等相符很好[6],因此,該文計算所得的物種序列分子絕對進化速率和物種類群分歧時間是準確的。
表3給出該文獻給出的計算結果。表中除第1行為物種分歧時間外(單位為10億年前),其余數據均為計算所得序列分子真實絕對進化速率[4](即已對原文計算出的分子絕對進化速率數值除以2),表3中物種序號、具體物種名及序列號同文獻[6,7]。線蟲動物取文獻[7]中的前4種物種,鯊魚絕對分子進化速率為隨意選取的文獻[7]中物種類群C為線蟲動物時,第1、3、6、8個鯊魚物種的計算數據。
表3 “寒武紀生物大爆發”時物種分歧時間計算結果①
將表3中各物種序列分子絕對進化速率的自然對數lnk對其分歧時間倒數1/t作圖,如圖2所示。
圖2 分子絕對進化速率自然對數(lnk)與物種分歧時間倒數(1/t)之間的關系圖
由上述5個線性關系式和圖2,同樣可以發現令人驚奇的線性關系,加上文獻[7]分子絕對進化速率計算過程中沒有使用文獻[8]中同一序列分子進化速率恒定這一并不嚴格的假設,因此可以認為本文結果更嚴格可信;同時,筆者注意到上述5條直線存在一些交點,如圖2中直線1和直線2相交于節肢動物3。因此,筆者認為“活化能公式”和“雙重分子鐘現象”均是真實存在的,兩個概念的具體說明請參看文獻[8]。