?

SMART:自主研發的混合STR圖譜分析系統

2022-02-13 06:42季現超池連江
刑事技術 2022年1期
關鍵詞:貢獻者分型基因型

季現超,池連江,徐 珍,彭 柱,葉 健,凃 政,*,陳 華

(1.中國科學院北京基因組研究所,北京 100101;2.國家生物信息中心,北京 100101;3.現場物證溯源技術國家工程實驗室,北京 100038)

法醫DNA實驗室當前的主流技術是基于PCRCE平臺對DNA樣本進行STR遺傳標記的檢測分析,但若DNA樣本包含兩人或兩人以上的DNA,則會得到混合STR圖譜——而其分析和解釋是法醫遺傳學領域的難題[1],其難點在于混合STR圖譜受多種因素的干擾,如影子峰、插入峰、峰丟失、峰飽和、等位基因共享、雜合不平衡、降解等,這些因素的疊加,就使得混合STR圖譜十分復雜。

隨著DNA提取和檢測技術的發展,混合DNA樣本的檢出比例呈逐年上升趨勢,在法庭中作為證據的應用越來越多。目前國內法醫DNA實驗室普遍使用人工分析[2]的方法對混合STR圖譜進行解讀。既往論文也報道多起通過人工拆分混合STR圖譜,成功抓獲嫌疑人的案例[3-6]。但隨著混合DNA樣本的混合組分數增多以及模板量降低,人工分析愈益費時費力,難以滿足當前實際需求,法醫工作者亟需高效分析混合STR圖譜的工具。

當前,國際上對于混合STR圖譜的分析經常借助混合STR圖譜分析系統[7-9],國內也已有幾家法醫DNA實驗室引進了國外先進的混合STR圖譜分析系統,如STRmix。國外混合STR圖譜分析系統開發較早,經長期研究和測試完善,在實際案件中應用效果良好,并已得到法庭認可,但因其購買費用昂貴,且缺乏自主知識產權,不適應國內應用環境,難以大規模推廣;受國際形勢影響,STRmix已于2019年末被列入對我國禁售的高科技產品清單。本文介紹一套具有完全自主知識產權的混合STR圖譜分析系統SMART(STR Mixture Analysis and Resolution Tools)。通過使用該系統分析真實案例數據,證明SMART在分析功能方面可以替代國外同類產品。SMART能夠滿足法醫行業的科研和工作人員對于混合STR圖譜分析的多種需求,提高混合STR圖譜結果的利用率。

1 SMART系統設計

SMART是一款自主研發的基于概率分型模型的混合STR圖譜分析系統,以JAVA語言編寫,主要功能是實現混合STR圖譜的自動化分析。

1.1 基本模型

SMART使用了完全連續[8,10]的建模方法,對混合DNA樣本中各個貢獻者的DNA模板量、降解水平,基因座的特異性擴增效率,平行擴增效率等參數進行建模,綜合考慮了影子峰、插入峰、峰丟失、峰飽和、等位基因共享、雜合不平衡等多種因素對混合STR圖譜的影響。

圖1顯示單一個體的兩個雜合基因座(基因座1與2)的理想峰圖為兩個基因座中四個峰的高度相同,無雜峰,能夠清晰判斷分型結果,決定峰高的因素是DNA模板量。但在實際情況中,由于大分子的等位基因更易降解,所以在增加降解[11]的影響后,大分子等位基因其峰高會比小分子等位基因的低一點;另外,同一個試劑盒中不同基因座的特異性擴增效率[8]也不同,反映在峰圖上為基因座1的整體峰高要比基因座2的低;且峰圖中總是會有影子峰[10]存在;最后由于擴增的隨機性[12],峰高會在一定范圍內波動。這幾項基本因素的疊加,就產生了工作中常接觸到的峰圖。

將產生峰圖需要的因素分為兩類,可分別進行參數化建模:第一類稱為樣本參數,包括各個貢獻者的基因型及其DNA模板量與降解水平,基因座的特異性擴增效率等;第二類稱為平臺參數,包括:峰高飽和值、影子峰的比率、峰插入率、峰高隨機波動的方差等因素。因樣本參數無法預知,在每次分析峰圖時就需要對此進行估計。而平臺參數可預先推斷,如一類試劑盒的影子峰比率可以通過統計此類試劑盒大量的單人樣本的影子峰比率獲知,可在每次分析峰圖時作為固定參數。

1.2 模型計算

SMART所使用模型的基本假設為,在混合STR圖譜中,不同基因座內部的各個貢獻者DNA模板量的比例基本保持不變,不同貢獻者產生的峰高存在線性相加的關系。模型計算的核心是通過計算不同基因型集合產生的期望峰高與實際觀測峰高擬合的似然值,推斷出各個基因型集合是真實基因型集合的概率。以一個理想的二人混合基因座說明,如圖2。峰圖有三個主要的峰a、b、c,其生成可能的候選基因型集合,如表1。

表1 候選基因型集合Table 1 Candidate genotype combination

以比較(a,b ; b,c)和(c,c ; a,b)兩種基因型集合的概率為例。在同一組樣本參數(包括兩名貢獻者的DNA模板量、兩名貢獻者的降解水平等)下, 兩組基因型集合產生的期望峰高和實際觀測峰高的擬合圖如圖3所示,三角形峰是觀測峰,矩形峰是期望峰,綠色代表第一貢獻者,黃色代表第二貢獻者。通過觀察可看到(a,b ; b,c)產生的期望峰高與觀測峰高更相近,是真實基因型集合的概率更大。模型使用似然值來量化這種近似程度。

通過比較不同基因型集合和不同樣本參數生成的期望峰高與觀測峰高擬合的似然值大小,就可推斷出貢獻者基因座上各個候選基因型集合和樣本參數的概率。整個計算過程需要推斷的參數多達二十多個,選用MCMC算法解決計算問題。

1.3 軟件模塊

SMART包含六個模塊,功能分別為:

1)圖譜拆分:拆分混合STR圖譜,輸出分析報告,得到混合DNA樣本中各個貢獻者的基因分型。

2)LR計算:計算指定個體包含在混合DNA樣本中的似然比。

3)數據庫搜索:提供兩種模式的搜索方式,第一種是計算數據庫中每個個體包含在混合DNA樣本中的似然比,判斷數據庫中哪些個體可能包含在混合DNA樣本中;第二種是讀取圖譜拆分的結果,使用拆分得到的圖譜輸入數據庫比對。

4)批量處理:可以同時輸入多個圖譜拆分或者LR計算任務,批量運行。

5)模型參數:訓練模型需要的參數。

6)管理設置:設置軟件運行的默認參數等。

2 SMART功能介紹

混合STR圖譜分析系統SMART,可支持包括GlobalFiler擴增試劑盒和ABI-3500XL在內的多種試劑盒和遺傳分析儀,提供的功能包括:推斷混合DNA樣本的混合個數,推斷混合比例,支持圖譜質量和模型擬合效果的判斷,推斷混合DNA樣本各個貢獻者基因分型和計算似然比等。

2.1 試劑盒和遺傳分析儀

在前期研究中,SMART主要面向由G lobalFiler擴增試劑盒和ABI-3500XL遺傳分析儀產生的混合STR圖譜。對于不同的商業化試劑盒和遺傳分析儀,它們分型結果的準確性都已接受了嚴格的測試,試劑盒和遺傳分析儀間的差異主要表現為部分關鍵平臺參數的不同,包括峰高飽和值、影子峰比例、插入率和峰高波動的方差等參數。SMART可以使用一定量的不同試劑盒和遺傳分析儀的實驗室數據進行訓練而得到這些關鍵參數,從而可支持包括國產Typer系列試劑盒和國產GA118-16A型遺傳分析儀等在內的多款產品。

2.2 支持推斷混合DNA樣本的混合個數

目前SMART系統能夠實現2~5人組成的混合STR圖譜的分析。SMART在分析混合STR圖譜之前,默認要求人工輸入混合人數,并同時提供獨立的功能部件,經運行最大等位基因數量估計和極大似然估計[13]兩種算法而估計出混合人數。表2給出了在模擬數據下兩種估計算法的準確率,每個混合人數下均有1 000份混合樣本[13]。

表2 最大等位基因數量估計和極大似然估計的準確率Table 2 The accuracy of estimated maximal allelic number and maximal likelihood

不管是人工輸入還是算法估計,都有可能輸入錯誤的混合人數,即輸入的混合人數小于或者大于真實的混合人數。如果輸入的混合人數小于真實的混合人數,一般是由于一個含量較少的混合DNA貢獻者與含量高的混合DNA貢獻者共享了較多的等位基因,即遮蓋效應嚴重,此時輸出結果對含量高的貢獻者不會產生太大的影響,但含量小的貢獻者的信息會出現偏差甚至完全被遮蓋;如果輸入的混合人數大于真實的混合人數,一般受到影子峰、插入峰的影響,使得某個或某幾個基因座上等位基因數量偏高,此時輸出結果對含量高的貢獻者不會產生太大的影響,但對含量較少的貢獻者的拆分會有影響,此時為了解釋這些多余的峰會額外輸出一個不存在的貢獻者基因型。

2.3 支持推斷混合比例

SMART的分析報告中會輸出混合比例的推斷結果,可作為法醫工作者人工分析混合STR圖譜的參考。表3展示了一例人工配比的三個貢獻者DNA含量為3∶2∶1的樣本,DNA模板量對應數值的意義是在理想情況下三個貢獻者在峰圖中產生的峰高,比例約等于3.4∶2.2∶1,基本等于三個貢獻者在原始樣本中DNA含量的比例。但需指出的是,由于擴增的隨機性,在有些樣本中推斷出的混合比例與真實的DNA含量比例會有些許差別。

表3 混合比例Table 3 Mixed ratio

如果混合DNA樣本中一個貢獻者占比小于10%,混合STR圖譜上就有可能丟失該貢獻者的全部或部分基因型,SMART的分析報告也只能給出該貢獻者的部分有效信息。這是由一代試劑盒擴增技術的局限性決定的[14],與SMART的分析性能無關。

2.4 支持圖譜質量和模型擬合效果的判斷

實際案件中,由于DNA降解或其他因素的影響,會使得STR圖譜的質量較差甚至難以分析,此時混合STR圖譜的分析擬合效果差,得到的結果可信度低。若提供使用者一個客觀的圖譜質量指標,將有助于使用者對結果可信度作評判。

SMART使用c2作為衡量圖譜質量的指標,c2是模型生成的最佳期望峰高和實際觀測峰高擬合的方差大小,服從伽馬分布。c2越小說明模型生成的最佳期望峰高與觀測峰高擬合的效果越好,而當c2大于伽馬分布右側70%的分位數,說明此時最佳期望峰高與觀測峰高的差距很大,圖譜的質量很差,該次分析的結果無效。圖4展示了c2的一次估計,估計值約為1.3,說明圖譜質量良好,模型對數據的擬合效果好。

2.5 推斷混合D NA樣本中各個貢獻者的基因分型

本功能是SMART的核心功能之一,是目前實際案件中混合STR圖譜分析最重要的功能。SMART分兩部分輸出各個貢獻者的基因分型。

第一,SMART給出各個貢獻者在各個基因座可能的基因分型。如表4所示,貢獻者1在D16S539分型為(11,11)的后驗概率為47.5%,分型為(12,12)的后驗概率為39.5%,以此類推。

表4 貢獻者1在D16S539基因座的基因分型Table 4 Possible genotypes at locus D16S539 of contributor 1

第二,SMART給出了各個貢獻者的最優拆分(超過預設的概率閾值)基因座集合以及對應的基因型。在設置后驗概率的閾值時,如果閾值設置太大(如99.9%),那么獲得的基因座分型的可靠性就高,但是達到閾值的基因組數目會減少,如果設置的閾值過低(如50%),那么獲得的基因座數目會變多,但是達到閾值的基因分型的可靠性就變低。SMART最終匯總了各個貢獻者后驗概率大于90%的基因座(如表5所示)和各個貢獻者后驗概率大于99%的基因座(本文未給出)供人工參考。其中有的基因座如D2S441和D10S1248,只推斷出一個后驗概率大于90%的等位基因,但是不能確定另外一個等位基因(使用標記F表示,代表當前基因座所有的等位基因)。將以上結果輸出為Codis文件即可在全國DNA數據庫中進行搜索,在沒有嫌疑對象的情況下可為案件偵查提供線索。

表5 貢獻者1(51.3%)各個基因座的最優拆分(后驗概率≥90%)Table 5 The optimal resolution obtained from splitting each locus of contributor 1 (posterior≥90%)

需要指出的是,由于表格中基因座的基因分型是在概率意義下給出的,故仍然存在小概率出錯的可能,因此,將拆分出來的指定個體的基因型入庫比對時,需設置等位基因容差,防止因個別基因座的分型錯誤導致誤排除。

2.6 支持似然比的計算,判斷嫌疑個體是否包含在混合DNA樣本中

本功能是SMART另外一個核心功能。目前國內大多數的報道都著重關注 混合STR圖譜拆分的功能,很少關注混合STR圖譜分析結果的似然比計算以及其作為法庭物證的功能。國際法醫遺傳學會DNA委員會[15]推薦使用似然比作為指標判斷混合DNA樣本是否包含嫌疑個體。似然比是在原告假設和被告假設下得到STR圖譜概率的比值,假設混合人數是N人(2≤N≤5),相關似然比的示意公式如(1)所示。

式中:H1為假設混合樣本中包含嫌疑人和N-1名隨機個體,H2為假設混合樣本中包含了N名隨機個體,O為混合STR圖譜。

SMART可以直接使用圖譜數據計算似然比,也可以使用拆分階段輸出的基因型集合的后驗概率計算似然比。如果似然比顯著大于1,則支持混合DNA樣本包含嫌疑人,如果似然比顯著小于1,則不支持混合DNA樣本包含嫌疑人,如果似然比接近于1,則無法判斷。

3 實際案例應用

以一個實際案例數據來比較SMART和STRmix的拆分效果。本案例得到的混合STR圖譜經人工研判,結論為混合STR圖譜,主要是三個人(兇手和兩名受害人)的混合,但存在混入第四個人(無關個體)微量DNA的可能。

3.1 案例背景介紹

本案例為一起故意傷人案,受害人為一對夫妻,王某(丈夫)和李某(妻子),嫌疑人為男子劉某,作案兇器為一把單刃匕首,混合DNA樣本從匕首柄上檢出。

3.2 實驗方法介紹

M48磁珠法提取DNA,使用GlobalFiler試劑盒以ProFlexTM型PCR擴增儀進行三次平行擴增,擴增產物用ABI-3500XL遺傳分析儀進行檢測。經Gene-Mapper ID-X軟件進行基因分型,從圖5展示的一次平行擴增的混合STR圖譜中可以看出,多個基因座的峰數量超過5個,分析難度很大,難以進行人工拆分。

3.3 設置軟件輸入

兩款軟件的分析閾值設置為50相對熒光單位,輸入三次平行擴增得到的混合STR圖譜數據文件,受害人王某的基因分型作為已知貢獻者基因型,MCMC采樣次數均為燃燒期(burn-in)10萬次和接受5萬次。

STRmix沒有推斷混合人數的功能,必須人工輸入。但設置混合人數等于3人時,STRmix的計算效果不理想,根據經驗,使用混合人數等于4人進行分析。SMART擁有推斷混合人數的功能。在本案例中,人工分析難以確定混合人數,在運行SMART時,選擇不輸入混合人數。SMART依據輸入的混合STR圖譜數據推斷混合人數為4人。

3.4 擬合圖譜

SMART的輸出報告中,包含觀測峰高和期望峰高擬合圖。如圖6所示,給出了D3S1358基因座的擬合圖,包含了三次平行擴增,紅色峰是觀測峰高,藍色峰是期望峰高。擬合圖中縱坐標代表相對熒光單位的數值,橫坐標如1-15,代表第一次平行擴增的等位基因15。從擬合圖譜中,可以直觀地得到多種信息,如期望峰高和觀測峰高的擬合程度等,有利于對軟件的輸出報告進行人工解讀。STRmix不支持該功能。

3.5 拆分結果對比

1)混合比例。表6顯示嫌疑人男子劉某對應為第一貢獻者,受害人李某(妻子)對應為第二貢獻者,受害人王某(丈夫,其基因分型作為混合DNA樣本的已知貢獻者輸入到兩款軟件中)對應為第三貢獻者,混入的微量無關DNA為第四貢獻者。兩款軟件的拆分比例基本一致,在第一和第三貢獻者上有差別。

表6 混合比例Table 6 Mixed ratio

2)拆分圖譜。表7展示了兩款軟件對于第一貢獻者(嫌疑人劉某)的拆分結果,以基因分型的后驗概率大于90%為標準。在21個常染色體STR基因座中,SMART推斷出17個基因座完整的基因分型,3個基因座一半的基因分型,而同等條件下STRmix推斷出14個基因座完整的基因分型,3個基因座一半的基因分型。經和嫌疑人劉某真實基因分型比對,SMART推斷的20個基因座中有19個是正確的,而D2S1338基因座基因型(標紅)拆分錯誤。STRmix推斷的17個基因座中有13個是正確的,而D8S1179、D10S1248、D12S391、D2S1338基因座基因型(標紅)拆分錯誤。

表7 軟件推斷的第一貢獻者(嫌疑人劉某)的分型(后驗概率≥90%)Table 7 Genotyping of fi rst contributor (suspect Liu) inferred by software (posterior≥90%)

為了減少軟件的拆分錯誤,將兩款軟件后驗概率的閾值提高到99%,結果如表8所示。

表8 軟件推斷的第一貢獻者(嫌疑人劉某)的基因分型(后驗概率≥99%)Table 8 Genotyping of fi rst contributor (suspect Liu) inferred by software (posterior≥99%)

將基因分型的后驗概率閾值提高到99%后,21個常染色體STR基因座中,SMART推斷出14個基因座完整的基因分型,6個基因座一半的基因分型,而同等條件下STRmix推斷出9個基因座完整的基因分型,8個基因座一半的基因分型。經和嫌疑人劉某的分型比對,SMART推斷的20個基因座中有19個是正確的,而D2S1338基因座基因型(標紅)拆分錯誤,STRmix推斷的17個基因座中有16個是正確的,D2S1338基因座基因型(標紅)也拆分錯誤。

SMART和STRmix同屬于概率分型軟件,基于相同的模型。它們的模型和計算原理已在1.1與1.2節中作簡單介紹,就是通過選取不同基因型集合和不同的樣本參數生成期望峰高對混合STR圖譜的觀測峰高進行擬合,最終挑選出擬合效果最好的基因型集合和樣本參數。但是實際情況中,混合STR圖譜中的峰高可能會產生較大波動,例如出現雜合不平衡,這種情況雖然很少,但發生后就可能會出現錯誤的基因分型比正確的基因分型擬合效果更好的情況,軟件就會推斷出錯誤的基因分型,這也是目前概率分型軟件的局限所在。

4 結論

SMART作為一款自主研發的混合STR圖譜分析軟件,能夠對混合STR圖譜進行自動化分析,輸出混合人數、混合比例、混合圖譜質量,推斷混合DNA樣本各個貢獻者的基因分型,計算似然比。與人工分析混合STR圖譜相比,軟件分析具有客觀性強、速度快、拆分效果好等優勢,能夠大大提高混合DNA樣本物證的利用率。通過對實際案例中混合STR圖譜的分析,與國外同類型的STRmix軟件相比,SMART對混合STR圖譜中各貢獻者分型的拆分功能已達同等水平甚至有所超越,更符合法醫行業對混合STR圖譜拆分的需求。

該系統目前已完成研發與封裝測試。系統的可靠性一方面需要大批量實驗室樣本的驗證與訓練,另一方面就是大量實戰數據的驗證。預期該軟件的推廣使用將助力公安和法醫學行業,在此基礎上,有望形成混合STR圖譜分析系統的業界標準。

SMART基于PCR-CE平臺產生的STR圖譜而開發,使用的主要是圖譜中峰的高度信息,因而易受峰高度波動的影響。目前二代測序技術在法醫遺傳學領域開始嶄露頭角[16-17],二代測序技術能夠檢測更多的法醫學位點,包括STR、單核苷酸多態性(single nucleotide polymorphism, SNP)、微單倍型(microhaplotype)、插入缺失多態性(deletion/insertion polymor-phisms, DIP)等,能夠檢測更為精細化的信息,如不僅能夠檢測STR的長度多態性而且能夠檢測STR的序列多態性。二代測序技術為解決混合DNA樣本的分析問題提供了更加豐富的信息,不過目前二代測序技術下混合DNA樣本的分析尚未有系統性的研究。隨著二代測序技術在行業內的推廣使用,SMART會兼容混合DNA樣本的二代測序數據,更進一步地解決混合DNA樣本的分析問題。

猜你喜歡
貢獻者分型基因型
HBV基因型的研究現狀與發展趨勢探討
PD-1和CTLA-4 3′UTR基因交互作用在HBV感染中的作用*
改進貝葉斯統計挖掘名老中醫對肺痿的證候分型經驗
CT在早期預測新型冠狀病毒肺炎不同臨床分型的應用
從“學習者”到“貢獻者”:中國管理學發展的路徑
“‘一國兩制’杰出貢獻者”國家榮譽稱號
數學工具在自交和自由交配相關計算中的應用探討
爆笑大本營
復雜分型面的分型技巧
乙型肝炎病毒基因型的臨床意義
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合