?

高通量基因測序儀行業標準的驗證

2021-08-07 07:56孫楠曲守方陳樣宜高飛張文新于婷黃杰
分子診斷與治療雜志 2021年7期
關鍵詞:堿基高通量文庫

孫楠 曲守方 陳樣宜 高飛 張文新 于婷★ 黃杰★

隨著檢測技術發展,高通量測序技術已經在臨床被廣泛應用于遺傳和腫瘤檢測領域,如無創產前基因檢測(NIPT)、胚胎植入前遺傳學篩查與診斷(PGS/PGD)、遺傳病篩查與診斷、腫瘤診斷與治療等[1-4]。目前商業上常用的二代測序平臺根據測序原理可分為光學技術(Illumina 公司和華大基因公司為代表)和半導體技術(Thermo 公司為代表)[5-6]。每個測序平臺都有各自的特異性參數,包括儀器大小、通量、讀長、運行時間及測序成本等,應結合具體的臨床應用需求選擇合適的測序平臺進行評估[7]。不同測序平臺之間存在顯著的系統性差異,對測序平臺性能進行綜合評估能夠有效規范臨床應用平臺的使用和應用開發。為實現對第二代測序儀器性能評估,中國食品藥品檢定研究院研制了測序儀性能評價用脫氧核糖核酸國家參考品,也制定了高通量基因測序儀行業標準。本研究按照制定的高通量基因測序儀行業標準的性能指標的要求,使用測序通量<20 Gb/run 且≥2 Gb/run 高通量基因測序儀進行驗證,評價該標準的可行性。

1 材料與方法

1.1 試劑與儀器

測序儀性能評價用脫氧核糖核酸國家參考品,包括四種基因組DNA 樣本,分別是人基因組DNA 樣本(Human_1~3)、大腸桿菌基因組DNA 樣本(Ecoli_1~3)、高GC 含量細菌基因組DNA 樣本(Olsenella_1~3)、人乳頭瘤病毒11 型基因組DNA樣本(HPV11_1~3),中國食品藥品檢定研究院(簡稱中檢院)提供。

文庫構建試劑盒、測序反應通用試劑盒(半導體法)和BioelectronSeq 4000 基因測序儀,東莞博奧木華基因科技有限公司提供。

1.2 文庫構建

采用文庫構建試劑盒(半導體測序法)對樣本進行文庫制備。先將國家參考品DNA 酶切,接頭連接,進行目標DNA 片段的PCR 擴增,獲得待測序分析的文庫。使用熒光定量PCR 儀測定各個文庫的濃度,按照等物質的量混合文庫。

1.3 測序

采用測序反應通用試劑盒(半導體法)(S10010)并按照試劑盒說明書進行操作。將一定量的混合文庫,加到測序芯片上,用Bioelectron-Seq 4000 基因測序儀,將帶有測序接頭的DNA 文庫加入乳液擴增反應體系,使每個DNA 模板在獨立的微擴增環境中擴增放大,然后將其作為測序模板載入測序芯片。將四種脫氧核苷酸分別標記不同的熒光基團,每一個循環添加一種核苷酸,該核苷酸如果被合成到DNA 中會釋放氫離子,引起溶液pH 值變化從而得到核苷酸序列信息。

1.4 數據分析

測序完成后通過生物信息軟件,對獲得的fastq 數據進行過濾,使用BWA 軟件,將每個read與參考序列進行比對,使用軟件GATK Haplotype Caller 對比對結果進行變異分析。

2 結果

2.1 測序覆蓋率和測序平均深度

對于“測序覆蓋率和測序平均深度”,標準要求制造商應規定檢測國家參考品或標準品的測序覆蓋率和測序平均深度。制造商規定的要求為:測序覆蓋率要求>95%,測序平均深度應>100×。結果表明,測序覆蓋率為99.99%,測序平均深度為166×,符合制造商的規定。

2.2 測序準確率

對于“測序準確率”,標準規定在制造商規定的測序覆蓋率和測序平均深度下,符合以下要求:①檢測人基因組DNA 參考品或標準品中指定的全外顯子區域,比對率應符合制造商的要求,與指定全外顯子區域單核苷酸多態性(Single nucleotide polymorphisms,SNP)和插入缺失(Insertion-deletion,Indel)參考數據集比較,SNP、Indel 的準確率和靈敏度應符合制造商的要求;②檢測人基因組DNA 參考品或標準品中指定的全外顯子區域,比對率應符合制造商的要求,與人基因組DNA 參考序列中指定的全外顯子區域比對,測序一致序列準確率應不低于99.0%;③檢測細菌和病毒DNA 參考品,與對應參考序列比對,測序一致序列準確率應不低于99.0%。結果表明,對國家參考品中人基因組DNA樣本(Human)的比對率為86.14%,堿基測序準確率為98.97%;SNP、Indel 準確率為95.40%;SNP、Indel靈敏度為85.75%,均符合制造商的要求:比對率應>80%,堿基測序準確率應>95%,SNP、Indel 準確率應>90%,靈敏度應>80%。對國家參考品中人基因組DNA 樣本的一致序列準確率為99.94%,符合制造商的一致序列準確率>99.0%要求。對國家參考品中人乳頭瘤病毒11 型基因組DNA 樣本(HPV11)、大腸桿菌基因組DNA 樣本(E.coli)、高GC 含量細菌基因組DNA 樣本(Olsenella),HPV11的測序一致序列準確率為100%;E.coli 的準確率為99.95%;Olsenella 的準確率為99.88%,均符合制造商的一致序列準確率>99.0%要求。

將下機數據分別與參考基因組進行比對,統計比對率和錯配率,進而計算出堿基準確率(1-錯配率),將人基因組樣本的數據與人類參考基因組hs37d5 使用BWA 比對,然后使用GATK Haplotype Caller 對比對結果進行變異分析獲得檢測的變異數據集,最后分析該數據集在27 Mb 外顯子區域的結果與高置信變異集的比對一致性情況,將大腸桿菌E.coli,高GC 菌Olsenella 和HPV-11 下機數據與各自基因組的一致性序列比對。見圖1。

圖1 國家參考品比對結果Figure 1 Mapped results of national reference materials

人基因組樣本數據與人類參考基因組hs37d5進行比對和變異檢測,與高置信變異標準集進行比較,變異評估結果見表1和圖2。

圖2 外顯子27M 區域人基因組樣本的變異評估結果Figure 2 Variation assessment results of human genome samples from exon 27M region

2.3 重復性

對于“重復性”,取國家參考品進行三次重復測序,每次結果均符合“測序覆蓋率和測序平均深度”和“測序準確率”要求,結果見圖1、表1。

表1 外顯子27M 區域人基因組樣本的變異評估結果Table 1 Variation assessment results of human genome samples from exon 27M region

3 討論

傳統的化學降解法、雙脫氧鏈終止法以及在它們的基礎上發展來的測序技術統稱為第一代測序。它在分子生物學研究中發揮了重要的作用,如人類基因組計劃。第二代測序主要包括羅氏454 公司的454 測序技術、Illumina 公司的Solexa 測序技術和Life Technologies 公司的Ion Torrent 測序技術[8-10]。與傳統測序技術相比,二代測序技術的核心思想是邊合成邊測序,具有高通量、低成本等優點。

許多公司進行了高通量測序儀的開發和應用。但是目前尚無統一的標準對高通量測序儀的性能及使用進行規范,對其臨床上的風險不易把控,所以亟需研制相應的行業標準對其性能進行評估。行業標準的制定將有助于提高并統一產品的標準[11-12]。中國食品藥品檢定研究院制定了高通量基因測序儀行業標準。經過對各測序指標的篩選、比較與分析,最后確定了符合高通量基因測序儀的評價指標,包含測序讀長和通量、堿基識別質量百分比、測序覆蓋率和測序平均深度、測序準確率、重復性、軟件功能、安全要求、環境試驗要求和電磁兼容性要求等。鑒于不同測序平臺因為其測序原理和技術手段不同,具有不同的測序平均讀長。測序平均讀長過短會影響后續拼接、組裝和比對等,從而影響測序效果。因此需要對測序讀長這一指標加以規范。測序通量也是代表性的指標之一,因為高通量測序區別于一代Sanger 測序的明顯差別之一就在于其測序通量。而測序準確率這一指標,可以最直觀的表現每次測序結果的精確程度,其對高通量基因測序結果評價具有重要意義。

二代基因測序技術檢出數據量非常龐大,要借助生物信息學分析,對檢測結果進行初步分析。研究表明在進行Indel 分析時,由于Indel 存在導致Indel 周邊堿基的測序質量會有所降低,從而對Indel 的檢出以及可靠性評估都會造成較大影響[13]。在測序一致序列準確率均不低于99.0%的情況下,在SNP、Indel 的準確率和靈敏度存在較大的差別,主要是平臺本身的技術原理和技術性能決定的。本研究的一致序列準確率是計算平臺在所有覆蓋區域上的主要堿基與參考序列一致的占比,次要堿基不列入統計,次要堿基可能為測序錯誤,也可能為真實存在的變異。本研究的平臺采用GATK Haplotype Caller 軟件獲得SNP 和Indel,該軟件對某位置上存在兩種以上的堿基時,會用隱馬爾科夫模型在給定的read 數據下,計算各單倍型的進行最大似然值,給出可信變異的列表。因此在平均深度為100×的測序中,測序有效覆蓋區域的一致序列準確率可以達到99.0%甚至99.9%的水平。半導體測序法的特點是快速實時讀取堿基,堿基準確率相比基于熒光信號識別堿基的高通量測序平臺稍差,特別是連續相同堿基(homopolymer)的區域測序獲得的錯配堿基部分為可重復的情況,在未進行系統性校正的情況下容易超過軟件統計模型設定的閾值,從而導致準確性和靈敏度下降。Ion Proton 平臺一般采用擴增子法進行文庫構建。SNP 僅是單個堿基的變化,因此對于PCR 擴增的影響極小,但Indel 一般是多個堿基的插入或者缺失,若發生Indel 的位置與PCR 引物的位置有交叉時,則極有可能導致擴增失敗,Indel 的擴增失敗率要遠遠高于SNP,導致其準確性和靈敏度遠遠低于SNP。比對基因組主要是觀察測序序列與參考序列的相似程度,擴增子長度在200 bp 左右,SNP 的單個堿基變化導致測序序列與參考序列的差別是非常小的。但是Indel的十幾個堿基的插入與缺失,使測序序列與參考序列的差別大幅增加,增加了基因組比對的困難,導致Indel 的reads 被丟棄。因此在生信分析比對基因組過程中也會導致Indel 的準確性和靈敏度遠遠低于SNP。實際臨床應用中,可采用基于半導體測序平臺測序偏好的相關分析方法如TMAP 和TVC 配套軟件,準確性可提高至97%;或者開發基于特定基因位點變異模式的貝葉斯分析方法,降低測序錯誤的影響,提高檢測性能。國家參考品中增加了SNP、Indel 的準確率和靈敏度的要求,但并未對平臺進行統一規定,要求制造商給出各自平臺的具體要求。這一評價方式和國際上評價測序儀的方式一致。

本研究采用BioelectronSeq 4000 基因測序儀按照高通量基因測序儀行業標準對國家參考品進行檢驗,測序通量<20 Gb/run 且≥2 Gb/run。驗證結果顯示符合行業標準的測序覆蓋率和測序平均深度、測序準確率和重復性的要求,表明該行業標準具有很好的適用性,可以用于高通量測序儀的性能評價和上市后的監督管理工作。

猜你喜歡
堿基高通量文庫
高通量衛星服務專用網絡的應用模式探索
高通量血液透析治療老年慢性腎衰竭對治療有效率、Hb及ALB指標的影響研究
新一代高通量二代測序技術診斷耐藥結核病的臨床意義
高通量衛星通信綜述
基因“字母表”擴充后的生命
創建新型糖基化酶堿基編輯器
Spiritual Humanism: Its Meaning and Expansion
關于推薦《當代詩壇百家文庫》入選詩家的啟事
生命“字母表”迎來新成員
生命“字母表”迎來4名新成員
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合