?

高通量測序技術新名詞的理解和辨析

2017-09-07 04:17王海
中國科技術語 2017年4期
關鍵詞:堿基高通量基因組

王海

摘 要:高通量測序是指能一次并行對幾十萬到幾百萬條DNA分子進行序列測定的技術。高通量測序迅猛發展,已成為全球生命科學研究的熱點。由此衍生的新科技術語也不斷出現。而規范統一的定名有助于科技成果的快速推廣。文章從測序技術的發展歷史進行闡述,著重對高通量測序技術一詞進行分析,并對其領域內主要的專業術語進行了歸納和解釋。

關鍵詞:高通量測序技術,新名詞

中圖分類號:N04;Q34文獻標識碼:ADOI:10.3969/j.issn.1673-8578.2017.04.010

Abstract: Highthroughput sequencing is a technique that has capable of sequencing multiple DNA molecules in parallel, enabling hundreds of millions of DNA molecules to be sequenced at a time. With the rapid development of highthroughput sequencing, it has become a hot field in life sciences, and appeared some novel terms. This article expounds the development history of sequencing technology, analyzes the term “highthroughput sequencing technology”, and explains related main technical terms in this field.

Keywords: highthroughput sequencing, novel terms

引 言

科技術語是科學技術研究中的專用名詞,它所代表的意義必須力求準確統一,只有這樣才符合科學研究中要求的嚴格性與嚴密性??萍夹g語的混亂,會影響科技工作者之間的交流,因此科技術語的統一和規范化,對學科知識的傳播與交流、新理論的建立、新學科的開拓、最新信息的交流、科技成果推廣等方面都至關重要[1]。

高通量測序(highthroughput sequencing)是指能一次并行對幾十萬到幾百萬條DNA分子進行序列測定的技術。在21世紀初被國外生物公司首次開發,繼而迅速在全球范圍內推廣應用,它能夠幫助科研人員解決許多生物學問題,深入研究各物種的基因組結構、功能、表達、調控等,更透徹地解密“生命密碼”。比如在基因組水平上對還沒有參考序列的物種進行從頭測序(de novo sequencing),獲得該物種的參考序列;在轉錄組水平上進行mRNA測序(mRNA sequencing),從而開展差異基因表達分析、可變剪切分析等研究;從表觀遺傳學的角度,研究DNA、RNA、蛋白質間相互作用或染色質構象的測序技術, 進行轉錄后調控等方面的研究。

“高通量測序”一詞已廣泛應用于生命科學的研究,通過測序技術得到的基因組數據庫、轉錄組數據庫等眾多數據庫,對生命現象的研究起著至關重要的作用。因此以高通量測序為基礎發展出許多新名詞,對這些新名詞的規范命名和正確的理解,能夠有效地促進科學技術的傳播,進而推動科學的進一步發展。

一 測序技術的發展歷史

眾所周知,生物的遺傳信息是由DNA序列決定的,4種堿基A、T、C、G的排列方式決定了生物的形態、生長發育、疾病等種種特征。DNA序列的異常也將引起各種各樣的疾病。那么某一個物種的DNA序列究竟是什么,如何得到該物種完整的DNA序列,如何破解“生命密碼”,就成為20世紀70年代生命科學研究領域的熱門課題。

1977年,英國生物化學家桑格(F. Sanger)和庫森(A.R.Coulson)創建了第一代測序技術,通過DNA雙脫氧鏈終止法,成功得到噬菌體X174的全部基因組序列,全長5374個堿基。該方法使用能在DNA模板鏈上互補參入卻不能延伸的四種雙脫氧核苷三磷酸(ddNTP)與正常的四種脫氧核苷三磷酸(dNTP)競爭,合成的互補鏈可以在任何位置終止,獲得長短不一的反應產物,通過電泳分離,從四條泳道上的條帶順序就能讀出DNA的序列。這一技術可以對樣品直接進行測序,不需提前了解其遺傳背景,有較高的準確性,因此快速成為當時最常用的基因測序技術,并命名為“桑格-庫森法”(SangerCoulson method),也成為第一代測序技術。它的出現標志著生命科學的研究進入了基因組時代。人類基因組計劃(human genome project,HGP)就是用該技術完成的。

全國科學技術名詞審定委員會審定公布的《遺傳學名詞》(2007年)、《生物化學與分子生物學名詞》(2008年)、《細胞生物學名詞》(2009年)中,均將第一代測序技術命名為“桑格-庫森法”(SangerCoulson method),定義是“以2,3-雙脫氧核苷三磷酸為底物,快速測定DNA中核苷酸序列的方法”。而某些網站或期刊,仍使用“桑格法”“Sanger 法”“Sanger 法測序”等不規范、不統一的名稱。

隨著科技的發展,到21世紀初,“桑格-庫森法”(SangerCoulson method)的第一代測序技術已不能滿足科研人員的要求,科研人員需要一種通量更大、速度更快、成本更低、靈敏度更高、準確度更高的新的測序技術,來滿足日益增長的科研需求,第二代測序技術就應運而生,它不同于第一代的測序原理,采用的是邊合成邊測序(或邊連接邊測序)(sequencing by synthesis, SBL)的原理,即以四種標記不同熒光染料的堿基(dNTP)為底物,待檢測樣品的單鏈DNA為模板,模擬DNA復制的過程。復制中,檢測與模板DNA鏈結合的堿基上包含的熒光染料信號,從而獲得DNA模板的序列[2]。該方法帶來了革命性的改變,具有高通量、高效率、低成本等特點,其中尤以高通量特點最為顯著,因此產生一個新的科技名詞“高通量測序”,該技術的誕生對基因組學的研究具有劃時代的意義。

近年來,為了更精確、更有效地挖掘DNA的序列信息,研究人員研發出一個新的測序技術,即單分子測序(single molecule sequencing)?;趩畏肿铀降倪吅铣蛇厹y序,具有超長讀長、不需要模板擴增、運行時間短、直接檢測表觀修飾位點等特點,彌補了第二代測序讀長短、易受GC(鳥嘌呤和胞嘧啶)含量影響等局限性。所以該技術剛出現,就受到廣大科研人員的熱烈歡迎,并視此技術為第三代測序[3]。因此該技術正處于發展階段,商業化的測序儀還比較少,相信隨著科技的不斷發展,該技術會逐漸走向成熟和多元化。

雖然測序技術已發展到第三代,但并不意味著第一代和第二代測序技術已被淘汰,相反,每一代的測序技術都有其特點,現在依然在其各自領域發揮著重要作用,比如用于親子鑒定的3130儀器,就是基于第一代測序技術原理;第二代測序技術以其高通量、低成本的特點,仍然活躍在各類DNA、RNA測序以及各種表觀修飾的研究中;第三代測序技術則憑借其當仁不讓的讀長優勢,在基因組測序、全長轉錄本測序中獨占鰲頭。

二 “高通量測序”名詞的理解和辨析

由于高通量測序(highthroughput sequencing)技術的發展太快,以至于還沒有對其給出準確統一的中文定名,這就導致對“高通量測序”名詞的使用出現了混亂。

在高通量測序技術應用階段之初,由于其給生命科學的研究帶來了革命性的改變,大量文獻進行了宣傳報道,其中許多將高通量測序,又稱為“第二代測序”或“新一代測序”“下一代測序”(nextgeneration sequencing,NGS)等,甚至有些文章將“第二代測序”“新一代測序”或“下一代測序”作為正稱使用,這也比較符合當時的科技發展要求??v觀測序技術的發展歷史,繼第一代測序技術之后,美國應用生物系統公司(ABI)、羅氏(Roche)公司和Illumina公司相繼研發出與第一代截然不同的測序技術,并利用各自獨特的測序技術推出了Solid、454和Solexa三種測序平臺,也是第二代測序中最主流的三種測序平臺。這些不同的測序平臺都具有高通量、高效率、低成本等特點,故被通稱為“高通量測序”,開創了第二代測序技術。當時,由于這個新的測序技術過于高端和前沿,只有這三個公司才具有能力提供這種“高通量測序”技術,處于壟斷階段。所以在很長一段時間,高通量測序都代表著第二代測序,或者是下一代的測序。

但是隨著測序技術的迅猛發展,很快就出現了第三代測序技術,“高通量測序”的名稱就容易產生誤解,因為第三代測序技術的通量也很大,此時,“高通量測序”并不能特指第二代測序?!靶乱淮鷾y序”“下一代測序”的命名更不符合“科技名詞不宜使用時效性詞匯”的原則。某些不規范的名詞隨著科技的發展,會越來越阻礙科技信息的傳播。

全國科學技術名詞審定委員會在2015年生物物理學名詞預公布中,對“highthroughput sequencing”給出規范的中文定名“高通量測序”,定義是“能一次并行對幾十萬到幾百萬條DNA分子進行序列測定的技術”。那么,只要檢測的DNA分子量超過幾十萬,都可以是高通量測序,因此高通量測序包含第二代測序和第三代測序。在使用上,應正確理解其所指代的范圍,把第二代測序和高通量測序加以區分。而“新一代測序”“下一代測序”等曾經特指第二代測序的名詞,如出現在當下則會引起歧義,屬于不規范名詞,不推薦使用。

三 高通量測序技術其他新名詞的理解

為滿足科研人員對生命科學領域不同角度的研究,高通量測序技術也發展出許多不同目的的測序技術,有的應用于基因組的研究,有的應用于轉錄組的研究等。這些技術發展之快,讓人應接不暇,許多新的科技名詞如雨后春筍般涌現,對這些新名詞的正確認識有助于科技知識的傳播。比如:

全基因組測序(whole genome sequencing, WGS):利用高通量測序技術,檢測并獲得細胞或組織中全部染色體中DNA的序列。用于研究未知基因組的序列、不同個體基因組的差異等。

外顯子測序(whole exon sequencing):利用序列捕獲技術捕獲并富集細胞或組織基因組中所有外顯子區域DNA,經高通量測序技術得到其所有的序列。用于研究已知基因的單核苷酸多態性位點、插入缺失位點等,不適合用于研究基因組結構的變異。

mRNA測序(mRNA sequencing, mRNAseq):從細胞或組織中提取其所有的信使RNA(mRNA),通過高通量測序技術得到其所有的序列。用于研究某特定狀態下的細胞或組織中的轉錄組變化,比如差異基因表達分析、可變剪切分析等。

微RNA測序(microRNA sequencing, miRNAseq):從細胞或組織中提取其所有的微RNA(microRNA),通過高通量測序技術得到其所有的序列。用于研究某特定狀態下的細胞或組織中的微RNA的差異表達、尋找其作用的靶點mRNA,以及發現新的微RNA等。

從頭測序(de novo sequencing):不需要任何已有的序列資料對某個物種進行的測序。利用生物信息學分析方法對序列進行拼接、組裝,從而獲得該物種的基因組圖譜。應用于從頭分析未知物種的基因組序列、基因組成、進化特點等。

基因組重測序(genome resequencing):對基因組序列已知的物種進行不同個體的基因組測序。用于分析不同個體間基因組的差異,如發現單核苷酸多態性位點、插入缺失位點、結構變異位點和拷貝數變異位點等。

單細胞測序(single cell sequencing):利用單細胞基因組擴增技術,通過高通量測序技術,得到單個細胞中所有的基因組、轉錄組等序列的技術。能夠揭示該細胞內整體水平的基因表達狀態和基因結構信息,準確反映細胞間的異質性,深入理解其基因型和表型之間的相互關系。

染色質免疫沉淀測序(chromatin immunoprecipitation sequencing, ChIPseq):一類將染色質免疫沉淀(chromatin immunoprecipitation, ChIP)與高通量測序相結合,用以高效地在全基因組范圍內研究細胞或組織中蛋白質和DNA相互作用的技術??捎糜跈z測轉錄因子結合位點、組蛋白特異性修飾位點等。

RNA免疫沉淀測序(RNA immunoprecipitation sequencing, RIPseq):一類將免疫沉淀與高通量測序相結合,用以高效地在全基因組范圍內研究細胞或組織中蛋白質和RNA相互作用的技術??捎糜诎l現轉錄后調控網絡、miRNA調節靶點等。

環狀染色質構象捕獲(circular chromosome conformation capture, 4C):又稱“芯片染色質構象捕獲”(chromosome conformation captureonchip)?;谌旧w構象捕獲(chromosome conformation capture, 3C)發展而來。染色體構象捕獲(3C)是一種檢測DNA間是否存在相互作用的技術,用以分析染色質的空間構象。4C是將3C和芯片技術相結合,在全基因組范圍內研究DNA間相互作用的技術。

3C碳拷貝(3Ccarbon copy, 5C):基于染色體構象捕獲(3C)工作原理,結合連接介導的擴增(ligationmediated amplification, LMA),實現大通量檢測DNA間相互作用的技術。

高通量染色質構象捕獲(HiC):染色體構象捕獲(3C)和高通量測序技術相結合的用以高通量檢測DNA間相互作用的技術。是目前對測序量要求最高的一種技術。由于該技術是近幾年高速發展起來的,且廣泛應用,在研究人員中只廣泛采用其英文縮寫名“HiC”,尚未有成熟的中文定名,此處是筆者根據全國科學技術名詞審定委員會《科技名詞審定原則與方法》給出的中文名,僅供參考。

RNA純化染色質分離高通量測序 ( chromatin isolation by RNA purification, CHIRPSeq):一種在全基因組水平上檢測與RNA綁定的DNA和蛋白的高通量測序方法。

紫外交聯免疫沉淀結合高通量測序(crosslinkingimmunprecipitation and highthroughput sequencing, CLIPseq):利用高通量測序技術,在全基因組水平上檢測細胞或組織中RNA分子與RNA結合蛋白相互作用的技術。

亞硫酸氫鹽測序(bisulfite sequencing, BSSeq):利用高通量測序技術,檢測細胞或組織中全部染色體DNA上甲基化修飾情況的技術。通過分析不同樣品之間的甲基化差異,可研究DNA甲基化水平對基因表達的調控。

文庫標簽(index):測序樣品為混合樣本時,為區分不同樣品而添加不同的標簽。用于鑒別測序樣品。

堿基質量值(quality score, Qscore):堿基識別(base calling)出錯的概率的整數映射。公式是:Q-score=-10×log10P,式中P為堿基識別出錯的概率。堿基質量值越高表明堿基識別越可靠,堿基測錯的可能性越小。

上述新名詞已在生物學與醫學領域研究人員中廣泛應用,但是仍有許多新的名詞還沒有給出準確的中文定名,只能應用英文名詞或英文簡稱,如HiC、RPKM,這需要科技工作者與術語研究者密切聯系,共同關注新科技名詞的命名。

四 結 語

幾千年來,人們對“生命奧秘”的探索從未停息,測序技術的發展也不會止步于此,可能在不久的將來,第四代、第五代等測序技術也將應運而生。在此過程中,每出現新的科技術語,伴隨而來的科學命名都非常重要。規范統一的定名,準確簡單的名稱能夠快速地推動新技術的傳播,方便最新信息的交流,也將為日后先進技術的發展與推廣奠定堅實的基礎。

參考文獻

[1]科技名詞術語的統一和規范化的意義[J]. 中國現代醫藥雜志,2008 (6):109-109.

[2]王興春,楊致榮,王敏,等. 高通量測序技術及其應用[J]. 中國生物工程雜志,2012(1):109-114.

[3]柳延虎,王璐,于黎. 單分子實時測序技術的原理與應用[J]. 遺傳,2015(3):259-268.

猜你喜歡
堿基高通量基因組
高通量衛星網絡及網絡漫游關鍵技術
牛參考基因組中發現被忽視基因
應用思維進階構建模型 例談培養學生創造性思維
高通量血液透析臨床研究進展
中國科學家創建出新型糖基化酶堿基編輯器
Ka頻段高通量衛星在鐵路通信中的應用探討
生命“字母表”迎來4名新成員
生命“字母表”迎來4名新成員
中國通信衛星開啟高通量時代
基因組DNA甲基化及組蛋白甲基化
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合