?

李揚 利用統計學整合人類基因組大數據

2019-03-31 15:02陳晰
中華兒女 2019年6期
關鍵詞:李揚預測算法

陳晰

重構人類基因進化歷史,對于研究并預防遺傳疾病具有重要意義。哈佛大學來自中國的留學生李揚首創了CLIME統計算法,依托大數據時代巨大的公共基因組數據,通過分析不同物種的DNA序列之間的關系,快速準確重構了2萬人的基因進化歷史,為推動生物醫學研究發展做出巨大貢獻。

李揚于1988年出生于北京。2011年赴美留學,師從華人著名統計學家劉軍教授,2016獲哈佛大學統計學博士學位。他在統計學中主要的研究方向是通過統計建模,利用大規模的基因組學數據預測人類基因的功能,從而推動生物醫學的研究。他的論文刊登在世界著名學術刊物如Cell, PLoS Computational Biology, Journal of the American Statistical Association, Nature Methods, Proceeding of National Academy of Science等,同時還為全球714個實驗室提供了6,000余次在線分析。其中,10余家實驗室通過使用CLIME算法應用得到了新的科學成果。

快速高效完成DNA測序

人類基因組中大概有2萬個基因,然而目前科學界只對其中不到50%的基因有所了解,另外50%的基因并不清楚他們在人體中起到什么作用。但就是這些未知基因的功能,卻左右著人類的遺傳疾病。

李揚告訴記者,根據達爾文的進化論,不同的高級物種可能是從少數的幾個低級物種進化而來,通過分析不同物種的DNA序列之間的關系,就可以重構每個人類基因的進化歷史。在大數據時代,巨大的公共基因組數據量給研究者提供了一個良好的契機,CLIME算法正是基于這種思想,并基于嚴格的數學統計模型而發明的。

CLIME的統計模型是根據統計學中著名的隱馬爾科夫模型(Hidden Markov Model)對人類基因在進化過程中的產生和消失進行數學建模。通過這個模型,CLIME分析出每個人類基因的進化歷史,同時進一步使用貝葉斯混合模型(Bayesian mixture model),并使用馬爾科夫鏈采樣算法(Markov chain Monte Carlo)把進化模型相似的基因進行聚類。因為D N A測序數據量巨大,統計分析算法往往需要很長的計算時間。李揚在CLIME中提出了一個動態規劃(Dynamic Programming)算法,使CLIME可以在短時間內高效完成計算。

10余實驗室通過CLIME算法得出新成果

在實際應用中,CLIME算法使用了138個物種(包含動物、植物、單核生物等)的基因序列數據,重構了2萬個人類基因的進化歷史,把進化歷史相似的基因進行聚類。目前,哈佛大學已經建立了CLIME 算法分析網站www.gene-clime. org,該網站在全球范圍內被研究者廣泛使用,已經為全球714個實驗室提供了6,000余次在線分析,在線提供的人類基因組進化模型的分析結果已經被下載超過51萬余次。此外,全球有10余家實驗室通過使用CLIME算法,并應用于他們的數據上得到了新的科學成果。

芬蘭科學院院士、赫爾辛基大學Anu Wartiovaara教授近期在Cell Metabolism上發表論文,詳細研究了細胞代謝中幾個重要基因的作用。在此文中,Wartiovaara教授實驗室的研究人員使用了CLIME算法,對幾個重要的細胞代謝基因進行分析,并得出了幾個基因之間相關性的分析。Wartiovaara教授提到:“CLIME算法是李揚對學術界的一個重要貢獻,CLIME算法的在線分析網站不僅僅我的研究小組的研究人員經常使用,同時也是被國際上很多研究人員經常使用的工具”。

對于未來的研究方向,李揚表示,隨著科技發展,各個領域各個行業的數據量都在迅猛增長,每天會出現不同來源、不同形式、包含不同信息的數據。而通過數據來發掘有用的信息,幫助人類社會發展是當今社會的一個重要問題。因此,自己下一步將重點研究在高緯度下,如何從眾多的變量中選擇出最有預測能力的變量。

對話李揚:

《中華兒女》:請簡單介紹一下統計學和生物統計學?

李揚:統計學可以算是應用數學的一個分支。統計學不是簡單的收集和整理數據,而是通過概率模型來對數據進行分析,從數據中提取有用的信息的系統學科。統計學的研究方法包含廣泛。人們除了使用應用數學外,還需要了解和使用計算機科學中的很多算法來分析實際的數據。統計學在生物、經濟、金融、社會學方面發揮很大的作用。生物統計學是現代統計學中最早的應用之一。大約100年前,英國的Fisher , Pearson, Galton等人發明出了一整套統計分析的理論框架,他們將統計學應用在分析遺傳學、生物學和農業科學等學科中觀測到的數據。比如Galton在研究遺傳學數據中,分析了孩子和父親身高的數據。他發現孩子身高會有向父輩身高均值回歸的現象,并發明了線性回歸方法來解釋這些數據?,F代統計學已經在各科學的研究和各行業的生產實踐中得到極為廣泛的應用。

《中華兒女》:統計學和生物統計學為何現在如此受到人們的關注?

李揚:現在是一個數據爆炸的時代。隨著科學技術的發展,各個行業都在變得更加電子化和定量化,都在生成“大數據”。這些大數據雖然包含很多的信息,但是這些信息都隱藏在數據中,并不是直觀表現在外在的。引用我的導師劉軍教授的話,大數據是“原油”而不是“石油“。我們需要使用系統的方法來分析數據,從數據中提取有用的信息。統計學通過建立定量模型來揭示大數據中的復雜關系,通過這些模型預測未來結果并發現潛在的科學機制?,F今各大科技公司都有數據科學(Data Science)部門,招聘了很多數據科學家(Data Scientist)來分析數據,提高產品的使用體驗,更好的為客戶服務。例如說在線打車公司Uber和Lyft都雇傭了大量的數據科學家,分析海量的用戶打車數據,建立統計模型。這些統計模型可以預測每個城市人口活動的分布,實現對出租車的精確調度。統計學中另一個重要的研究領域被稱為“因果推斷”,它在生物統計學中有極大的影響。因果推斷研究如何從數據中推斷出因果關系。比如一個制藥公司研制出了一種新藥,需要進行臨床實驗判斷這個新藥是否比老的藥更有效果。在實驗中采集各種數據,通過統計分析來判斷這個新藥是否有效。

《中華兒女》:可以簡單介紹一下你的研究工作嗎?

李揚:我的研究方向是整合生物基因組大數據,建立統計模型,來預測人類基因的功能。人類基因組中含有大概2萬個基因,然而我們只對其中不到50%的基因有所了解。另外50%的基因我們根本不知道他們是在人體中起到什么作用。對于現在很多的疾病,我們知道他們是遺傳疾病,但我們并不知道這些疾病是由于哪個基因產生了變異。所以預測這些未知基因的功能就是一個很重要的問題。

我的研究方向是通過統計方法,建立人類基因的進化模型,分析出哪些基因是共同進化的。我們的研究之前,人們大致上知道共同進化的基因很有可能是相同功能的,但是一直缺乏一個系統的統計方法去預測兩個基因的共同進化。我研究了這個問題,提出了使用了隱馬爾科夫模型(Hidden Markov Model)對基因進化進行建模,并使用馬爾科夫鏈采樣算法(Markov chain Monte Carlo)把進化模型相似的基因進行聚類。這個模型很成功,我們的論文發表在了Cell雜志上。我們在論文里使用了138個物種(包含動物、植物、單核生物等)的基因序列數據,重構了2萬個人類基因的進化歷史。通過把進化歷史相似的基因進行聚類,我們對幾千個人類功能未知基因的功能做出了功能預測,論文發表之后有美國、芬蘭、澳大利亞、日本等國家的實驗室對我們的預測結果做了生物實驗驗證,都得到了正面的結果。我的另一個工作是用統計方法整合基因表達大數據,通過預測基因的共同表達來發現基因和基因之間的關系。我們知道基因是需要通過轉錄表達成mRNA在細胞中發揮功能。兩個基因的mRNA表達如果有高度的相關性,說明這兩個基因很有可能發揮相關的作用。之前學術界已經有多算法來從數據中發現基因的共同表達,但是這些算法都有一個共同的問題,就是它們都是使用一個數據集來尋找共同表達。一個數據集往往數據噪音很大,而且你關心的基因不一定在這個數據集中有表達。所以,我們提出了一個新的基于貝葉斯(Bayesian)模型的統計算法,整合了3000多個在美國國家衛生院(National Institute of Health)公共數據平臺上的數據集。通過整合這樣規模的大數據,在預測基因的共同表達上這個新的算法顯著比以前的算法有更高的準確性。在論文中,我們通過預測的基因共同表達找到了很多關聯基因,我們的合作者還通過生物實驗驗證了其中的一些預測。哈佛大學為這個新的統計算法建立了網站(www. gene-clic.org),這個網站有很高的訪問量。

《中華兒女》:能否談一下統計學未來的發展方向?

李揚:我認為統計學在未來會越來越多的注重于應用。以前統計學中很多研究是建立各種各樣的數學理論。這些理論建立了統計學的基礎,推動了統計算法的發展?,F在我們要做的就是把這些統計方法應用到更廣泛的場景中去。在這方面,統計學家們要增加和計算機科學家們的合作?,F在很火的機器學習是統計學和計算機的交叉學科,他的很多核心方法是統計學的理論,不過更側重于應用。通過使用計算機科學的大規模算法,機器學習把統計學應用到更大的數據集和更多的問題中去。對于未來我認為統計學和計算機科學會走的越來越近,統計學家會使用越來越大規模的計算平臺,計算機科學家也會越來越多的學習統計理論來指導他們的數據分析。在未來這個以數據和電子設備驅動的時代,統計學必然會發揮越來越大的作用。

猜你喜歡
李揚預測算法
選修2—2期中考試預測卷(B卷)
選修2—2期中考試預測卷(A卷)
喜糖禮盒包裝設計
墨菲定律
Travellng thg World Full—time for Rree
學習算法的“三種境界”
算法框圖的補全
算法初步知識盤點
送信
《福彩3D中獎公式》:提前一月預測號碼的驚人技巧!
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合