?

生物數據庫挖掘的應用

2017-01-03 22:37劉妍
科技傳播 2016年16期
關鍵詞:數據挖掘蛋白質

劉妍

摘要近年來,數據挖掘技術不斷發展,已經同生物信息技術完美的結合在一起,并取得突破性的進展,生物學的研究方法也發生著較大的變化。伴隨著強有力的數據分析技術,數據挖掘技術已經逐步成為現代生物數據庫發展的關鍵,在大規模數據處理方面具有卓越的能力。本文詳細總結了數據挖掘技術在基因組圖譜數據庫、蛋白質數據庫和腫瘤數據庫中的大量應用,并討論了數據挖掘技術在未來的發展潛力。

關鍵詞生物數據庫;數據挖掘;蛋白質

隨著現代生物技術的高速發展,量子力學、蛋白質生物學方面產生的大量數據,可以為基礎醫學研究提供了可參考的理論依據,而數據庫挖掘技術的產生為獲得和處理這些數據提供了新的創造性追溯機制。蛋白質結構的多樣性,分子量的巨大都超出傳統分析和查找技術,為了可以提高分析和推理速度,將數據挖掘技術引用到大分子量蛋白質的數據處理方面,其卓越的能力可見一斑。伴隨著網絡技術的飛速發展,基因技術在生物研究中的作用越發顯著,但是其所需要處理的分子量巨大也對其發展造成一定的影響。

1生物數據庫挖掘技術簡介

數據挖掘(Data Mining),被用于從數據庫中提取、發現和預測數據等,經常用于發現搜尋、分類、分析、關聯加工大量有用數據。Shapiro在1989年首次提出數據挖掘技術,隨后,數據挖掘技術被廣泛應用在各個領域,包括銀行、保險、醫療、物流和生物等,并都取得了較好的效果。

近年來,隨著數據挖掘技術在臨床合理用藥方面的應用,降低了我國住院人員藥物不良反應的人數,使臨床工作人員可以根據疾病種類、病人狀況和藥理學理論選擇最佳用藥及用量,同時給予患者最優治療方案,如用灸法治療、火針以及中醫臨床方面的應用,包括小兒肺炎、頸椎病、補益脾腎和老年病等的治療。此外,數據挖掘技術在對基因表達譜的分析中也發揮著顯著的作用,這主要使由于基因表達譜具有大量的數據、分析需求多樣性等需求。在目前已知的數據挖掘技術中,聚類法是應用最為廣泛的一種挖掘技術,主要應用在腫瘤疾病數據庫的創建方面。

2數據挖掘中存在的問題

大多數的數據庫具有一定的關聯性,因此如何能更有效的利用這些具有一定關聯性的數據庫成為一個迫在眉睫的問題。領域間的差異,以及系統、編碼和結構的多樣性,為通用的數據挖掘系統提供了更大的挑戰。同時,為了應對數據庫的動態更新特性,還必須提供一套實時檢測算法,有效的應對這些大量更新的數據。

3常用生物數據庫挖掘技術及應用

目前,在市場上出現了大量的數據挖掘軟件,而這些軟件一般都是基于一個數據庫的統計和分析工具,其結合了:計算機數據庫、統計學、自分析、自適應、神經網絡、遺傳算法和信號處理等。并且,很多科研機構和技術開發公司都先后成立了獨立的數據信息挖掘部門,其中,美國國家生物技術信息中心、歐洲生物信息研究所和日本信息生物中心。這些研究機構或學術組織致力于研究數據采集工具,同時將傳統的統計方法結合先進的自適應算法,如自學習、神經網絡、卡爾曼濾波、模糊邏輯和簇聚等。

將數據挖掘技術應用在基因表達圖譜上可以為疾病的治療、檢測和預防提供了高效的理論依據。從基因表達圖譜計劃到蛋白質組學的研究都可以引入數據挖掘技術,特別是在蛋白質序列的表達及其結構預測方面。蛋白質組學在很大程度上依靠數據庫技術,目前全球有大量的蛋白質組學數據庫使用數據庫挖掘技術。蛋白質組學的主要任務之一就是描述基因組中蛋白質編碼所執行的功能,并確立蛋白質的相互作用和蛋白質之間的關聯結構。從而將從中獲得的蛋白質數據分析出來,并且可以在其中自動添加蛋白質注釋?;驍祿煲捕紤昧藬祿诰蚣夹g,包括GenBank是美國國家生物技術信息中心(National Center for BiotechnologyInformation,NCBI)建立的DNA序列數據庫、序列文件,索引文件以及70 000多種生物的核苷酸序列;Ucsc(University of Calibornia Santa Cruz)數據庫中包含人類、小鼠等多個物種的基因草圖,并提供一系列分析工具,數據挖掘技術就是其中之一。用戶可以通過數據庫自帶的挖掘技術高效和快速的瀏覽基因組的相關信息,并且可以獲得關于這部分基因組的注釋。例如已知基因、預測基因、表達序列標簽、RNA、克隆組裝間隙和重疊,染色體帶型,小鼠同源性等,使用者可以根據自身情況添加或者修改相關注釋內容;而Ensembl就是使用Ucsc的數據庫中的人類基因序列草圖為研究基礎,兼顧真核生物基因組進行自動詮釋并加以維護。相對于蛋白質數據庫UniProt,它是整合了Swiss Prot、TrEMBL和PIR-PSD三大數據庫的數據組成。數據挖掘技術主要用于基因組測序項目完成后,后續獲得的蛋白質序列。它包含大量來自文獻的蛋白質生物功能的信息。而在腫瘤數據庫Tcga中數據挖掘技術也蘊藏著難以想象的功能,在腫瘤的特殊類別或發展的不同方面都伴隨這基因組的特異變化,正是由于這些基因組的改變導致細胞分化、發育和生長通路的不正常,從而引發細胞不正常地失控增值和生長。而Tcga數據庫采用的數據挖掘技術正試圖通過應用基因組分析技術特別是采用大規模的基因組測序,將癌癥的基因組變異圖譜繪制出來。通過數據挖掘技術系統的分析,從而找到所有致癌或抑制癌癥基因的微變化。了解癌細胞發生、發展的機制,在此基礎上取得新的診斷和治療方法,最后可以創立治療癌癥的最優詞略。Tcga迄今為止已經成為世界上最大一項基因工程,其繪制的癌癥基因圖譜有助于把研究人員從目前逐個追蹤基因的大量勞動中解放出來,可以快速開發和設計最優抗癌藥物。目前已經將肺癌、神經酵母細胞瘤和卵巢癌三種頭號癌癥和腫瘤的基因組譜確立研究的重點。然后利用數據挖掘技術,在Tcga數據庫中系統的找出并明確與癌癥相關的基因變異以及其他變異。在數據庫KEGG中為了了解高級功能和生物系統,尤其是大型分子型數據集成生成的基因組測序和其他高通量試驗技術的使用程序數據庫資源。在后基因時代一個重大的挑戰就是如何利用細胞在計算機上完整的表達和預測,同時利用挖掘技術對較高層次和復雜細胞活動做出正確的計算預測。所給出的大量染色體信息中,蛋白質相互作用的網絡預測提供高校的計算方法。

4總結和展望

隨著大數據和網絡時代的到來,數據挖掘技術逐漸演變成大規模數據庫中數據分析和提取的重要手段之一。將生物學與信息挖掘技術相結合已經逐漸成為生物數據庫發展進程的關鍵技術之一。本文主要研究大型數據庫技術和數據挖掘技術在基因數據庫、腫瘤數據庫和蛋白質數據庫中的應用,總結了數據挖掘技術在生物數據處理方面的應用特點,發現數據挖掘技術以適應生物數據連續、大量及網絡性等特點,在基因表達、蛋白質預測、醫療診斷等方面發揮著突出貢獻。

猜你喜歡
數據挖掘蛋白質
幼雞怎么喂蛋白質飼料
蛋白質自由
人工智能與蛋白質結構
探討人工智能與數據挖掘發展趨勢
基于并行計算的大數據挖掘在電網中的應用
數據挖掘技術在中醫診療數據分析中的應用
一種基于Hadoop的大數據挖掘云服務及應用
古蛋白質研究在考古學中的應用
數據挖掘的分析與探索
基于GPGPU的離散數據挖掘研究
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合