?

我國人類基因數據庫元數據規范的設計

2019-10-23 03:15劉一依王世民瓊2飛2胡建平2沈麗寧
中華醫學圖書情報雜志 2019年7期
關鍵詞:人類基因遺傳變異基因組

劉一依,王世民,武 瓊2,趙 飛2,胡建平2,沈麗寧

生物基因數據是21世紀重要的國家戰略資源。隨著精準醫學時代的到來,產生了大量的基因測序數據。精準醫學的核心思想是根據患者的生物學信息和患者自身所具備的特點,采用特定的醫療方法對患者實施治療[1]。由于每個機構在管理基因數據時采用不同的基因數據庫元數據方案,所以導致基因數據在不同機構之間難以共享[2]。元數據即描述數據的數據[3]。數據庫是以某種方式存儲在計算機內、能分享給多個用戶且重復存儲較小的數據的集合[4]。元數據的功能主要包括挖掘信息、組織信息、實現信息互操作、辨識信息和存儲信息[5]。元數據規范能為數據的采集和存儲提供支持,是數據庫建設前期的基礎性工作之一,建立元數據規范的目的是建立數據庫。

美國、歐洲、日本均建立了各自的人類基因數據庫。國外人類基因數據庫的元數據比較成熟,對我國人類基因數據庫元數據規范的設計有很重要的借鑒意義?;蛐畔①Y源是我國重要的人類遺傳資源,關系到國家戰略安全,而我國人類基因數據庫尚未建成[6],人類基因數據庫元數據規范也不健全。雖然國外人類基因數據庫的元數據比較成熟,但不同類別基因數據庫中每個數據庫的元數據有一定的差異性,難以直接借鑒。為了保障我國人類基因信息安全和健全我國人類基因數據庫建設標準,本文在調查分析國內外人類基因數據庫元數據現狀的基礎上,設計了我國人類基因數據庫元數據規范。

1 國內外人類基因數據庫建設現狀

1.1 人類基因數據庫分類

人類基因數據庫主要分為核酸序列類數據庫、基因組數據庫、疾病與遺傳變異數據庫三大類[7]。核酸序列類數據庫包括核糖核酸(Ribonucleic Acid,RNA)和脫氧核糖核酸(Deoxyribonucleic Acid,DNA)的相關信息,DNA和RNA都能儲存遺傳信息;基因組數據庫儲存了基因組相關信息,其中基因組包含了細胞內所有的遺傳信息;疾病與遺傳變異數據庫包含了與基因有關的疾病與遺傳變異信息。除外傷外,大部分的疾病都和基因有密切關聯。通過遺傳而攜帶的有問題的基因、后天發生變異的基因以及個體生活習慣等對正?;虻挠绊懯菍е录膊〉娜蟾驹騕8]。

1.2 國外人類基因數據庫建設現狀

1.2.1 核酸序列類數據庫

核酸序列數據庫主要包括Genbank數據庫[9]、EMBL數據庫[10]和DDBJ數據庫[11]。其中,Genbank數據庫的元數據主要包括基因編號、基因的關鍵詞、基因相關文獻信息、基因的生物學描述等,基因編號是該序列唯一的編號,基因的關鍵詞包括該序列的基因產物等信息,基因相關文獻信息包括基因相關文獻的作者、題目、刊名等信息,基因的生物學描述包括基因的來源、重復序列等信息。EMBL數據庫和DDBJ數據庫的元數據內容與Genbank數據庫類似。

1.2.2 基因組數據庫

本文調研了Genome數據庫[12]和UCSC Genome Browser數據庫[13]。這兩個數據庫都提供了能檢索及可視化瀏覽人類基因組注釋信息的人類基因組注釋系統。Genome數據庫的元數據除了包含基因組注釋信息以外,還包含基因所在染色體的名稱、參考序列編號和基因組的生物學描述等信息。

1.2.3 疾病與遺傳變異數據庫

本文調研了在線人類孟德爾遺傳數據庫(Online Mendelian Inheritance in Man,OMIM)[14]、單核苷酸多態性數據庫(Database of Single Nuleotide Polymorphisms,dbSNP)[15]、基因組結構變異數據庫(Database of Genomic Structural Variation,dbVar)[16]和人類基因變異數據庫(Human Genome Variation Database,HGV Database)[17]。

在線人類孟德爾遺傳數據庫包含了人類基因突變的信息,其元數據包括基因編號、標題、基因相關文獻信息、基因相關生物學信息、貢獻者、提交日期、編輯歷史等。其中生物學信息包括表型基因關系、臨床概要和臨床特征等信息。

單核苷酸多態性數據庫主要收錄與人類疾病相關的基因突變信息,包括小規模遺傳變異、小規模多堿基缺失等[18],其元數據包括基因編號、基因相關生物學信息、提交記錄等。其中基因相關生物學信息包括位點、等位基因、變異類型等信息。

基因組結構變異數據庫主要收錄較大規模的基因組變異信息,包括大片段的插入、缺失、異位、倒置和拷貝數多態等信息,其元數據包括編號、研究ID、基因相關生物學信息、提交時間等。其中基因相關生物學信息包括變異類型、所在染色體等信息。

人類基因變異數據庫包含基因變異信息,其元數據包括編號、名稱、基因相關生物學信息等。其中基因相關生物學信息包括變異類型、相關疾病、表型等信息。

1.3 國內人類基因數據庫建設現狀

生命科學已經進入大數據時代,然而我國缺乏存儲基因數據的公共平臺。為順應時代的發展,中國科學院北京基因組研究所開發并建設了組學原始數據歸檔系統(Genome Sequence Archive,GSA)[19-20]。GSA屬于核酸序列類數據庫,其元數據主要包括GSA編號、樣本信息、測序反應信息、測序反應序列文件信息等。其中樣本信息包括樣本編號、樣本名稱、樣本類型、貢獻者信息、發布日期、提交者、提交日期等。

2 設計我國人類基因數據庫元數據規范的必要性

2.1 保障我國人類基因信息安全

隨著基因技術的不斷進步,基因測序的成本越來越低,獲取基因信息的成本將會逐步降低,從而產生了大量的人類基因信息。人類基因信息是我國重要的遺傳資源,人類基因信息安全是國家戰略安全的重要組成部分。人類基因信息包含人的性格、智力、患某種疾病概率等信息,應加強我國人類基因信息安全管理,避免我國人類基因信息的外泄。為了規范我國人類遺傳資源的管理,我國先后發布了《人類遺傳資源管理暫行辦法》和《人類遺傳資源采集、收集、買賣、出口、出境審批行政許可事項服務指南》。建立本土的人類基因數據庫可儲存我國人類基因信息,確保我國人類基因信息安全,而我國人類基因數據庫元數據規范是我國人類基因數據采集和儲存的基礎性的技術規范。

2.2 健全我國人類基因數據庫建設標準

人類基因數據庫建設標準是人類基因數據庫建設的重要內容。與國外人類基因數據庫元數據相比,國內人類基因數據庫元數據包含的內容較少,不能滿足未來對基因數據的應用需求。雖然國外人類基因數據庫元數據已經比較成熟,但是每個國家各自的數據庫是根據自身不同需求建立的,每類基因數據庫中每個庫的元數據都不盡相同。因此我國在建立人類基因數據庫時,難以確定遵循哪個數據庫的元數據。

我國幅員遼闊,人口和民族眾多,生物資源非常豐富。隨著測序技術的進步和生物數據急劇增長,政府也制定了一些標準。國內目前已發布標準有國家標準《生物信息學術語》(GB-T-29859-2013)和地方標準《生物基因信息數據庫建設與管理規范》(SZDB/Z 92-2014)。但是,上述兩個標準都沒有規定人類基因數據庫元數據的具體內容,所以我國亟需建立人類基因數據庫元數據標準。

3 我國人類基因數據庫元數據規范設計

通過文獻調查和網站檢索等方法,調研了國內外核酸序列類數據庫、基因組數據庫、疾病與遺傳變異數據庫,并從標識維度、關系維度、文獻維度、內容維度和管理維度設計了不同類型基因數據庫元數據規范[21]。

3.1 核酸序列類數據庫元數據規范設計

通過綜合以上核酸序列類數據庫元數據,得出核酸序列類數據庫元數據主要包括基因編號、基因的關鍵詞、基因相關文獻信息、基因的生物學描述等;然后遵循簡潔、實用、準確的原則,設計了核酸序列數據庫元數據規范。將核酸序列類數據庫的元數據分為標識維度、關系維度、文獻維度和內容維度。核酸序列類數據庫數據元模型見圖1。其中,標識維度是對基因標識信息的描述,關系維度是對基因相關的關鍵詞信息的描述,文獻維度是對基因相關聯的文獻信息的描述,內容維度是對基因相關生物學信息的描述。每個維度所包含的元數據項見表1。

圖1 核酸序列類數據庫數據元基本屬性模型

維度 元數據 說明是否可選標識維度 編號(Accession)具有唯一性和永久性必選版本(Version)代表版本號,編號后加小數點和整數可選關系維度關鍵詞(Keywords)由該序列的提交者提供,描述該基因的關鍵詞可選文獻維度參考文獻編號(Reference Number)無可選 作者(Authors)無可選標題(Title)無可選雜志名(Journal)無可選評論(Comment)用戶關于此條序列的評論 可選超文本鏈接(Hypertext Link)點擊即可直接調用上述文獻摘要可選內容維度說明(Definition)有關該序列的簡單描述必選數據來源(Source)說明該序列的生物體來源和組織來源 必選種屬(Organism) 指出該生物體的分類學地位 必選細胞器(Organelle)該基因是否在某一個特殊的細胞器中必選重復序列(Repeat_Region)基因中所包含的重復序列 必選原序列(Origin)堿基序列必選

3.2 基因組數據庫元數據規范設計

通過綜合以上基因組數據庫元數據,得出基因組數據庫元數據主要包括基因所在染色體名稱、參考序列編號、基因組的生物學描述、基因組注釋信息等;然后設計了基因組數據庫元數據規范。將基因組數據庫元數據分為標識維度、內容維度和基因組注釋維度?;蚪M數據庫數據元模型見圖2。其中,標識維度是對基因組標識信息的描述,內容維度是對基因組相關生物學信息的描述,基因組注釋維度是對基因組注釋信息的描述。每個維度包含的元數據項見表2。國外基因組數據庫的數據中,對于基因組注釋維度的幾個方面數據有更詳細的描述。

圖2 基因組數據庫數據元基本屬性模型

維度 元數據項 說明是否可選 標識維度染色體名稱(Name) 無 必選參考序列編號(Refseq) 無 必選內容維度GC含量(GC%)五個堿基內GC的比例 可選蛋白質 (Protein) 蛋白質數量 可選核糖體RNA(rRNA) 核糖體RNA的數量 可選轉運RNA (tRNA) 轉運RNA的數量可選其他RNA(Other RNA)其他RNA的數量可選基因(Gene) 基因的數量 可選假基因(Pseudogene)假基因的數量 可選基因組注釋維度比對和序列(Mapping and Sequencing) 無 必選基因和基因預測(Genes and Gene Predictions)無 必選表型和文獻(Phenotype and Literature)無 必選轉錄RNA和表達序列標簽(mRNA and EST)無 必選表達(Expression) 無 必選調節(Regulation) 無 必選比較基因組(Comparative Genomics) 無 必選變異(Variation) 無 必選重復序列(Repeats) 無 必選

3.3 疾病與遺傳變異數據庫元數據規范設計

通過綜合以上疾病與遺傳變異數據庫元數據,得出疾病與遺傳變異數據庫元數據主要包括編號、標題、基因相關生物學信息、提交時間、編輯歷史等;根據實用性原則,結合我國實際情況設計了疾病與遺傳變異數據庫元數據規范。將疾病與遺傳變異數據庫涉及到的元數據分為標識維度、內容維度和管理維度。疾病與遺傳變異數據庫數據元模型見圖3。其中,標識維度是對基因標識信息的描述,內容維度是對基因相關生物學信息的描述,管理維度是對基因管理信息的描述。每個維度所包含的元數據見表3。

圖3 疾病與遺傳變異數據庫數據元基本屬性模型

4 結語

本文收集并整理了國內外人類基因數據庫的元數據,按照標識維度、內容維度、管理維度、關系維度和文獻維度,分別對核酸序列類數據庫、基因組數據庫、疾病與遺傳變異數據庫的元數據進行了分類;然后設計了我國人類基因數據庫元數據規范,目的是為我國人類基因數據的采集和儲存提供幫助。但也存在不足之處,本文設計的我國人類基因數據庫元數據規范只是一個初步的規范,實用價值有限,該規范仍需進一步檢驗和完善。

為了保障我國人類基因信息安全,相關領域的研究人員應以實用、方便、準確為原則,盡快建立我國的人類基因數據庫,并在全國范圍內推廣,防止我國人類基因信息資源的外泄。

猜你喜歡
人類基因遺傳變異基因組
諾貝爾獎得主斯萬特·佩博發現人類基因中存在著尼安德特人基因
牛參考基因組中發現被忽視基因
科學家找到母愛改變基因組的證據
血清HBV前基因組RNA的研究進展
先導編輯技術可編輯近90%的人類遺傳變異
基于改進遺傳變異算子的海島算法
紫花白及基因組DNA提取方法的比較
人類基因編輯有了基本原則
GABABR2基因遺傳變異與肥胖及代謝相關表型的關系
淺析國際人類基因的法律保護
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合