?

古生物學數據庫現狀與數據驅動下的科學研究

2020-08-24 12:05鄧怡穎樊雋軒史宇坤魯錚博
高校地質學報 2020年4期
關鍵詞:古生物學化石標本

鄧怡穎,樊雋軒,王 玥,史宇坤,楊 嬌,魯錚博

1. 中國科學院 南京地質古生物研究所,南京 210008;2. 中國科學技術大學,合肥 230026;3. 內生金屬礦床成礦機制研究國家重點實驗室,南京大學 地球科學與工程學院,南京 210023;4. 美國佐治亞理工學院,亞特蘭大 30332;5. 南京大學 地球科學與工程學院,南京 210023;6. 大陸動力學國家重點實驗室,西北大學 地質學系,西安 710069

1 前言

古生物學是了解地球和生命歷史的基礎學科,古生物化石是地質歷史中地球表層的生物及環境信息的重要載體,也是深時數字地球(Deeptime Digital Earth,DDE)大數據建設的重要組成部分之一。進入信息時代后,如何整合海量古生物學數據,并借助高速發展的計算機技術進行數據的深度挖掘和分析,開展數據驅動下的古生物學研究逐漸成為了熱點(Miller and Foote,2003;Alroy et al.,2008;Miller et al.,2009;Darroch and Wagner,2015;Fan et al.,2020)。一些核心數據庫的建立與重要研究成果的發表,促使各國學者愈發重視古生物學數據的收集、整理、分析與共享,并依此建立了不同類型、不同功能或針對不同門類的古生物專業數據庫。

古生物學數據,廣義上包括了化石數據以及與之關聯的地層學、古生態學、古地理學等信息。從數據來源來看,則主要是以化石為核心的野外標本采集數據、實驗測試數據、解釋數據等。其數據類型豐富,獲取方式差異顯著,保存形式多樣。其中,野外標本采集數據主要包括化石標本、化石分類單元初步鑒定信息、剖面名稱、地理位置、采集層、標本號等。實驗測試數據通常以常規實驗手段,如化石拍照、標本度量、光片和薄片磨制等獲取的數據為主,近年來隨著一些新的實驗技術手段的出現,通過Micro CT、3D掃描等成像技術獲取的數據也開始快速增長。此外,基于野外觀察和室內分析,還可進一步獲取古生態、古地理、古氣候等方面的解釋數據。此外,還有一類非常重要的信息,即文獻信息和數據貢獻者等。這類信息,即數據來源信息,為數據庫管理者或用戶進行數據質量控制,如判斷數據可靠性,對數據做進一步加工以提升其數據質量等,提供了重要的參考信息。

古生物學數據庫是古生物工作者基于計算機技術和網絡技術,將古生物學數據數字化后以特定的方式整合、集成而得到的專業數據系統。古生物學數據庫的發展歷史可以大致分為3個階段,即思想萌芽階段、數據奠基階段和高速發展階段。(1)思想萌芽階段(19世紀末):Phillips(1860)基于英國的化石數據集繪制出第一條種級多樣性曲線,是可追溯的最早的古生物學數據庫思想與分析實例。(2)數據奠基階段(19世紀末至20世紀80、90年代):此階段發展起來了一批具有系統編目性質的無脊椎、脊椎動物化石名錄資料,例如,美國古生物學家J. J. Sepkoski建立了全球顯生宙海洋動物科級化石綱要,收集了全球4000余個科級化石的數據(Sepkoski,1982,1992);The Bibliography of Fossil Vertebrates一書中系統整理了北美洲脊椎動物化石目錄(Hay,1902);The Fossil Record數據庫致力于生命史研究,系統整理了原生動物、植物和動物的大量化石記錄(Harland,1967;Benton,1993)。(3)高速發展階段(20世紀末至今):隨著計算機技術的發展,同時在前期基于編目數據庫獲得的重要進展的推動下,在多個國家開始涌現出了大量優秀的古生物學數據庫,百花齊放,典型的例子就是美國的Paleobiology Database。這些功能強大的數據庫的出現,為系統分類學、生物宏演化、形態演化和古生態學等領域的科研突破和學科變革貢獻了不可磨滅的力量??梢灶A見,在不遠的將來,隨著計算機、互聯網技術的進一步發展,加上各種大數據分析、人工智能等技術手段的快速普及和應用,古生物學數據庫的建設將進入一個新的階段,個別大型數據庫的影響力日益增長,其他技術實力較弱、經費不穩定、高端成果匱乏的數據庫將被合并或自然消失,因此如何整合或協同已有數據庫,建設開放、共享的古生物大數據平臺將成為古生物學領域的重要議題之一。

數據庫通常是基于計算機的一種數據管理方式。由于研究目的的不同,科學數據庫存在明顯的多源異構的特點,數據來源復雜,類型多樣,結構各異,規模不等。前人提出古生物學領域的數據庫可分為四種類型:古生物學各門類系統分類學數據庫,生物事件地層數據庫,生物古地理、古生態、古氣候信息數據庫,以及古生物學文獻數據庫(尚慶華,2004)。筆者認為前兩類數據庫可歸為一個大類,本質上都是基于野外數據和實驗數據而設計的古生物學數據庫,或側重于化石系統分類學特征,或側重于生物地層學信息。專門針對生物古地理、古生態、古氣候等解釋性數據建設的數據庫比較少,多依附于具體項目或者科學計劃,不以在線或公開的方式存在,通常隨著項目結束而終止,僅存儲在科學家的電腦中。20世紀80、90年代,各學科還存在一些具備較大影響力的文獻數據庫甚至定期出版物,如中科院南京地質古生物研究所出版的《古生物學文獻》,但隨著最近二十年互聯網技術尤其是搜索引擎的迅速發展,在線文獻資源快速增長,一些大型的跨領域甚至全領域文獻數據庫和相關共享技術的涌現,如Elsevier、PubMed、谷歌學術以及針對數字資源共享的數字對象標識符(DOI)等,各學科領域通常不再建設單獨的文獻數據庫或文摘,文獻信息多作為附屬信息,以基礎描述信息為主,用以指示數據來源。

古生物學數據庫處于全新的發展階段,計算機技術、互聯網技術以及大數據驅動下衍生的多種古生物學分析方法的不斷發展,促使古生物學數據庫具有更加廣泛的科研輔助潛力,應用規模不斷增長,并創造更多的科學和應用價值。有鑒于當前古生物數據庫快速發展的需求,本文將全面介紹國內、外古生物學數據庫建設情況,包括其數據組織和管理方式,主要在線功能尤其是一些強大高效的數據可視化和分析工具,數據共享特點等,并簡要介紹數據驅動下古生物學領域的典型科學研究案例,希望能為建設多學科融合、數據開放與共享的古生物學大數據平臺提供參考。國內、外針對古脊椎動物建設的數據庫或數據資源也較為豐富,依托其開展的科學成果頗豐,具體可參見潘朝暉、朱敏(本刊),因此本文不再贅述。

2 古生物學數據庫建設情況

筆者調研了全球上百個古生物學數據庫,從中遴選出最具代表性、相對活躍的十余個進行介紹,重點關注其建庫目的、發展歷史、現有數據量、數據類目、數據表結構設計以及主要功能模塊等信息。根據這些數據庫的性質,將現有數據庫劃分為國際大型數據庫、國家主導或區域為主體的中型數據庫和小型數據庫三類,其中小型數據庫還可以進一步細分為科學問題導向的數據庫、面向單個化石類群的數據庫以及專用型數據庫。

2.1 國際大型數據庫

此類數據庫通常由國際組織或國際性大科學計劃支持,具有相對比較穩定的持續資金支持和團隊支撐,具有數據規模大、數據涵蓋面廣、數據質量高、知名度高、科研成果產出豐富等特點。

2.1.1 PBDB古生物學數據庫

古生物學數據庫PBDB(Paleobiology Database,https://paleobiodb.org/)是最具代表性的古生物領域的科學數據庫之一,該數據庫啟動早、數據量大、數據質量把控嚴格、應用廣泛,目前已經產出365篇標注科研成果。PBDB最早的建設思路源于Sepkoski建設的面向顯生宙生物多樣性分析的海洋動物數據庫,基于該數據庫,Sepkoski等人初步建立了地質歷史中生命演化的宏觀規律,并識別出五大滅絕事件(Sepkoski,1979,1984)。由于Sepkoski數據庫的信息非常簡單,僅包含了化石分類名(科和屬)及其延限(首現和末現),可支持的分析非常有限,因此,為了進一步探索生命演化的詳細過程與機制,以John Alroy、Arnie Miller、Steven Holland等人為首的國際團隊,于1998年創建了PBDB數據庫,并獲得了美國國家生態分析與綜合研究中心(National Center for Ecological Analysis and Synthesis,NCEAS)資助的“顯生宙海洋古動物學數據庫計劃”,從1998年8月持續支持到2000年8月。此后,PBDB主要依靠美國國家科學基金會(US National Science Foundation)、澳大利亞研究委員會(Australian Research Council)以及分散在全球的研究團隊或個人的項目資助進行維護和持續更新。

該數據庫致力于為研究者提供基于采集記錄(collection-based)的各門類化石的全球產出記錄和分類學信息,以最終促成數據驅動下大尺度的古生物學重要科學問題的解決。但是,由于該數據庫在設計之初未重視地層學信息的重要性和完整性,僅聚焦在古生物、古地理與古生態領域,因此導致其數據的應用存在一定的局限性。PBDB的核心模塊是化石產出記錄(occurrences)和分類學數據(taxonomy)這兩部分(圖1a),參考文獻(references)和貢獻者(contributors)各具有獨立的數據表,并與其他數據表建立關聯,作為數據來源或貢獻來源?;a出記錄基于采集記錄整理,因此一個露頭剖面或鉆井中如果有十個采集層均采集到某個化石,則對應到數據庫里就是十條化石產出記錄?;a出記錄中包含了產地與層位信息、地質年代信息、化石埋藏特征、古環境信息和基于化石的度量信息等,但是不包含直接的系統分類關系,系統分類信息動態存儲于分類學數據模塊中。PBDB中分類學數據模塊包括兩個組成部分:權威分類命名(authorities)和觀點(opinions)。通過特定工作流實現系統分類關系的動態構建,使得每位貢獻者添加的觀點可以客觀地、動態地反映在數據庫中(Peters and McClennen,2016)。在發展過程中,PBDB也整合了一些較老的數據庫如Sepkoski海洋動物數據庫等。截止2020年4月,PBDB數據庫已集成了415423個分類單元,72012篇專業文獻,收集了來自208753條采集記錄的1463833條化石產出記錄,包含772486條觀點信息,共410位研究者參與了數據貢獻。PBDB網站上開發了PBDB Navigator這一網絡應用界面(https://paleobiodb.org/navigator),提供數據可視化、古今地理投點、多樣性曲線繪制和數據下載等功能(圖1b)。

圖1 PBDB數據表結構(a)(改自Peters and McClennen,2016)和PBDB Navigator網絡應用界面(b)Fig. 1 The architecture of PBDB(a)(revised after Peters and McClennen,2016)and interface of PBDB Navigator web application(b)

2.1.2 Neptune(NSB)微體化石數據庫

Neptune是基于深海鉆探計劃(Deep Sea Drilling Project,簡稱DSDP)和大洋鉆探計劃(Ocean Drilling Program,簡稱ODP)所取得的成果建設而成的數據庫,其中收錄了DSDP和ODP相關出版物中的所有微體化石產出記錄,后期也逐步集成了綜合大洋鉆探計劃(Integrated Ocean Drilling Program,簡稱IODP)和國際大洋發現計劃(International Ocean Discovery Program, 簡 稱IODP)的古生物學數據,涵蓋了硅藻、有孔蟲、鈣質超微化石、放射蟲和溝鞭藻等主要化石類群。目 前Neptune Sandbox Berlin( 簡 稱NSB,http://www.nsb-mfn-berlin.de/)是該數據庫的門戶網站,提供數據訪問服務。截止2019年底,NSB已集成了61139個微體化石樣品的768057條化石產出記錄(圖2a),包含了18915個分類單元名稱,同時囊括了458個鉆孔的659個年齡模型(Renaudie et al.,2020)。得益于大洋鉆探項目的影響力,加上其先進的數據模塊設計,蘊含了更多可深度挖掘的數據信息,建立了龐大的數據關聯性,因此NSB的數據使用率高,成果產出豐富。迄今為止,該平臺已發表115篇科研成果,其中有6篇成果在Nature和Science期刊發表。

NSB數據庫包含了5個主要數據模塊(Renaudie et al.,2020),分別為古生物學數據、地層學數據、樣品數據、分類學架構和數據子集元數據?;谝陨夏K,NSB支持用戶根據化石產出記錄、分類信息、年齡模型(age model)、地層事件(stratigraphic events)和事件標定(event calibrations)進行檢索和數據下載。NSB數據關系由17張數據表構成,核心為古生物化石記錄表(neptune_sample_taxa,圖2b),通過該表建立了分類單元、樣品之間的聯系,并且包含兩個屬性值(分類單元豐富度和數據質量)用于描述數據情況。樣品詳細信息保存在樣品表(neptune_sample)中,建立了與巖芯數據的關聯關系。巖芯表(neptune_core)記錄了每個巖芯的名稱、頂部深度和長度信息。鉆孔數據表(neptune_hole_summary)中記錄了航次、鉆孔編號、鉆孔水深、經緯度等相關的鉆孔元數據。除了生物地理數據之外,NSB還創建了古地理數據表(neptune_paleogeography),用于儲存樣本的古經緯度坐標。分類學數據表(neptune_taxonomy)基于2008~2010年執行的分類學名錄計劃(The IODP Taxonomic Name List Project,簡稱TNL)設計,構建了海洋微體古生物的分類學框架。數據子集模塊實現了樣品表和具體化石產出數據表(neptune_sod)之間的鏈接,后者包含了出版物中的文獻信息和基于SOD格式的各種元數據(Lazarus et al.,2018)。地層學數據模塊包括年齡模型和地層事件兩個部分,前者記錄了年齡模型及其相關信息,后者以事件定義表(neptune_event_def)為基礎,衍生出了事件數據表(neptune_event)、事件校準數據表(neptune_event_calibration)、站點校準數據表(neptune_calibration_sites)和地磁數據表(neptune_gpts)等。

圖2 NSB數據分布圖(a)和NSB數據表結構(b)(改自Renaudie et al.,2020)Fig. 2 Data distribution of NSB database(a)and its architecture(b)(revised after Renaudie et al.,2020)

NSB作為古生物學領域的代表性科學數據庫之一,最為核心的是其數據本身的獨特性和唯一性,其所包含的豐富的微體化石數據來源于1966年起至今的國際科學大洋鉆探項目,提供了相對完整的浮游生物的生物地理和深海沉積記錄,豐富了現今大洋范圍內地層記錄中的微體古生物數據。其次,NSB針對其核心的化石分類和地層框架,通過古生物門類專家的積極參與,實行了嚴格的專家審核制度,致力于發布最為權威的數據資源。最后,最為獨特的一點是,NSB提供了基于年齡—深度模型(Age-Depth Model)建立的動態的、數值化的、高分辨率的年齡標定系統(即年齡模型),可隨著研究者對于各巖芯的地層學認識的不斷深化而持續優化和更新。但是,該數據庫仍存在一些不足之處。首先,在數據質量方面,由于數據龐大加上人力有限,大洋鉆探所產生的古生物數據尚未全部被研究和發表,數據貢獻者(研究人員)會傾向于優先開展其所處領域的化石分析工作,因此會造成部分信息的閑置和自然流失。其次,由于缺乏長期穩定的經費支持,而主要依賴于個別科學家的科研項目支撐,因此團隊的開發和維護能力較為薄弱,體現在數據庫設計方面,則是界面較單一、功能簡單、可視化程度低、安全性較差等。

2.1.3 GBDB地質歷史時期生物多樣性數據庫

GBDB在線數據庫(Geobiodiversity Database,www.geobiodiversity.com)于2006年開始建設,2007年正式提供線上服務,是一個以剖面為核心、基于互聯網、數據庫和GIS技術搭建的古生物學和地層學融合為一體的綜合性數據庫(樊雋軒等,2011,2013)。其以剖面為核心,強化了地層學信息的角色,促成了古生物學與地層學兩個相關學科的交叉與信息融合,不僅適合古生物研究的常見分析手段,也支持多種地層學研究方法,適合開展剖面有關的全球地層對比、定量地層學研究、生物演化模式分析和定量古地理等方面的科學探索和研究(Fan et al.,2013 ;Zhang et al.,2014)。GBDB致力于促進區域和全球科學合作,并先后成為了國際地層學委員會(ICS)和國際古生物學協會(IPA)的官方數據庫,為全球古生物學和地層學研究者提供高質量的數據服務。2017年初起,GBDB團隊與英國地質調查局建立合作,承擔其地層古生物資料的數字化工作,超過14000條文獻數據和4000余個英國及周邊地區的露頭和鉆井剖面數據已收錄入GBDB。截止2020年6月,GBDB數據庫共數字化全球25201條剖面,575724條化石產出記錄的綜合地層學數據,以及58008個巖石地層單位和93659條文獻索引數據。超過85%的中國古生物學文獻已完成數字化工作,并可在線訪問。

GBDB具備強大的檢索功能,可基于文獻、分類學信息、剖面和化石產出記錄等多個維度進行高級檢索,同時可結合研究目標在線創建數據子集(dataset),基于數據子集下載符合CONOP 9、SinoCor 4等定量分析軟件所需格式的專業數據,從而開展相關研究。GBDB數據主要來源于期刊論文、會議論文、地質報告以及學科專著等,是已發表數據的客觀承載,此外,也支持科學家未發表或待發表資料的數字化和在線共享。研究者可以根據個人觀點添加觀點數據(opinion),例如,化石厘定觀點、年代地層和生物地層劃分觀點等。數據類別包括古生物學數據、地層學數據以及其他輔助數據(圖3),其中古生物學模塊涵蓋了生物分類數據、化石描述數據以及厘定校正數據,地層學模塊則以巖石地層、生物地層、年代地層和化學地層等地層學分支學科信息為主,以剖面為核心將地層學數據和古生物學數據有機地融為一體。

2.2 國家主導或區域為主體的中型數據庫

近幾十年來,地質數據呈現海量形式的增長,已經成為國家和區域重要的戰略性資源,全球相應涌現出一大批國家主導或區域為主體的古生物學數據庫,以收集、管理、挖掘和提煉深層次數據價值,有效地促進科技資源的合理保護、科學管理和高效共享為核心目標。

圖3 GBDB數據庫的主要數據結構與數據內容(樊雋軒等,2013)Fig. 3 Major data sources of the GBDB database(Fan et al.,2013)

英國地質調查局(British Geological Survey,簡稱BGS)是最早建立在線數據庫、數字化程度最高、數據覆蓋面最廣的國家地調局之一。BGS成立于1835年,是世界上最早成立的國家地質調查局,目前隸屬于英國自然環境研究理事會(Natural Environment Research Council, 簡 稱 NERC), 已發展成為世界一流的地球科學信息與技術中心。BGS保存了海量的紙質資料,化石藏品豐富,超過500萬件,涵蓋了從新元古代至今的漫長地質歷史。在信息時代下BGS已經全面轉型為大數據型的發展模式,累計建設了超過400個不同的數據集和眾多數據產品。BGS的古生物學數據庫包括古生物標本數據庫PalaeoSaurus(PalaeoSaurus Online Collection Database,https://www.bgs.ac.uk/palaeosaurus/home.cfm)和模式化石數據庫GB3D Type Fossils(http://www.3d-fossils.ac.uk/)。 前 者創建較早,數據表結構簡單,僅包括標本入庫編號、是否為模式標本、鑒定名稱、產地、所在的地理圖幅編號、地層和地質時代信息等。目前PalaeoSaurus已收錄了大約15萬件標本的信息,其中,寒武系至下白堊統的重要模式標本已悉數入庫。GB3D Type Fossils數據庫于2013年8月正式上線,由BGS和聯合信息系統委員會(Joint Information Systems Committee,簡稱JISC)共同開發,致力于建設高質量的模式標本數據庫,主要收錄英國館藏與產出的化石模式標本。GB3D Type Fossils提供化石標本的高分辨率照片、體視相片、3D數字模型以及元數據(產地、地質年代、分類鑒定、注冊號等)在內的眾多類型數據。通過簡單搜索和高級搜索功能,研究者可以根據分類信息、標本類型、地質年代、巖石地層單位、產地等字段進行數據查詢,進而在線瀏覽和下載。

為了實現全美生物收藏品的全面數字化,在美國國家科學基金會(National Science Foundation,簡稱NSF)項目“推進生物多樣性館藏數字化”(Advancing Digitization of Biodiversity Collections,簡稱ADBC)的支持下,美國的眾多相關博物館和機構聯合建立了iDigBio數據庫(Integrated Digitized Biocollections,https://www.idigbio.org/)。該數據庫中已經收錄了上百家自然歷史博物館或收藏機構的藏品,并提供各收藏機構的相關資料和交互式藏品分布展示(圖4)。 iDigBio基于標本實體或以圖片等多媒體為單位進行數據收集,藏品貫穿古今,既有化石資料又有現生物種數據。其數據海量、參與機構多,截止2020年2月已整合了121428342個樣品信息以及31871863條多媒體記錄,其中樣品以植物、動物標本為主,真菌標本次之,分別占比47%、46.5%和5.6%,媒體數據則主要為植物,占比82.5%。iDigBio檢索功能強大,支持通過關鍵字進行檢索,也可以基于多個字段進行個性化的組合檢索和可視化展示。

日本地質調查局(Geological Survey of Japan,簡稱GSJ,https://www.gsj.jp/)自1882年成立以來一直從事各種地質調查和研究,致力于為日本國家和公眾提供全面而優質的地學數據。其旗下已建設開發了28個數據庫產品,包括2個古生物學標本數據庫,分別是20世紀日本化石模式標本數據庫(The database of Japanese fossil type specimens described during the 20th Century,https://gbank.gsj.jp/FossilType/),以及化石、巖石和礦物地球科學數據庫(The Geoscientific Database of Fossil, Rocks and Minerals,https://gbank.gsj.jp/DFORM/)。 前 者為日本古生物學會2001~2004年間出版的四卷“20世紀日本化石模式標本數據庫”專著的網絡版本,提供了包括標本類型、產地、文獻等18個字段在內的信息,同時支持用戶提交厘定意見表單,以優化數據質量。后者為化石、巖石和礦物標本的綜合地學數據庫,支持以標本名稱、產地等字段進行檢索,提供化石標本詳情、文獻等信息,并提供高清照片下載和使用。

除了上述由日本地質調查局建設的兩個古生物學數據庫,另一個有較大影響力的數據庫是由日本眾多的高等院校、博物館、資料館和古生物專業團體共同打造的日本古生物學數據庫jPaleoDB(Japan Paleobiology Database,http://jpaleodb.org/)。該數據庫本質上是一個門戶網站,鏈接了日本境內大量的分散的古生物學數據庫,查明每個數據庫的數字資源情況,完善其數據保存和管理方式,最終以統一的用戶界面提供給研究者(圖5)。多源異構數據的有效融合與跨平臺的綜合檢索是jPaleoDB的亮點,用戶可以在jPaleoDB平臺上實現對所有數據的檢索,也可以通過鏈接訪問各個數據庫的首頁進行信息查詢。目前,已有70所高等院校、博物館、資料館和古生物專業團體加入了這一體系,包括東京大學、京都大學、東北大學、北海道大學、國立科學博物館以及多個縣市的博物館等,如前文介紹的20世紀日本化石模式標本數據庫以及較為知名的古脊椎動物化石數 據 庫 JASOV(Japanese Fossil Vertebrate,http://jafov.jpaleodb.org/)等均已鏈接至jPaleoDB。目前jPaleoDB已經整合了62個數據庫的391925塊標本數據,以及16582篇相關的文獻,近期還將有8個數據庫加入這一平臺。jPaleoDB的最終目標是構建一個系統整合了日本的古生物標本數據資源的綜合平臺,實現所有日本古生物標本的跨數據庫、跨平臺統一檢索。

圖4 iDigBio的參與機構及其分布Fig. 4 Institutions participating in the iDigBio project and their distribution

Fossiilid.info(https://fossiilid.info/) 是 愛 沙 尼亞地學收藏中心(Geoscience Collections of Estonia,http://geocollections.info/)下屬的古生物學數據庫,由塔林科技大學地質學院、塔爾圖大學自然歷史博物館和愛沙尼亞自然歷史博物館共同建設。Fossiilid.info聚焦標本,其數據主要涵蓋愛沙尼亞及其鄰近的歐洲地區,此外也包含了部分北美東部的古生物標本數據。Fossiilid.info具有三個重要的特點:(1)提供高質量的標本圖像:該數據庫以標本為核心進行建設,針對每個標本提供了不同角度、不同圖幅的高清化石圖集,并按照植物、雙殼類、頭足類等24個化石大類進行數據展示。由于該數據庫對大量老標本進行了重新數字化,采集了大量高清照片,因此彌補了早期文獻中化石圖版缺失或圖像分辨率過低的缺陷。(2)可挖掘信息多:不同于一般的收藏型數據庫,Fossiilid.info中除了提供樣品號、采集信息等基礎信息外,同時還提供系統分類樹和同異名錄等重要信息,大大提高了數據的質量和使用價值。(3)數據互聯程度高:在Fossiilid.info內部,各個模塊之間無縫鏈接,標本信息、分類樹、同異名錄等均可互相跳轉訪問,最大程度實現了數據互聯,而非簡單的瀏覽與展示。

圖5 jPaleoDB的平臺架構Fig. 5 System structure of jPaleoDB

FRED(The Fossil Record Electronic Database,https://fred.org.nz)是新西蘭化石記錄檔案(New Zealand Fossil Record File,簡稱FRF)的在線版本,由新西蘭地球科學學會(Geoscience Society of New Zealand)和地質與核科學研究所(GNS Science)聯合管理。FRF早期是紙質版本,由新西蘭地質調查局于1946年創建,提供權威的新西蘭化石產地、地質背景和化石采集等信息。此后,于1970年在FRF的基礎上建立了電子數據庫FRED,逐步實現紙質資料的數字化。2003年,通過GNS Science網站發布了FRED的交互式訪問界面,開始為公眾提供在線的開放數據服務。自2005年起,注冊用戶可以直接在線錄入新的數據。經過超過半個世紀的持續更新和迭代,FRED已經發展成為一個數據資源豐富、功能全面、有代表性的國家層次的古生物學數據庫。FRED以新西蘭的化石記錄為主,也收錄了少量太平洋東南海島和南極洲羅斯海區域的數據。在結構方面,以化石產地(location)為核心構建,這也是FRED有別于其他數據庫的一大特點,提供了包括地理坐標、采集詳情、地質背景、化石標本庫等詳細信息,部分記錄還會提供化石分類學、地層年代、古環境分析等信息。每條化石產地數據均保存為獨立的記錄,如果后期重新對該產地進行采樣,則重新采樣的數據將存儲為新的記錄。FRED中設計了豐富的檢索功能,用戶可以通過主菜單、簡單查詢、高級查詢和交互式地圖等方式進行數據檢索。截止2020年2月,FRED中收集了自1946年以來在新西蘭各地區記錄中心登記注冊的101911個化石產地記錄,超過65%的相關紙質文檔已經完成了數字化工作并納入數據庫中。

2.3 小型數據庫

此類數據庫往往具有科研問題導向或者面向相對局限的研究對象和功能建立的特點,相較于前文介紹的多門類、多領域的綜合數據庫而言,此類數據庫在一定程度上可定位為小型數據庫,但是其中不乏影響力顯著、數據質量高、數據體量大和在特定領域具有權威地位的重要數據庫。

2.3.1 科學問題導向的數據庫

依托具體科學問題建設的古生物學數據庫數量龐大,限于篇幅,此處僅挑選其中具代表性的數據庫進行介紹。

2.3.1.1 Sepkoski在線屬級數據庫

Sepkoski在線屬級數據庫(Sepkoski's Online Genus Database,http://strata.geology.wisc.edu/jack/)由美國威斯康星大學麥迪遜分校的Shanan Peters于2003年開發并一直維護至今。20世紀70年代起,芝加哥大學的J. J. Sepkoski耗費數十年時間,先是收集整理了海洋動物化石科級綱要(Sepkoski,1982,1992),然后在此基礎上進一步細化,編撰完成了海洋動物化石屬級綱要(Sepkoski,2002)。這兩個紙質版的數據庫,對象為無脊椎動物、脊椎動物和原生生物,建設目的是探索顯生宙海洋生物演化的基本規律。Sepkoski及其同事基于這兩個數據庫,開展了顯生宙海洋生物演化與滅絕事件的研究,獲得了一系列重要研究成果,開辟了古生物多樣性研究的全新領域與研究手段,后來的PBDB、Neptune和GBDB等國際大型數據庫均受其啟發而建立。Sepkoski在線屬級數據庫實質上是海洋動物化石屬級綱要(Sepkoski,2002)一書的網絡數字化版本,其中提供37000余個全球顯生宙海洋動物屬級分類名稱及其地質延限的查詢。

2.3.1.2 Neotoma古環境數據庫

Neotoma古環境數據庫(Neotoma Paleoecology Database,http://www.neotomadb.org) 創 建于 2009年,致力于為古生態學、古環境學、生物地理學、考古學和生態學研究提供開放的、系統的、可持續的、高質量的數據資源。該數據庫主要收集全球范圍內中新世至今的化石數據,并以第四紀數據為主。Neotoma所收集的數據類別包括但不限于孢粉、碳屑、硅藻、介形蟲、變形蟲、脊椎動物化石、無脊椎動物化石、昆蟲化石,以及年代學數據、穩定同位素數據和生物標志化合物等。

Neotoma為開放的數據平臺,其早期使用Microsoft SQL Server作為數據庫管理系統,其服務器位于賓夕法尼亞州立大學,目前正在逐步遷移到PostgreSQL。Neotoma主要包括5張核心數據表,針對不同類別數據的結構共性特征設計了統一的數據錄入格式(圖6a)。Neotoma擁有強大的數字化和數據管理團隊,由來自各領域的科研工作者組成。其數據來源主要是已發表的文獻,由科研人員通過Tilia軟件進行數據審核、錄入和管理。Neotoma團隊還開發了集搜索、可視化和下載等功能為一體的網絡應用程序——Neotoma Explorer(https://apps.neotomadb.org/explorer/),幫助用戶更好地分析和使用Neotoma的數據。

圖6 Neotoma數據表結構(改自Williams et al., 2018)Fig. 6 The architecture of Neotoma database(revised after Williams et al., 2018)

Neotoma是具有代表性的科學數據庫之一,具體表現在五個方面:(1)數據類型的豐富性:在包含古生物學和古生態學數據的同時,納入了地球化學、生物標志化合物等具有衍生意義的數據。(2)分布式治理結構:Neotoma通過合作,整合了一大批相關的古生物學數據庫,實現了數據量的快速增長。截止2016年,Neotoma已融合了包括北美孢粉數據庫North American Pollen Database和古哺乳動物數據庫FAUNMAP等在內的20個數據庫的17275個數據子集,總計超過380萬個化石樣品(Williams et al.,2018)。(3)數據高度開放、共享:用戶可使用Neotoma Explorer或Tilia檢索和下載所需數據,或通過應用程序接口(Application Programming Interface,簡稱API)獲取數據進行分析,也可以使用R語言包“neotoma”進行數據分析。并且,用戶可以將搜索結果保存為JSON格式文件進行存檔,或者共享給其他用戶在Neotoma Explorer中直接打開使用。(4)嚴格的審核機制:所有上傳到Neotoma的數據均需要由專家進行審核,以確保數據質量的可靠性。(5)完整的生態鏈體系:經過多年的開發,Neotoma平臺中已經初步實現了從數據收集、標準化、存儲到數據挖掘、可視化和分析的完整流程(圖6b)。

除了上述兩個典型的科學問題導向的數據庫之外,還有一些具備學科特殊性的小型數據庫。例如,美國史密森尼國家自然歷史博物館主持的陸地生態系統演化項目(Evolution of Terrestrial Ecosystems Program),建立了相應的ETE數據庫(https://naturalhistory2.si.edu/ete/ETE_Database.html),致力于研究4億年以來陸地生態群落的特征和生態系統的動態變化;芝加哥大學主導的古地理圖項目(Paleogeographic Atlas Project,簡稱 PGAP,https://www.uchicago.edu/research/center/paleogeographic_atlas_project/)根據植物對氣候的敏感性特征建立了PGAP全球二疊紀、三疊紀和侏羅紀陸相植物數據庫,用于輔助全球古地理重建的工作;Morphobank(https://morphobank.org/)聚焦化石圖像數據以及與系統發育矩陣相關聯的形態數據,致力于構建生命之樹,分析現存和滅絕物種的譜系關系;TimeTree(http://www.timetree.org/)和 Fossil Calibration Database(https://fossilcalibrations.org/)同樣也關注生命樹和譜系演化研究,前者是關于生命之樹及其演化時間尺度的信息的公共知識庫,數據主要來源于已發表文獻,后者提供經過篩選的化石年齡標定數據,供分子系統學家進行分化年代測定(divergence dating analyses)。

2.3.2 面向單個化石類群的古生物學數據庫

在古生物學數據庫中,還存在一定數量的針對單個化石類群或者某一化石大類而建立的數據庫,此類數據庫體量相對較小,針對性強,數據表結構簡單,多由單個或個別科學家設計并維護。例如,NOW古哺乳動物數據庫(New and Old Worlds:Database of Fossil Mammals,http://www.helsinki.fi/science/now/)重點關注新生代陸地哺乳動物的分類和產地信息;塔林理工大學地質研究所Olle Hints建立的蟲牙化石數據庫(Scolecodonts,http://scolecodonts.net/)重點關注蟲牙化石的系統演化研究;美國華盛頓大學Michael Mortimer為了開展獸腳類恐龍的系統演化研究而建立的獸腳恐龍數據庫(The Theropod Database,https://theropoddatabase.com/),Mikrotax主要收集微體化石的高分辨率圖像數據和分類學信息等等。受篇幅所限,以Mikrotax為代表進行介紹。

Mikrotax(http://www.mikrotax.org/) 是 微 體化石分類群的在線數據庫集成系統,目前已經開發了兩大核心數據庫,分別是Nannotax和Pforams@mikrotax,針對疑源類(Acritax)和放射蟲(Radiolaria@mikrotax)的兩個數據庫正在逐步整合與建設中。Mikrotax的數據結構表比較簡單,主要包括化石分類數據表和對應的高質量化石圖像數據,同時提供豐富的分類學、地層學等信息(圖7)??紤]到微體化石分類學正處于不斷修訂與完善的階段,Mikrotax設計了兩個平行數據庫:主數據庫(main database)和物種原始描述名錄數據庫(catalog),前者集成了該分類單元的最新分類學鑒定信息、高質量圖件、地質延限和化石產出分布等詳情,而后者重點關注分類單元的原始描述和注釋,模式標本的原始插圖等首次發表信息。同時,該數據庫還融合了NSB的產出數據,提供了分類單元分布及其隨時間變化的定量數據與可視化展示(圖7;Young et al.,2019)?;趫D像的展示方式、直觀友好的用戶界面,以及雙數據庫架構是Mikrotax有別于其他數據庫的重要特征。

圖7 Mikrotax的分類學信息樣例Fig. 7 An example of the taxon table in Mikrotax

Nannotax于2003年由Jeremy Young等人著手建設,旨在提供顆石藻的生物多樣性和分類學的權威指南,Nannotax收錄了以下數據:現生顆石藻及其新生代祖先(1500個頁面,13500幅圖件),中生代顆石藻(1300個頁面,9700幅圖件),Farinacci鈣質超微化石名錄(Catalogue of Calcareous Nannofossils, 由Anna Farinacci在1969~1989年編纂,Richard Howe在 2000~2016年更新,包含4500個物種的詳細描述)以及未鈣化定鞭金藻、鈣質鞭毛藻類化石信息(500個頁面,800幅圖件)等。

2015年,Bridget Wade和Brian Huber主導建立了浮游有孔蟲數據庫Pforams@mikrotax(Huber et al.,2017),其前身是2005年建設的CHRONOS在線分類學數據庫,但由于CHRONOS數據庫整體消亡,其中的分類學數據和化石圖集被融合到Mikrotax數據系統中,并已逐漸發展成為浮游有孔蟲分類學數據的重要參考資料。pforams@mikrotax包括三部分:新生代子集(600個物種,2600幅圖件),中生代子集(600個物種,1200幅圖件)和化石名錄(主要來源于CHRONOS數據庫的模式標本描述數據,2600個物種,4900幅圖件)。

此外,Acritax由Brian Pedder和Jeremy Young創建,重點關注寒武紀疑源類化石,包括John Williams古孢粉學索引(John Williams Index of Palaeopalynology,簡稱JWIP)中描述的疑源類化石和平行建設的寒武紀疑源類化石數據庫兩部分。Radiolaria@mikrotax由David Lazarus主導建設,致力于為放射蟲分類學提供有效指南,其主數據庫基本采用了NSB的新生代放射蟲分類體系(Lazarus et al.,2015)。

2.3.3 專用型數據庫

除了前文所介紹的各種類型的數據庫外,古生物領域還存在一類專用型數據庫,這類數據庫往往不關注某個科學問題,也不單純服務于某個化石類群,而是針對特定的功能(如模式標本、化石3D模型、古生物學文獻等),為科學研究提供基礎資料的永久保存和在線查詢。BioLib(Biological library,https://www.biolib.cz/)是典型的專用型數據庫之一,它提供詳盡的生物(也包括古生物)分類單元名錄及其分類關系,致力于收集生物信息,包括物種數據、生物術語數據、與自然相關的文獻和鏈接列表、物種語言詞典等數據,是一本關于植物、真菌和動物的百科工具書。類似的,ZooBank(http://www.zoobank.org)由國際動物命名法委員會認證,提供權威、在線并且開放訪問的動物命名注冊表,用于記錄所有已發表的動物科學名稱。眾所周知,根據國際動物命名法和國際植物、藻類、真菌命名法的要求,每個物種必須有模式標本,所以建立一個權威的模式標本數據庫就十分重要。前文提及的英國地質調查局建設的GB3D Type Fossils就是一個較為獨特的模式標本數據庫,其中不僅提供了英國化石模式標本的原始描述和高質量圖像數據,還提供了三維模型數據。此外,隨著一些新技術的應用,一些新型數據庫也應運而生。例如,隨著micro-CT技術在古生物學領域的應用,一些化石CT三維模型數據庫逐漸發展起來。生物演化三維形態數據庫(Archives of Digital Morph,http://www.admorph.org/, 簡 稱 ADMorph)便是其一,它由中國科學院古脊椎動物與古人類研究所朱敏團隊開發并維護,提供化石CT三維模型的免費存儲、共享和在線發表(通過DOI的方式)。古生物學文獻數據庫則是另一種比較獨特的專用型數據庫,其中以脊椎動物化石文獻庫(The Bibliography of Fossil Vertebrates, 簡 稱 BFV Online,http://www.bfvol.org/)較為經典,其中收錄了1509~1968年和1981~1993年間的131190篇文獻資料,用戶使用時,不僅可以對常用的文獻字段,如作者名、出版時間、出版雜志等進行組合檢索,還可以對文獻中包含或不包含的脊椎動物分類名進行檢索。但遺憾的是,這一數據庫在2003年之后就不再更新。

3 古生物學數據庫結構與數據共享

3.1 數據整理方式

由于數據庫建設理念、功能需求的差異,各種數據庫在建設過程中通常采用了不同的數據整理方式,具體可歸納為以下四種:(1)收藏管理型數據庫:基于化石標本或化石圖像進行建設;(2)綜合研究型數據庫:基于化石產出記錄、產地或地質剖面等研究對象進行建設;(3)專著或者化石名錄在線數據庫;(4)數據庫集成平臺。

收藏管理型數據庫最為常見,該類數據庫基于化石標本或化石圖像進行建設,核心目的是提供館藏化石標本的編目、查詢、在線瀏覽和實體借閱服務。許多博物館、標本館所建設的在線數據庫基本都屬于這一類,如中國科學院旗下的古脊椎動物與古人類研究所標本館和南京地質古生物研究所標本館的在線數據庫,以及前文介紹的jPaleoDB旗下的日本各個博物館的標本數據庫等。而典型的基于化石圖像建設的數據庫一般而言會擁有較高的圖片質量,如iDigBio和Fossiilid.info等。

綜合研究型數據庫活躍于科研一線,提供了科研生產力的數據基礎。此類數據庫的數據整理方式多樣,數據庫架構相對復雜且各異(圖1a,2b,6a),其數據主要來源于已發表的論文或專著,少量來自于科學家未發表數據,因此數據通常已經過同行評議,具有高可靠性。PBDB基于化石產出記錄建設而成,提供系統分類信息的動態構建,目前已廣泛應用于生物多樣性、古生態和古環境等研究領域。NSB基于深海鉆孔構建數據庫,廣泛收錄了過去半個世紀的大洋鉆探的微體古生物化石數據。GBDB數據庫則基于剖面進行數據收集,將古生物學和地層學數據有機融為一體。Neotoma以樣品數據為核心,結合化石信息開展古生態與古環境研究。

第三類數據庫是基于領域內的經典專著或者化石名錄進行直接數字化而建成的,典型代表為Sepkoski在線屬級數據庫,其數據來源于Sepkoski(2002)發表的海洋動物化石屬級綱要。同樣,20世紀日本化石模式標本數據庫也屬于這一類型。

第四類數據庫本質上是依托多個數據庫打造的門戶網站或集成平臺,主要目的是為了整合多源異構的化石數據庫,因此其數據整理方式最為特殊。為了盡可能整合分散的數據庫,此類系統往往會制定共性描述規范,通過開發API接口,在不改變原有數據表結構的情況下使用統一的門戶網站進行數據整合,允許用戶同時訪問和查詢其旗下的多個數據庫,從而實現跨數據庫的無縫檢索和數據挖掘。iDigBio、jPaleoDB便是通過此種方式實現了全美和全日本的古生物數據的整合,打破了各個博物館、標本館的數據庫之間的溝通壁壘。Mikrotax在一定程度上也可以歸為此類,其本質上也是一個在線數據庫集成系統,但與前兩個平臺不同的是,Mikrotax旗下的子數據庫是直接在Mikrotax系統上建設的,而非通過API等方式調用原始數據庫數據。

3.2 主要在線功能

古生物學數據庫的基礎在線功能包括數據檢索、數據錄入和數據下載等。數據檢索是最為基礎的在線功能,也是決定數據庫可用性、易用性的關鍵。數據庫根據其數據字段表提供關鍵詞檢索,通過各個數據表之間的關聯關系實現數據訪問、調用和展示。一般而言,檢索可分為簡單檢索和高級檢索,簡單檢索通常僅針對化石名稱、產地等個別字段進行檢索,高級檢索則支持基于多個檢索字段的組合查詢。數據錄入和下載功能視情況而定,一般而言,以博物館、標本館等為代表的收藏管理型數據庫通常有專門的數字化團隊進行日常的樣品整理、編目和數字化工作,其在線數據庫主要支持數據檢索和瀏覽,不提供外部的數據錄入和批量下載功能。綜合研究型數據庫則與之不同,通常具備完整的數據錄入和下載功能,PBDB、GBDB、FRED等數據庫均支持注冊用戶基于文獻進行數據錄入,數據在審核后即可在線發表;Morphobank、Fossil Calibration Database和ADMorph等數據庫還支持在線導入圖像矩陣等數據。數據下載功能與數據共享機制密切相關,詳見3.3。

綜合研究型數據庫在不斷更新換代的過程中會逐步開發服務于研究的高級在線功能,主要包括各種可視化與在線分析工具等。其中,在線的地圖投點功能最為常見,PBDB、Fossiilid.info、Mikrotax、GBDB等均實現了基于數據集的化石在線投點展示。其中,iDigBio的展示方式較為獨特,當數據結果包含超過100000個數據點時,結果將顯示為基于GeoHash的熱力圖(geohashed heat map,圖8a),當結果小于或等于100000時,結果將顯示為常規的數據投點(圖8b),使用不同顏色進行標記以區分不同的分類單元。在PBDB中,根據查詢結果可以實時生成多樣性曲線圖(圖8c),便于用戶查看所關注對象隨時間的多樣性變化規律。值得一提的是,由澳大利亞麥考瑞大學的John Alroy獨立開發的PBDB的門戶網站Fossilworks(http://fossilworks.org/),它與 PBDB 共用同一套數據,但集成了更加豐富的在線分析工具,包括古地理成圖、數據匯總表(data summary tables)、常見分類單元列表(lists of common taxa)、首現記錄(first appearances)、多樣性曲線(diversity curves)、生態統計(ecological statistics)、時間尺度置信區間(time scale confidence intervals)、地層置信區間(stratigraphic confidence intervals)等。Fossiilid.info、BioLib可以在線展示化石分類樹并支持點擊查看詞條詳情。GBDB提供Geo Visual 1.0、TS Creator等在線可視化和分析工具(Fan et al.,2013,2014),前者支持基于地理信息系統(GIS)的空間數據顯示(圖8d),并且可以手動圈定研究區域,形成可發表的高質量圖件,后者實現了選定剖面的綜合地層數據的可視化(圖8e)。同時,GBDB基于PaleoGIS等技術可實現古地理投圖,以便開展基于古地理重建的相關研究。Mikrotax提供了豐富的在線工具,包括術語表(glossary)、時間篩選(time-control)等,基于查詢結果可以進一步生成生物分帶圖、延限圖和時空分布點圖(space-time spots,圖8f)等。

3.3 數據共享特點

不同數據庫具有不同的數據共享機制,按照開放程度,從高到低可以劃分為以下幾個層級:(1)提供開放的應用程序接口;(2)支持在線瀏覽和批量下載數據;(3)僅可在線瀏覽,不支持批量下載;(4)內網數據庫;(5)離線數據集。

圖8 不同綜合研究型古生物學數據庫高級在線功能展示Fig. 8 Advanced online tools of different integrated research paleontological databases

數據庫環境中,應用程序接口(Application Programming Interface,簡稱API)提供了一組用于構建軟件的協議和工具,便于用戶遠程訪問數據并返回不特定于具體終端使用的格式化的數據。PBDB、Neptune、FRED、Mikrotax、MorphoBank、Neotoma等數據庫均提供了API接口,研究者可以通過接口快速獲取和分析數據。以PBDB為例,其數據資源由統一資源定位符(uniform resource locators,簡稱URL)進行唯一標識,表1總結了PBDB 開放的API接口列表(Peters and McClennen,2016)。用戶可通過調用API接口獲取數據,構建定制化的網頁或者使用R、 Python等語言進一步進行數據處理與分析。PBDB Navigator網絡應用便是PBDB API的復雜應用實例?;贏PI調用,任何人都可以編寫與之交互的Web應用,完成數據的深度挖掘與利用。

綜合研究型數據庫一般均支持在線瀏覽和批量下載數據。例如,PBDB進行數據檢索與篩選后,可以直接在線導出所需數據;GBDB可建立數據子集,基于數據子集進行批量下載;NSB支持批量下載數據,已下載的數據可在線保存一個月;Neotoma支持多平臺數據下載,用戶可以通過Neotoma Explorer和Tilia進行數據檢索和下載。一般而言,提供API接口的數據庫通常也支持在線瀏覽和批量下載數據,用戶可以基于查找條件生成數據子集,然后批量下載。

表1 PBDB API類型列表(改自Peters and McClennen,2016)Table 1 Summary of operation types provided by PBDB API(revised after Peters and McClennen,2016)

此外,還有一批數據庫僅提供在線瀏覽,不支持批量下載,部分可以基于單個檢索結果逐一下載數據?;诨瘶吮镜氖詹毓芾硇蛿祿齑蠖鄬儆诖祟?,因此其數據訪問的開放程度通常較低。

最后兩類,包括內網數據庫和離線數據集,這兩者通常見于相對封閉保守的科研院所或相關單位、不具備網絡數據庫開發能力或需求的科學家個人或一些大型實驗分析儀器的工作站上等。這兩類數據庫的共享程度低甚至不具備共享意義,主要服務于單位內部人員或僅供個人研究者使用。

3.4 數據質量控制

分類學數據是古生物學數據的核心內容,包括化石鑒定和分類等級關系的確認等,其準確性直接影響到生物地層劃分、時間框架構建、區域地層對比和生物演化等結論的可靠性。分類單元及其層級關系是建設古生物學專業數據庫的重要環節,現有的古生物學數據庫采用了幾種不同的方式來處理分類單元及其層級關系、控制數據質量與生成分類樹。PBDB通過特定工作流實時生成分類體系;Mikrotax設置有評論專區,用戶提交的厘定意見由數據庫團隊統一收集與分析,制定統一的標準,然后再通過在線系統對外發布;GBDB中每個化石門類均由國內權威專家領銜的工作團隊進行厘定和錄入,保證了化石分類數據質量,分類學模塊不支持生成分類樹,但是支持用戶針對分類單元添加厘定意見,優化數據質量;20世紀日本化石模式標本數據庫支持用戶在線提交厘定意見表單;NSB設置有專家工作組,不定期更新分類學和地層學數據,上傳優化后的年齡模型。

4 數據驅動下的科學研究案例

數據驅動下的科學研究往往與數據庫和大數據分析方法相結合。古生物學領域的數據驅動下的科學研究主要包括生物宏演化模式與機制探討,生物古地理研究,以及古生態與形態演化分析等。前文所介紹的一些代表性的數據庫,如PBDB、NSB和Neotoma等,已經產出了一批優秀的科研成果,在其數據庫網站上通常有專門的網頁列舉已發表的科研成果清單。

4.1 大數據揭示生物宏演化模式與機制

生物宏演化(Macroevolution)是指在物種及更高層面上所發生的生物演化過程(Mayr,1982),重點關注大尺度的生物演化趨勢、規律和生物演化事件等。19世紀中期,基于英國的海相化石記錄,Philips(1860)首次識別出顯生宙海洋生物宏演化的粗略模式。20世紀80年代,Sepkoski和Raup通過對超過2800個科級化石紀錄的統計分析,建立了全球顯生宙海洋無脊椎動物多樣性數據綱要(Sepkoski,1982,1992),以階或統為單位,繪制了顯生宙海洋生物多樣性曲線(Sepkoski,1979,1984;Raup and Sepkoski,1982),其研究的時間跨度達650 Ma,平均時間精度約為8.1 Ma。在此基礎上,他們識別出地質歷史中的“五大”滅絕事件(“Big Five” mass extinctions;圖9),區分出寒武紀至今的三大演化動物群(Sepkoski,1981),認為三大演化動物群的起源、壯大與滅絕主導了整個顯生宙海洋生物多樣性演化的模式(圖9)。

圖9 Sepkoski史前海洋生物多樣性曲線(Sepkoski,1984)Fig. 9 Biodiversity curves of marine animal families through geological history(Sepkoski,1984)

依托于PBDB高質量的古生物學數據,基于大數據開展的生物多樣性研究不斷涌現(如Miller and Foote,2003;Alroy et al.,2008;Darroch and Wagner,2015等),其中Alroy等的顯生宙海洋無脊椎動物多樣性研究成果最具代表性(Alroy et al.,2008)。該項研究利用PBDB檢索和下載了19107個化石屬的284816個化石產出記錄,基于抽樣標準化(sampling standardization)和進樣計數方法(sampled-in-bin counting method)統計并繪制了顯生宙以來海洋無脊椎動物的生物多樣性演化曲線,其時間跨度為520 Ma,細分為48個近似時長的時間段,平均時間精度約為11 Ma。

美國加州大學河濱分校的Peter Sadler等人則嘗試依托大數據并結合定量地層學的約束最優化方法,通過提高時間分辨率來對生物多樣性的變化過程進行精細刻畫(Sadler and Cooper,2003;Sadler,2004)。Sadler耗時多年建立了全球奧陶紀—志留紀筆石化石的單機版數據庫,包括了582個地質剖面的2114個筆石物種,以及139個同位素年齡數據和沉積標志層數據,通過計算,采用無時間段劃分的方式(un-binned)統計生物多樣性,繪制得到了奧陶紀—志留紀高分辨率的筆石多樣性曲線(圖10;Sadler et al.,2009,2011),其時間分辨率高達33 Ka,從而可以精細刻畫筆石動物群的演化過程與模式。

圖10 高分辨率筆石物種豐富度曲線(Sadler et al.,2011)Fig. 10 High resolution species richness curve revealing the diversity trajectory of the graptoloid clade(Sadler et al.,2011)

樊雋軒等耗時多年,通過GBDB對中國顯生宙的地層剖面進行長期、持續性的數據錄入、整理和標準化工作。根據從中遴選出的3766個已發表剖面的45318個物種的266110個生物事件,通過進一步的數據質量控制,選定待計算的數據集,并基于約束最優化法自主開發了CONOP的并行版程序,利用“天河二號”超級計算機進行計算,繪制得到了寒武紀—早三疊世海洋無脊椎生物多樣性的高分辨率曲線(圖11;Fan et al.,2020),其時間分辨率達到26 Ka,較國際同行(如Alroy et al.,2008)的研究精度提高了400倍。這一研究,通過GBDB平臺將古生物學數據和地層學數據有機融合,極大地推動了古生物多樣性研究的發展。

圖11 古生代主要類群的種級多樣性曲線(Fan et al.,2020)Fig. 11 General trajectories of Paleozoic species diversity and species diversity for major fossil groups(Fan et al.,2020)

此外,各國學者還在生物多樣性分析的基礎之上開展了一系列獨創性的引申研究。圍繞Sadler等(2009)發表的奧陶紀—志留紀高分辨率筆石多樣性曲線,Cooper等(2014)對新生率、滅絕率等進行分析,認為奧陶紀—志留紀的全球氣候變化與該時期的筆石演化速率密切相關。Crampton等(2016)進一步根據筆石滅絕率曲線和組群幸存曲線識別出晚奧陶世溫室-冰室的轉變,標志著海洋浮游生物滅絕的一個階段性變化(Crampton et al.,2016)。隨后,Crampton等(2016)對筆石的物種演替率曲線進行旋回分析,并與主要天文旋回周期進行比較,發現奧陶紀—志留紀筆石多樣性的周期性變化規律可以用米蘭科維奇旋回進行解釋,并識別出與之相關的地球軌道偏心率周期(2.6 Ma)和斜率周期(1.3 Ma;圖12)。

同樣的,樊雋軒等嘗試分析了生物演化與環境因素之間的耦合性,重點關注鍶同位素、碳同位素、氧同位素、大氣二氧化碳分壓等地內環境指標,發現二氧化碳分壓似乎是唯一一個表現出與生物多樣性具有相似長期變化格局的環境因素(Fan et al.,2020)。

回顧古生物宏演化的研究歷史,基本就是一個數據庫、大數據分析方法和計算能力交互攀迭、逐步推進的過程。在古生物數據庫出現之前,全球或區域大尺度的生物宏演化研究是難以實現的。此后,從單個科學家純手工整理得到古生物學數據庫,到科學家群體通過互聯網協作構建在線數據庫從而實現海量數據的快速集成,再到專用算法的引入和計算能力的不斷提升,實現對海量數據的高效分析,古生物宏演化的研究從半定量到定量,從時間粗分辨率到高分辨率,研究精度不斷提高,新的研究方向不斷出現,研究的深度也在不斷向跨學科的領域拓展。從中可以窺見數據驅動下的古生物學研究的幾個顯著特征:(1)與專業數據庫的發展緊密聯系:從Sepkoski離線數據庫到PBDB、GBDB等在線數據平臺的發展壯大,不斷催生出相對于當時科學界而言的突破性原創成果。(2)數據分析的新方法不斷涌現,從PBDB廣泛采用的多樣性統計分析方法如抽樣標準化、稀疏化等方法,到Peter Sadler等采用的約束最優化方法等,這些新方法的出現,通常也會產生新的研究領域或方向,推動學科的不斷發展。(3)對數據計算能力的需求不斷加大,大數據量通常意味著較大的計算量,算法優化、并行計算乃至人工智能或許是未來古生物學研究的重要手段。

圖12 筆石多樣性、演替率和演替率的頻譜分析(Crampton et al.,2018)Fig. 12 Graptoloid diversity, turnover, and spectral analysis of turnover(Crampton et al.,2018)

4.2 數據驅動下的生物古地理研究

生物古地理學是一個跨學科的研究領域,融合并利用了古生物學和古地理學的數據和理論,根據一定地理區域內的化石生物群的面貌,探討化石生物群在空間和時間框架內的分布規律,從而輔助生物區系劃分、古地理重建和判斷古板塊位置等研究(胡濱,2009)。隨著信息時代的到來,數據庫在生物古地理研究中的驅動作用愈加明顯。

沈樹忠等人使用Filemaker Pro建立了單機版的全球腕足化石數據庫(Shen et al.,2009,2013),用于開展生物古地理演化研究。其數據庫中包含了腕足化石的原始鑒定信息以及最新厘定意見、詳細的生物地層信息、地理位置信息、巖相、構造特征等在內的三十余個字段。在該數據庫收集的1425個產地的483屬共計2459種的腕足數據基礎上,Ke等(2016)對二、三疊紀之交全球腕足類生物古地理進行了定量分析。他們將1425個產地依據構造邊界或地理分區劃分至110個站點(station)中,使用二進制/豐度系數(binary/abundance coefficients)構建屬級化石產出記錄的數據矩陣,選擇Jaccard和Ochiai相似系數計算各站點之間的動物群組成的相似性,基于得到的相似性矩陣進行聚類分析(cluster analysis,簡稱CA),模擬得到腕足化石產地的聚類分析分支圖(圖13a),同時利用PaleoMAP的成圖功能繪制得到了二疊紀長興期到三疊紀瑞替期九個時間段的腕足地理分區圖(圖13b),據此對該時期腕足動物的全球地理分布特征和控制因素開展了深入研究。

圖13 腕足動物的生物古地理演化研究(Ke et al.,2016)Fig. 13 Global brachiopod palaeobiogeographical evolution in Rhaetian(Ke et al.,2016)

除此之外,美國辛辛那提大學的Arnie Miller等人依托PBDB開展的顯生宙全球海洋動物的地理分異研究(Miller et al.,2009),也是典型的數據驅動下生物古地理學研究案例。PBDB的發展壯大與數據密度的不斷提高,使得分析全球動物群的地理分異性及其在整個海洋動物生命歷史中的變化歷程成為可能。Miller等(2009)將全球劃分為5°×5°的單元格,然后從PBDB中批量下載了屬級別的三葉蟲、腕足類、頭足類和雙殼類化石的產出記錄,合并每個單元格里的數據,得到該單元格所代表的區域內的化石產出列表。隨后,計算任意兩個單元格之間動物群的相似性,繪制相似性—距離曲線,發現,古生代和新生代的相似性-距離圖的變化趨勢相似,單元格之間的動物群相似性與其距離成反比關系,隨著距離增加,單元格之間的差異性顯著增大;但是,中生代并未識別出明顯的負相關關系(圖14a,b)。同時,為了比較不同時間段的生物地理變化,Miller等(2009)用實線連接不同的單元格,并依據單元格之間的相似性程度設置不同顏色,顏色深代表相似性高。研究表明(圖14c,d),奧陶紀時間段4表現為全球生物地理顯著分異、各地動物群組成差異明顯的模式,僅勞倫大陸、阿瓦隆尼亞、波羅的地區等顯示了短距離的動物群相似的特點。與之相比,新生代顯示了截然不同的特點,相隔數千公里的單元格之間也顯示了明顯的動物群相似的特點,且出現了大量沿經向分布的深色連線,表明當時生物群的分布很可能受到經向洋流的控制。

圖14 顯生宙全球海洋動物地理分異的演變趨勢研究(Miller et al.,2009)Fig. 14 Phanerozoic trends in the global geographic disparity of marine biotas(Miller et al.,2009)

上述兩項定量古地理研究亦是數據驅動下科學研究的典型案例。對于小區域、小時間尺度的古地理研究,可以通過科學家個人的努力得以實現。但正是PBDB等大型數據庫的建立,加上有效的數據共享機制以及先進的大數據可視化和分析方法的引入,使得全球尺度的定量古生物地理研究成為可能。

5 一站式全生態鏈古生物學數據平臺構想

5.1 一站式全生態鏈

隨著古生物學及其相關學科數據的快速積累,古生物學數據庫面臨新的挑戰:如何整合已有的多源異構數據庫的數據,如何實現跨學科數據的交融,如何通過大數據的手段發現隱藏的非傳統認知,如何高效地進行海量數據的快速分析、處理和成果展示、分享,等等。以上種種,亟需通過建立具有統一數據標準的開放型古生物學一站式全生態鏈數據平臺來實現?!耙徽臼健币馕吨@個數據平臺需要融合大數據工作中的所有流程,包括數據收集、存儲、處理、運算、分析、可視化、發表、共享等?;谶@個設想,該平臺需要包括但不限于以下模塊:數據收集與存儲模塊,數據在線處理模塊,數據可視化模塊,在線分析工具集成模塊等。并且,數據平臺應支持數據的在線發表,提供DOI等以保護數據的知識產權。

數據的收集是建設該平臺最為基礎的一環。對于單個數據庫而言,數據的產生和收集往往是一個漫長而艱辛的過程,GBDB十余人的專業錄入團隊耗時十年才實現中國古生物學文獻數據85%的數字化,PBDB集成了410名貢獻者二十余年的心血,NSB等更是執行了幾十年的大洋鉆探任務才獲取到如今海量、珍貴的洋底數據。如果每新建一個平臺便得重新收集和錄入所有的數據,那么這無疑是一個耗時、費力并且無意義的舉措。當前,海量的優質數據分散在全球的各個數據庫中,應當采取全新的思路進行數據的集成。受到前述多個數據庫集成平臺的啟發,我們可以考慮在各個數據庫中開放API接口,簡化和規范從不同數據源獲取數據的過程,實現國際同類數據庫間的數據共享、集成與交互,促成不同數據庫的數據實現無縫鏈接,而不是重新構建一個新的數據門戶網站。研究者可以通過任一平臺實現對所有數據的統一查詢并打包返回所需的結果數據?;谝徽臼狡脚_進行新數據收集的過程中,應當制定統一的數據標準,設立嚴格的數據審核和上傳制度,從而保障數據質量。

數據的在線處理、多種分析方法的集成將是數據平臺建設的一大亮點,也是實現一站式全生態鏈的核心環節。但是,古生物學旗下分支學科眾多,且各分支學科專業性強,筆者認為應當凝練關鍵科學問題,建立典型應用案例,通過眾包的方式交由不同團隊進行建設,平臺提供軟、硬件技術支撐,最終開發、部署一系列常用的可視化和分析功能。對于難以在線構建的數據處理和分析功能,如對計算力有較高要求的高性能計算應用,一方面可以針對性開發數據導出功能,GBDB支持CONOP9等多格式導出數據的功能便具有借鑒意義;另一方面可以開發配套軟件輔助分析,例如,NSB團隊根據實際需求開發了年齡模型制作軟件(NSB_ADP_wx),輔助構建鉆孔年齡值,Neotoma團隊開發建設了Neotoma Explorer,提供數據檢索、可視化和下載等功能。

數據成果保存與展示將是平臺生態鏈中的最后一環。數據庫應當提供針對數據成果的保護政策,例如為在線發表的化石3D模型或數據分析論文的原始數據集提供DOI等。提供全面、詳實、易懂的數據平臺操作指南也是平臺不可忽略的一點,這方面可以借鑒PBDB和Neotoma提供的新手指南服務:PBDB Navigator錄制了全流程視頻操作介紹;Neotoma Explorer針對用戶設計了詳細的軟件在線使用手冊。

5.2 科普與科研的有機結合

科學家的一個重要社會職責是科學普及,科技的進步可以為科普不斷提供新的生長點。但是,通過此次調研可以發現,目前大多數的古生物數據庫只聚焦科研或科普,很少兩者兼顧?;诨氖詹匦蛿祿?,比如各類博物館設計的數據庫,更多地服務于科普,科研職能較弱;而綜合研究型的古生物學數據庫通常重點關注科研工作者的需求,對科普職能的考慮極少,導致其科普功能非常薄弱。在構建古生物數據平臺時應當考慮科普與科研的有機結合,研究者既可以通過平臺開展科研工作,也可以基于平臺進行科普活動,讓最新的科學問題、研究手段走入社會。多媒體、虛擬現實/增強現實、人工智能等先進技術的集成與應用有望成為重要切入點,比如,可以考慮添加剖面全景可視化模塊,讓大眾“走入”古生物工作的現場;可以考慮提供優質的化石照片或者3D模型供大眾觀賞;可以圍繞大眾熱點開展線上線下科普活動,讓科學家走入課堂,讓化石愛好者參與數據采集和加工等。

致謝:感謝南京大學沈樹忠院士對論文提出的修改意見和建議。本文系“深時數字地球”(Deep-time Digital Earth)大科學計劃的系列成果之一。

猜你喜歡
古生物學化石標本
3D打印技術在動物標本中的應用
鞏義丁香花園唐墓出土器物介紹
COVID-19大便標本采集器的設計及應用
恐龍的宏觀進化與生態
虛擬古生物學:當化石遇到X射線成像
中國古生物學會:風雨兼程九十載
教你制作昆蟲標本
第三章 化石大作戰
第三章 化石大作戰
化石
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合