?

數據期刊的出版模式與發展研究

2015-11-14 23:50雷秋雨馬建玲
圖書與情報 2015年1期
關鍵詞:期刊論文科學

雷秋雨馬建玲

(1.中國科學院大學 北京 100049)

(2.中國科學院蘭州文獻情報中心 甘肅蘭州 730000)

·信息組織與服務·

數據期刊的出版模式與發展研究

雷秋雨馬建玲

(1.中國科學院大學 北京 100049)

(2.中國科學院蘭州文獻情報中心 甘肅蘭州 730000)

數據出版當前一個新的發展熱點是數據期刊。文章分析了當前幾種典型的數據期刊出版模式,即以出版短數據文章(Data Papers)為特征的數據期刊、以整合出版為特征的數據期刊、數據以補充資料出版特征的數據期刊。最后簡要論述了數據期刊出版當前的發展狀況、存在的問題、建議及數據期刊的發展趨勢。

數據出版;數據期刊;數據文章;科學數據;科學數據共享

1 引言

數據出版是近幾年出版界和數據共享界共同提出和積極探索的一個新概念,它有望從機制上改變目前數據共享所面臨的根本問題。數據出版強調的是直接出版數據,而不是從中分析或者獲得結論,因此數據出版對于保持數據的完整性、防止科學造假、減少重復的時間及資金投入、提高數據發表者或者發表機構在科研領域的知名度和影響力以及減少跨學科研究的障礙、提高科研合作機率等具有重大意義。在實證科學領域,傳統的科學數據一般都作為學術出版的一部分。然而隨著技術的發展,大量數據快速涌現,動態地改變了學術出版的范式。這些變化也提出需要新的途徑和方式來提供和使用科學數據。

數據出版也是新型數字化交流正在發展的一個新概念,是一種新型的鼓勵科學家共享數據的方式,對數據的質量控制也具有積極影響。從根本上說,數據出版有多種形式,數據期刊(Data Journal)是其中一種新型的數據出版形式。所謂數據期刊一般都是聯機出版期刊,它不只出版數據,而發布數據文章(Data Papers)是數據期刊的核心和主要特征,Data Papers是以描述數據集收集、處理、格式、過程等細節為主要內容的文章,其篇幅較短,能使讀者快速地明白所描述數據集的所有相關細節信息。數據期刊以此探求數據的科學認證和再利用,提高科研方法和結果的透明度,以支持良好的數據管理并提供一個到達數據集可訪問的,永久的,可解析的路徑。

專門從事Data Papers出版的數據期刊的興起,從某種意義上來說激勵著科研工作者們投入更多的時間和精力去準備將自己手中的大量科學數據被共享和使用。為何科研工作者應致力于提交Data Papers,Pensoft出版商Lyubomir Penev認為:提交Data Papers有多項益處并且這些益處并不只限于對Data Papers的作者。首先,數據采集者、數據管理者和作者將通過合理的永久性科學記錄獲得Data Papers的優先注冊和引用;其次,與數據集相關聯的擴展元數據也將被正確描述和出版,使數據更易于被其他科學工作者使用、復用及共享,數據也會打開與其他科學團體和機構合作的新視角;最后,對原始數據和收集的數據集的再利用將極大程度改善公共投資資金在管理這些數據方面的效率。

2 數據期刊的出版模式

2.1 以出版短Data Papers為特征的數據期刊

Geoscience Data Journal(GDJ)是一個與地球科學領域有關的在線出版期刊,學科覆蓋范圍有:氣象、海洋學、大氣和海洋化學、冰凍圈、生物圈、地表地質等。該數據期刊主要出版Data Papers,為地學領域的讀者提供一個科學數據被正式發表的開放獲取平臺。GDJ出版Data Papers的工作流程為:(1)要求作者提交Data Papers,并要求Data Papers對連同提交的數據集進行詳細描述,包括原始數據集的收集、處理方式,以及數據集的格式、大小等細節信息;(2)GDJ要求作者在提交Data Papers之前,為數據集找到合適的數據倉儲,并獲得DOI;(3)GDJ的編委會對數據和提交的Data Papers進行嚴格的同行審議;(4)Data Papers一經采納,將文章連同已經獲取的DOI在線發表于期刊??蒲泄ぷ髡呒皵祿褂谜呖梢酝ㄟ^在線瀏覽Data Papers的同時,還可點擊與Data Papers描述相對應的DOI,同步瀏覽相關原始數據集,以此實現GDJ和數據倉儲的有機鏈接。提供一個快速便捷獲取科學數據的開放式高效的數據出版平臺。

Journal of Open Archaeology(JOAC)的特點是對描述具有高潛在復用價值的考古數據集的數據論文進行完全的同行審議。JOAD的Data Papers會經過嚴格的同行審議,以確保其描述數據集的準確性,以及內容是否符合該期刊的標準。JOAD認為Data Papers不是研究性文章的取代形式,更是一種對科學研究文章的補充,它鼓勵作者在描述數據集的同時可以提及任何與數據集有關的其他研究性文章,便于讀者參考。同時,JOAD要求作者將數據提交于一個允許無限制訪問的開放許可之下的公共數據倉儲,建議的存儲庫清單包括Dataverse Network、Figshare、mappa等。

具體來說,出版Data Papers的數據期刊有以下特征:

(1)篇幅精煉,主要包含對原始數據集環境、特征、過程及利用標準的描述;

(2)不對原始數據集進行分析、假設和推演等研究;

(3)開展面向data papers的同行評議,保證data papers的質量;

(4)以集成統一的方式對數據(集)進行管理,并與data paper形成有效關聯,提高數據可發現性與可再利用性。

2.2 以整合出版為特征的數據期刊

Biodiversity Data Journal(BDJ)是生物多樣性領域的開放獲取、綜合性在線出版平臺,是數據期刊的又一種具有代表性的應用與實踐,其特點是對數據和論文進行集成出版。BDJ要求作者在提交研究論文的時候,統一將其底層支撐性數據公開可用,同時必須在文章中保留單獨的“數據資源”部分,在此部分中列出數據集名稱以及數據存儲地址(DOI或者其它永久鏈接標識)。BDJ的出版特點包括:(1)在研究論文文本中包含數據文件,例如數據目錄、數據集、數據資料表、參考文獻等;(2)補充資料文件,支撐圖表、假設、結果等全部作為“數據”與文章一起發表;(3)與大型國際數據倉儲合作,如GBIF、IPT、Dryad等,集成出版研究論文和數據,文章以XML格式發布,保證機器可讀。BDJ意在盡可能的將每篇研究論文中涉及到的零散數據進行整合,以數據文件或補充性資料的形式進行“打包”,出現在論文中單獨的“數據資源”部分,使其也可以上載到該期刊的網頁伴同文章一起發表。FP7項目下的ViBRANT計劃,就包含了幾個由Pensoft出版集團書寫工具(PWT)和BDJ共同推出的幾項創新:(1)PWT提供大量預先定義的、靈活的生物代碼和達爾文核心集標準、論文模版;(2)只需點擊按鈕就可以在論文文本中導入、導出數據文件;(3)支持在各種平臺中(Scratchpads、全球生物多樣性信息整合發布工具包(IPT)、作者數據庫)自動導入生成的數據文件。

GigaScience側重于從整個生命譜學和生物醫藥科學領域發布“大數據”研究。其出版模式定位為,與提供數據分析工具與云計算資源的大型數據倉儲進行合作,要求作者在提交論文的同時將支撐性數據及源代碼等原始數據提交于數據倉儲。GigaScience強調數據的質量和效用,目的是為讀者群提供優質的大型研究數據(集)。這些數據(集)包含大量的彩色插圖和活動圖像,可以直接進行讀取,從而便于讀者根據自身需求對數據進行操作。在GigaScience發表的文章也被PubMed和PubMed Central收錄,也可以全文鏈接至SpringerLink數據庫,便于讀者多途徑瀏覽文章與數據。期刊自身的數據庫GigaDB,也以DOI為橋梁,提供已發布論文和相關支持數據之間的直接鏈接。

以該出版模式為主的數據期刊的特點可歸納為:

(1)基于功能強大的在線出版平臺,實現研究論文與數據的集成出版;

(2)以多種形式實現對生物學領域各類特殊數據的出版;

(3)注重研究論文和數據之間互操作的簡便性;

(4)研究論文和相關數據一一對應,便于讀者對數據進行解讀。

2.3 數據以補充資料出版的數據期刊

Ecological Archives包含三種出版物:附錄、副刊和Data Papers,這三種出版物通常作為ESA系列期刊(Ecosphere、Ecology、Ecological Monographs、EcologicalApplications)的補充性資料出現。附錄是包含著主體文章支撐信息的在線文件,它們基于標準瀏覽器(或是可執行音頻及視頻)直接可視并且自成一體,以及包括所有出現在標題、注腳和相關原創性文章的關鍵匹配資料;副刊包含著不太適合印刷出版的文件,這類文件一般以數字格式出現,通常包括原始和派生數據集、源代碼仿真模型、異常統計分析軟件等;Data Papers是用來呈現包含元數據描述的巨大數據集。在發表這些補充性資料時,要求作者盡可能的精簡自己的文章篇幅,同時將這些有助于讀者理解的數據表、額外圖表說明分析、圖片和所有可引用實體等數據提交于ESA官方數據倉儲data.esa.org。

以該出版模式為主的數據期刊的特點可歸納為:

(1)將數據作為研究論文的補充性資料進行出版;

(2)從提交到出版整個生命周期注重時效性。

3 數據期刊的發展現狀與發展趨勢

3.1 發展現狀

就國外數據期刊當前發展狀況而言,數據期刊實質上可以歸納為兩大出版模式:(1)以出版研究性論文為主,將數據集作為論文的補充性文件并存儲于出版商網站。具有代表性的出版商有醫學、科學領域的PLoS One、Biodiversity Data Journal(BDJ)等;(2)專門出版Data Papers的數據期刊,典型的有本文之前介紹的Journal of Open Archaeology Data(JOAD),以及Wiley于2012年與皇家氣象學會合作推出的Geoscience Data Journal(GDJ)。

此外,從數據期刊的出版環境來看,整個發展周期中主要涉及三大利益相關者:出版商、數據倉儲、科研工作者。出版商方面,在美國、英國等國家越來越多的出版商開始關注或者參與數據出版,如PLoS One從2008年開始就有了自己的數據共享政策,該期刊規定作者將數據集存儲域在一個開放獲取的機構倉儲中,常用的數據倉庫如Dryad,或者將數據集作為已發表論文的補充性材料文件。Wiley推出的開放獲取期刊Geoscience Data Journal(GDJ)主要發表篇幅比較短的地球科學數據文章,Wiley的副主席Mike Davis也曾表示,科學數據越來越被更多的人所需要,獲取和創建大型新數據是大勢所趨,這也是Wiley決定創辦GDJ的一個重要推動力。

近幾年,我國的互聯網產業發展突飛猛進,隨之也帶動了數字出版產業的飛速發展。在這個過程中,數字出版體現出了其自身的很多優點,同時也顯露出了一些問題,但無論優勢還是問題,我們都需要積極地面對,最大地發揮其優勢,盡快地解決其問題。本文主要以下面所提出的問題為切入點進行論述:數字出版物為什么越來越受人青睞?什么樣的數字出版物最吸引讀者?什么是我們需要考慮的重要因素?科技創新下的數字出版發展的如何?數字出版產業中存在哪些問題?我國數字出版產業的機遇與挑戰分別是什么?有朝一日數字出版物能否完全取代紙質出版物呢?通過本文的論述,以期對數字出版今后的發展能有一定的助力作用。

數據倉儲方面,2012年7月17日,歐盟提出,即將實施的800億歐元“地平線2020”(Horizon 2020)研究與創新計劃中所發表的研究論文,必須開放出版或在出版之后將其存放到開放知識庫。2009年在倫敦成立的Datacite,主要由德國和歐洲其他國家的機構組成,幫助用戶發現、訪問和再利用數據,Datacite的所有數據都采用DOI標識,以便能夠檢索和加以利用。Dryad比其他期刊網站提供了更大的存儲空間,Dryad中所有與文章相關的數據文件都被存儲在一起,通過“再利用條款”來確保數據的最大影響。2004年中國簽署了OECD《獲取公共資助科學數據宣言》。2006年10月,我國政府官員在第20屆國際科技數據委員會(CODATA)會議上表示,到2020年,80%以上的公益性、基礎性科學數據資源將通過因特網面向全社會共享。Thomson Reuters旗下的知識產權與科技事業部(WOK)于2012年推出了研究數據引文索引(DCI),希望通過文獻與數據之間的相互引用建立針對數據的評價指標,進而推動數據發現和知識互聯。

畢竟共享原始研究數據并不是科學界的慣常做法,所以科研工作者在期刊要求其提交相關研究數據時還有一些猶豫。如果順應數據出版商的政策——將原始研究數據和論文一并提交,科研工作者也有一些訴求:(1)希望得到對數據的控制,即必須明確數據提交之后其具體動向;(2)學術回報;(3)不規則的數據濫用對科研工作者個人信譽的影響。

因此,各方利益相關者應該照顧彼此的需求,構想出一個相對完善的體系構架,在保證數據共享的同時,也要確保數據提供者的絕對利益,這樣才能形成一個行之有效的發展模式。

3.2 發展趨勢

作為科學研究基石的數據,其共享與再利用問題已經普遍存在于科學工作者以及廣大數據使用者的意識中。數據期刊作為推動科學數據共享進程的新形式,在未來更是會得到長遠的發展。數據期刊自身在未來的發展進程中會日臻成熟,包括逐漸完善的出版流程、明確的數據質量控制方法;出版平臺功能的加強;數據期刊自身質量的提升,比如逐步提高被各類重要引文庫如SCI、DCI、PubMed等的收錄;同時保證作者的學術回報,重視作者要求掌握數據的控制權,避免因數據共享政策缺陷所導致的“數據濫用”對作者個人信用的影響等問題。除此之外,以下幾方面,也是數據期刊在不斷發展、完善過程中的主要趨勢:

(1)數據期刊與數據整合出版平臺的聯合與集成。數據期刊能達到一種多角度關聯、多終端傳播的立體出版形態。幾乎所有的數據期刊都在尋求和公共數據倉儲、圖書館等數據整合出版平臺的合作,要求發表數據文章的作者將其數據包存儲于定向存儲庫,以此建立一種研究性論文與原始數據相關聯模式,通過數據期刊上發表的文章,以及整合出版平臺分配給數據(集)的唯一數字對象標識或者永久URL地址,就能準確跟蹤定位到相關的數據所在位置,滿足數據使用者對數據開放存取的要求。由此實現一鍵式的關聯數據共享機制。

(2)數據期刊與學術出版商建立合作機制。學術期刊是學術交流、科研成果傳播的支柱,其早就具備了一套成熟的出版發布與利用機制,數據期刊就是巧妙的應用傳統學術出版的這種成熟發布模式,將科學數據嫁接進來,使數據得到和研究論文相同的待遇,經過在線聯機出版的渠道展現在讀者眼前??茖W界的頂級學術出版商Nature出版集團在2014年推出了一個數據期刊—Scientific Data,其采用Data Descriptor的格式出版作者提交的數據(集),該格式可以與其他外部出版物或檢索平臺相關的論文和存儲在定向存儲庫里的數據集有機關聯,形成一個關聯檢索過程,以此實現科學數據的引用與再利用。因此,在傳統學術出版中加入數據期刊的元素,不僅方便讀者對研究論文和數據進行互操作,其注重時效的在線聯機出版,也提高了整個出版過程效率,省力又節時。

(3)學科交叉下的領域數據庫合并。數據期刊大都是首先出現在某一學科領域的,比如生物多樣性、地球科學、化學、生命科學等領域。但隨著其自身不斷發展以及學科自身的綜合性質,數據倉儲不可能一直以專注某一特定學科而存在,勢必會出現各領域的數據庫合并現象。一旦數據庫進行合并,各方利益相關者會發掘到更多的潛在合作機會,數據期刊與數據集的關聯集成方式、數據期刊的出版形式等也都會相應發生改變。

4 存在問題與發展建議

由于數據期刊本身還是一個新興的正在發展的領域,各領域的數據期刊也都在探索符合自身特點的發展模式,同時出版數據并非是當今學術交流活動的常規做法,因此,數據期刊本身也還存在一些問題:

(1)作者對數據期刊的認可度還有待提高;

(2)在對數據進行同行審議的過程中,數據質量的控制方法、檢測標準等流程缺乏系統標準;

(3)由于數據期刊通常都采取在線聯機出版形式,優勢在于可以基于網絡的超鏈接特點,便捷的鏈接至各類數據及文檔,方便讀者在數據和文章之間輕松操作,但隨之而來的數據能否得到安全策管,也是值得商榷的問題。

針對這些問題,筆者提出的完善建議有:

(1)期刊應當重視數據共享者的利益訴求,并且加強對數據共享者回報機制的建設。為了防止數據的“合法濫用”,有些研究人員希望獲得已經共享數據的“控制權”,希望期刊能夠提供已共享數據被誰使用、使用在何處等信息。除了對數據進行安全維護,期刊還應適當配合數據共享者的需求,鞏固自身數據出版政策。

(2)健全數據質量控制評議標準。數據期刊側重對科學數據進行在線公開發布,因此科學數據也作為重要的科研成果被納入到學術出版體系中,也就應對其質量加以控制。傳統的學術期刊都會由專家對作者提交的論文進行嚴格的同行評議,其自身也有完善的出版流程。數據期刊也規定對作者提交的數據進行嚴格的同行評議,但是數據由誰、如何、以何標準進行評議并沒有明確說明。在這種情況下,數據的可信任度值得探討。Nature出版集團就明確提出會有專門的數據標準審核專家對作者提交的數據進行評議。

[1]吳宗立,王亮緒,南卓銅.科學數據出版現狀及其體系框架[J].遙感與技術應用,2013(6):383-389.

[2]何琳,常穎聰.國外科學數據出版研究進展[J].圖書情報工作,2013(3):104-109.

[3]Data Publishing 2020:Proposal for a Coordinated Approach[EB/OL].[2014-12-07].https://rd-alliance.org/sit es/default/files/Data%20Publishing%202020-Proposal% 20for%20a%20Coordinated%20Approach.pdf.

[4]The Arrival of Data Journals:an interview with Lyubomir Penev of Pensoft publishers[EB/OL].[2014-12-09].http://biofreshblog.com/2012/06/19/the-arrival-of-data-journals-an-interview-with-lyubomir-penev-of-pensoftpublishers/.

[5]Geoscience Data Journal[EB/OL].[2014-12-06].http:// onlinelibrary.wiley.com/journal/10.1002/(ISSN)2049-6060.

[6]Journal of Open Archaeology[EB/OL].[2014-12-10]. http://openarchaeologydata.metajnl.com/.

[7]Archiving[EB/OL].[2014-11-10].http://openarchaeologydata.metajnl.com/about/editorialPolicies#custom-0.

[8]Dataverse Network[EB/OL].[2014-11-10].http://thedata.harvard.edu/dvn/dv/JOAD.

[9]Figshare[EB/OL].[2014-12-10].http://figshare.com/.

[10]mappa[EB/OL].[2014-11-10].http://mappa.com.

[11]Biodiversity Data Journal[EB/OL].[2014-11-17].http://biodiversitydatajournal.com/.

[12]VIBRANT[EB/OL].[2014-11-09].http://www.fp7-vibrant.eu.

[13]Gigascience[EB/OL].[2014-11-17].http://www.gigasciencejournal.com/.

[14]Earth System Science Data[EB/OL].[2014-12-06].http:// www.earth-system-science-data.net/.

[15]British Oceanographic Data Centre[EB/OL].[2014-11-17].http://www.bodc.ac.uk/about/what_is_bodc/.

[16]Carbon Dioxide Information Analysis Center[EB/OL].[2014-11-09].http://cdiac.ornl.gov/.

[17]Ecological Archives[EB/OL].[2014-12-06].http://esapubs.org/archive/default.htm.

[18]Ecosphere[EB/OL].[2014-11-27].http://www.esajournals.org/toc/ecsp/current.

[19]Ecology[EB/OL].[2014-11-27].http://www.esajournals. org/toc/ecol/current.

[20]Ecological Monographs[EB/OL].[2014-12-15].http:// www.esajournals.org/toc/emon/current.

[21]Ecological Applications[EB/OL].[2014-12-15].http:// www.esajournals.org/toc/ecap/current.

[22]PlosOne[EB/OL].[2014-11-10].http://www.plosone.org/.

[23]Horizon2020[EB/OL].[2014-11-10].http://www.bbc.co. uk/zhongwen/simp/science/2014/01/140131_horizon_20 20_uk.shtml.

[24]What do we do[EB/OL].[2014-10-10].http://www.datacite.org/whatdowedo.

[25]Dryad[EB/OL].[2014-12-11].http://dryad.stanford.edu/.

[26]開放數據調研/開放資源建設[EB/OL].[2014-12-10]. http://open-resources.las.ac.cn/drupal/?q=node/3064.

[27]Thomson Reuters.Data Citation Index[EB/OL].[2014-12-11].http://wokinfo.com/products-tools/multidisplinar y/dci/.

[28]Nature[EB/OL].[2014-10-21].http://www.nature.com.

[29]Scientific Data[EB/OL].[2014-10-21].http://www. scientific data.com.

[30]Susan Reilly a,Wouter Schallier,SabineSchrempf,Eefke Smit,MaxWilkinson.REPORT EPORT ON INTEGRATION OF DATA AND PUBLICATIONS[EB/ OL].[2014-10-21].http://www.ode-project.eu.

Research on Development of the Publishing Models of Data Journal

A new hot topic in current development of data publication is the data journals.The article summarizes several typical current data publishing models of data journals,including short data papers,integrated data journals,and data as the supplemental materials.The article also briefly discusses the current development status,existing problems,suggestions,and the trend of data journals

data publishing;data journals;data papers;scientific data;scientific data sharing

G237.5

A

10.11968/tsygb.1003-6938.2015020

?數據策管能力。在

環境下,讀者雖然可以便捷地在數據和論文之間進行互操作,但數據的安全也存在隱患,期刊應當強制要求作者將數據提交于有專業管理數據能力的公共數據倉儲,而非建議作者可選擇性的將數據鏈接至個人或機構主頁。這樣可以有效的降低數據丟失的可能性,保證對數據的安全策管與鏈接地址的穩定性。

雷秋雨(1989-),女,中國科學院蘭州文獻情報中心碩士研究生;馬建玲(1969-),女,中國科學院蘭州文獻情報中心研究館員。

2015-02-02;責任編輯:魏志鵬

猜你喜歡
期刊論文科學
點擊科學
科學大爆炸
本期論文英文摘要
期刊審稿進度表
本期論文英文摘要
期刊審稿進度表
本期論文英文摘要
期刊審稿進度表
科學拔牙
2013年5—12月最佳論文
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合