?

基于數據生命周期的學術圖書館數據可重復性支持服務

2023-09-13 11:24孔祥輝王乙竹
新世紀圖書館 2023年7期
關鍵詞:數據管理

孔祥輝?王乙竹

摘 要 當前可重復性危機日益嚴重,已經對科學研究事業的健康發展構成重大挑戰。學術圖書館有責任和義務參與到化解這場危機的進程中。論文基于數據生命周期的整體視角,深入分析危機形成的數據因素,以可重復性為價值導向并結合學術圖書館服務優勢,提出對應的數據支持服務建設思路與具體實施策略,包括數據預公開與規劃服務、高質量數據采集服務、元數據開發與咨詢服務、統計培訓與協作服務等。

關鍵詞 學術圖書館;數據生命周期;可重復性危機;數據管理

分類號G251;G258.6

DOI 10.16810/j.cnki.1672-514X.2023.07.010

Academic Librarys Data Reproducibility of Service Based on Data Life Cycle

Kong Xianghui, Wang Yizhu

Abstract The current reproducibility crisis is becoming increasingly severe, which has posed significant challenges to the healthy development of scientific research. Academic libraries have the responsibility and obligation to participate in the process of resolving this crisis. Based on the overall perspective of the data life cycle, this paper deeply analyzes the data factors that caused the crisis, takes reproducibility as the value orientation and combines the advantages of academic library services, and puts forward corresponding data support service construction ideas and specific implementation strategies, including data pre-disclosure and planning services, high-quality data collection services, metadata development and consulting services, statistical training and collaboration services.

Keywords Academic libraries. Data life cycle. Reproducibility crisis. Data management.

0 引言

可重復性是科學界的常用術語。根據美國國家科學基金會(NSF)發布的《科學中的可重復性與可復制性》(Reproducibility and Replicability in Science)研究共識報告[1]中的定義,它是指使用與原始研究相同的數據代碼、程序、方法、步驟或分析條件獲得一致的結果。伴隨著數據密集型、數據驅動型科研范式的確立和興起,可重復性已愈發成為衡量科研成果質量的重要標尺。然而目前科研領域正逐步陷入到可重復性危機陷阱之中,很多已經發表的論文成果都經受不起重現的考驗。頂級學術期刊《Nature》的一項調查顯示[2],科研人員有超過半數無法重現自己的研究結果,有70%無法重現他人的研究。這種情況不僅降低了自身對于研究工作有效性的信心,還嚴重威脅到公眾對科學的信任感。如何提高研究成果的可重復性,從根本上防范并化解危機已成為各類科研主體及相關利益方所共同關心的重大問題。學術圖書館是科研交流創新體系的重要一環,有必要及時審時度勢把握科研發展的脈搏,厘清當前所面臨的危機態勢,發揮自身的服務價值與優勢來協助科研界推進危機的解決。

1 研究綜述

可重復危機問題進入公眾視野并引起廣泛關注,是由John Ioannidis在2005年所發表的一篇先導性文章所致,他聲稱高達90%的研究結果都是錯誤的[3]。此后針對該主題的研究焦點集中在以下三個方面:(1)對危機的本身認識及爭論。以Daniele Fanelli[4]等為代表的少數學者認為,很多研究成果確實存在捏造、偽造、有偏見性、有選擇性和不可復制等亟待解決的問題,但并不表明它們會破壞整個科學事業?!拔C”一詞的表述是錯誤的,應該用時代所賦予的新機遇和新挑戰才更準確和令人信服。但無論是從機構層面,如美國開放科學中心(OSC)開展的大規模復制項目[5],還是學者個體層面開展的小范圍重復性評估研究,都發現社會科學、行為科學、心理學、教育學、醫學等眾多學科領域已發表成果存在重現率偏低情況,并且已經引發了很多直接或潛在的負面問題。因此,大部分學者都認同危機的客觀存在并已達到刻不容緩的地步。(2)危機起因的多維度分析。主要包括缺乏原始數據共享,可疑研究操作、P值濫用、選擇性報告、糟糕實驗設計、自由度失控、樣本不足、技術偏見、數據可用性差、低效力研究、無法管理復雜數據集、認知偏差、報告不佳、出版偏倚等。(3)對策研究。危機形成的原因復雜深刻,涉及面廣泛,學者們從技術、機制、方法、環境等多元化角度探尋化解危機的策略,代表成果有構建區塊鏈技術方案、改進學術激勵機制、引入人工智能成果評估技術、改進期刊研究指南、完善同行評審制度、改進統計方法、加強科學嚴謹性與可重復性教育等。

為科研服務是學術圖書館的中心任務,充分運用服務職能助力提升研究可重復性以解決危機成為了天然的職責和使命。Franklin Sayre[6]在回顧透明度和開放性促進(TOP)指南、美國統計協會(ASA)可重復性指南等內容時指出,學術圖書館員應憑借在文獻檢索、文獻評估、系統綜述、學術交流、數據管理及對數據密集型研究方法支持等方面的豐富經驗,在推動研究更具可重復性方面發揮重要作用。Stodden等[7]強調圖書館可通過協助研究人員制定完善的數據管理計劃、優化數據存檔方案等手段,來支持其實現向開放與可重復研究文化的轉變。然而目前研究成果數量有限,內容上仍處于服務思路構想的初級階段,尚未建立系統的理論框架,也沒有形成可執行的具體實施策略為實踐提供參考指導。

在數據密集型科研范式時代,數據成為現代科學發現的核心要素。研究成果能否經受住重復性檢驗取決于數據的質量。學術圖書館必須堅持用數據視野來透視可重復危機的本質;同時由于數據具有完整的生命周期屬性,還必須以系統化思維和方法,結合文獻內容分析,利用現有的生命周期模型框架全面審視危機背后的數據因素,并立足于數據管理服務職能手段,通過重組優化、重點布局,形成一個嶄新的、完整的服務策略體系。

2 科研數據生命周期

數據實踐活動與科學研究工作密切相關,滲透進科研活動的各個環節,科研活動經過選題、計劃、立項、實施、出版、結題等一系列活動構成了完整周期。因此,科研數據無論來自于哪種學科、以何種格式或載體存在,也都會體現出一定的循環過程,同樣具有生命周期的普遍特性。目前學界已提出多個理論模型對數據的生命周期進行解釋,如Data ONE研究數據生命周期模型、英國數據管理中心DDC模型、英國數據檔案館UKDA模型、美國地質調查局USGS模型、ICPSR社會科學數據存檔生命周期模型等。通過對比整理這些模型核心要素,本文將科研數據生命周期劃分為數據規劃、數據收集、數據組織、數據分析、數據存儲、數據出版、數據再利用7個階段。各階段數據實踐內容如表1所示。

3 基于數據生命周期視角下的可重復危機數據因素

數據周期模型體現了數據實踐活動整體邏輯結構、階段內容與內在價值聯系??芍貜托允菙祿谀P瓦\行下的綜合作用結果,可以說貫穿于整個數據生命周期過程之中,在不同階段的不當實踐行為或管理失位都會誘發潛在風險;通過對現有文獻成果有關危機形成的各種因素的表述分析來看,其生成機制背后都有著數據因素推動或者體現出高度關聯性。

3.1 缺乏數據規劃與監管

科研成果不可重復的直接原因是數據本身存在的缺失、混亂、虛假、錯誤等一系列問題,而未能對數據實踐全過程實施有效的計劃和監管,維護數據應有的科學性、完整性和真實性,則是這些表象原因背后的深層原因。在尚無明確的規劃指引和相應的制度監督約束背景下,科研人員在數據實踐進程中會明顯缺乏預判性和前瞻性,研究自由度變得很大甚至失去控制。研究自由度是指從生成假設、研究設計、分析處理數據和報告結果等研究過程中所體現的靈活性,表現為靈活擇取方法或者臨時決策行為[8]。通常情況下,由于缺乏精準定義的理論或者經驗證據,這些行為具備一定合理性,但同時也會帶來大量的隨機和不確定性,可能會影響數據的顯著性檢驗結果。例如,研究人員為了追求可供發表的陽性結果,會巧妙地利用自由度進行選擇性報告(selective reporting)、P值篡改(p-hacking)、已知結果后提出假設(HARKing)等各類可疑研究操作,夸大統計學效能以產生自己想要的預期結果,最終造成結果呈現假陽性的隱患大幅增加,其結論失真失實而難以復制。有研究估計,因濫用研究自由度而導致研究成果的假陽性率高達61%[9]。

3.2 數據收集方式不足

數據收集是數據生命周期的核心階段,即運用各種方法和渠道對研究所需的數據進行采集獲取,為數據分析奠定前提。數據收集方式決定數據質量。而數據采樣則是眾多學科領域數據收集的最常見形式。在同等條件下數據樣本量越大,越更能代表總體,擴大了可能的數據范圍從而限制異常值或極端值的影響,提高統計效力和統計結果的精確性。

然而,多數學科研究普遍存在樣本量不足問題。在數據采樣模式上,研究人員更多采用小樣本而非大樣本進行研究,或從多個小樣本挑選陽性結果進行報告,直接損害了其分析結果作為證據的有效性。許多發現盡管具有統計學上的顯著意義,但其真實性存疑。此外,研究人員普遍缺乏盲法運用、樣本量估算和使用方便樣本等問題,數據收集質量很難得到有效保證,容易造成誤導性的結論,進而影響研究潛在的可重復性。

3.3 數據揭示力度不夠

數據組織階段涉及活動廣泛,決定了數據分析、存儲、共享等活動效率。而科研活動日益復雜化、系統化,其數據實踐條件的復雜性,如異構多源的原始實驗數據、測量參數、實驗設置、參與人員、軟件參數、方法、步驟和結果等信息,只有通過全面有效的組織揭示幫助科研人員予以全面把握,才有可能保證結果的可重現。

元數據是目前數據組織的最重要工具。創建元數據是確保數據公開、透明、可用和揭示完整研究過程的有力手段,對于重現已發表的結果非常重要。遺憾的是,當前科研文獻中普遍存在各類元數據不足的問題。一項針對不同學科的科學家調研顯示[10],75%的受訪者認為元數據可獲取性較差嚴重阻礙了他們嘗試重現他人結果的信心,而能夠獲得描述步驟型元數據僅有36%、設置型為38%、方法型為32%。同時,在創建元數據情況方面并不理想。為數據集增添合適的元數據或描述文檔以實現長期存儲與監護,會額外增加科研人員的時間成本和精力,因此只有在完成既定科研任務或成果產出時才會得到重視[11];而已創建的元數據質量也令人堪憂,在數據收集策略、處理來源,分析方法等細節普遍缺乏詳細描述,數據可用性差,不能供他人充分理解并進行研究有效性評估。

3.4 數據分析方法誤用

數據分析是指為了提取有用信息和形成結論,用適當的統計分析方法對數據加以詳細分析概括總結的過程。分析結果的可靠性取決于統計分析方法的正確選擇使用和對結果的合理解釋,而實現這兩點必須有一定統計學知識為基礎。對于非統計學專業或基礎薄弱的科研人員在缺失教育的情況下極容易出現概念、原理理解上的偏差,導致p值濫用、不恰當地處理異常值、誤用非參數和參數檢驗、忽視統計獨立性等方法誤用問題[12],而這種情況卻在眾多學科中普遍存在。方法誤用的后果就是導致統計功效低下,p值喪失應有的統計學意義,分析結果偏離客觀事實,得出的研究結論不科學,后人能夠成功重復出來的可能性也就變得很低。

3.5 數據存儲基礎薄弱

數據存儲是以存儲庫為基礎,通過保存、歸檔等形式實現數據的長期保存和利用的活動,能夠有效維護數據的安全性和完整性,提高數據可利用、可發現和可識別屬性,為數據公開共享和可重復利用創造前提。技術進步促使科研領域生成愈發廣泛、復雜的數據集,如果不能以標準化、規?;姆绞綄祿M行存儲,就容易導致數據缺失、可讀性差等問題,降低數據共享和再利用水平。

目前,科研領域數據存儲基礎較為薄弱。一方面是可供公開訪問的數據存儲率較低。有學者對50種科學領域發表在頂級期刊的論文進行分析,發現其中只有9%的作者將完整的論文原始數據實現在線存儲[13]。即使很多頂級期刊制定了強制的數據共享政策,但依然無法改善這一現狀。另一方面數據存儲意愿低。即使多數研究機構或主體認可數據存儲和共享對于研究的價值,但在缺乏存儲經驗、基礎知識、產權保護,以及重視便利性忽略合理性的觀念驅使下,將數據保留在個人存儲設備不公開共享始終是科研人員的首選。

3.6 數據出版存在弊病

數據出版是數據實現共享的主要形式。在出版物和報告中披露數據分析過程、結果、各類決策和意圖等詳細信息,幫助后續研究者深入了解以便進行重復實驗。而現有的學術出版物普遍通過發布最終的代表性數字或數據集快照來展現結果,既沒有充分揭示如何生成這些數字和快照的原始數據,也缺乏支持重復性驗證的關鍵信息。在某些競爭激烈的學科領域,數據甚至會被故意省略、模糊描述。即便很多研究人員或許從未偽造過數據,但在“不發表即滅亡”的出版壓力下,也選擇省略了不支持研究假設的結果,或者拒絕披露負面數據。因此,當前數據出版方式與內容的缺陷,使數據不適合重用、驗證和復制。

3.7 可重復驗證研究匱乏

可重復驗證研究就是對數據進行的重復性驗證分析,使其他研究人員能夠以現有研究為基礎提高方法和結果的可驗證性 ,在科學研究中形成自我校正的良性機制。對于提高自身及其同行研究成果的嚴謹性、可重復性和透明度至關重要。

可重復驗證研究的專業強度、技術難度、時間成本較高。檢驗一項他人研究成果的可重復性不僅要考慮原研究中所使用的分析工具、環境等是否變化因素,還需要雄厚的專業知識基礎才能理解原研究中的數據、數學模型和統計技術,因此這些分析對于那些知識有限的人來說很難實現。大多數科研人員對此類研究只能望其項背;而且現有科研文化導向難以支持其實現普及化。當今科研體系鼓勵創新成果的快速發表,只有新發現才會獲得更多的關注與獎勵,而負面結果(例如未發現顯著相關性)則受到排斥。這種局面迫使研究人員將自身研究成果的重復驗證變成一種投機行為,淪為發表論文的手段而非檢驗科學的準則,即只有發現不符合預期的結果才對數據自查自審,得到預期結果(更多的是假陽性)則立即停止[14],無法保證研究成果客觀、準確、可靠。

4 基于數據生命周期的可重復性危機數據支持服務

4.1 指導思路

學術圖書館雖不是科研項目的主導者,但卻是科研數據的天然中介方與監管者,憑借信息組織技術、專業人才、基礎設施、數據資源等優勢,提供完善的科研數據管理與服務。通過協調數據管理中心、實驗室、科研管理部門、學術期刊、數據商等相關利益方促成廣泛合作,建立以學術圖書館為中心的服務共同體,利用資源建設、宣傳推廣,完善設施,交流協作、用戶教育等手段,對各階段的數據問題予以精準擊破,最終形成以提高科研可重復性為根本價值導向、覆蓋全周期的數據支持服務體系。

4.2 具體策略

4.2.1 數據預公開與規劃服務

可重復性始于規劃,而在科研項目啟動前編寫數據管理計劃(DMP)則有助于將規劃從構想轉變為具體方案,即在開展數據實踐之前將數據采集規則、分析方法、統計指標、相關測試、數據存儲等細節,預先進行科學地論證分析和記錄,探索所有潛在的風險和后果,使數據實踐具備可預見性。

學術圖書館應以建立以DMP為核心的數據規劃服務。(1)協助科研人員加強DMP內容建設與質量控制。加大資源推廣力度,充分發揮各類學科的DMP標準模板、研究指南、預研究清單、政策文件等資源的指導性作用,幫助科研人員建立標準化與規范化的DMP,明確從數據設計、執行和解釋等各環節操作所需的量化指標和具體要求,并以此為基準開展后續的數據實踐,確保在真實、可控的軌道上進行,減少數據欺詐、偽造等行為以便獲得可重復結果。(2)積極開展預注冊服務,推動DMP預公開和透明化。數據管理規劃存在霍桑效應,即研究人員在意識到他們的研究方案將被公眾審查時,會主動加強對研究方案的自我審查力度[15]。如果能實現數據規劃的公開透明,將有助于研究人員把注意力集中到方法改良和確保成果真實有效上來。預注冊是實現這一目標的有效途徑,它促使科研人員在開始科研項目啟動之前,在平臺提前注冊并公開研究設計,數據假設、DMP等內容,利用平臺的公共監督功能,最大程度減少研究自由度、區分假設探索性研究與假設檢驗研究,具備科研過程監督的價值屬性。因此學術圖書館應積極引入技術平臺,開展引導和咨詢服務,幫助科研人員增強預注冊的價值感知、積極踐行預注冊行為,使數據實踐的全過程都能得到有效監督,避免各類可疑的研究操作,有序實現計劃預期的客觀數據成果。

4.2.2 數據高質量采集服務

學術圖書館應以幫助科研人員最大程度提高數據采樣數量和質量,降低低樣本量對研究的不利影響為目標,開展數據搜集服務。(1)數據資源獲取服務。加大科研數據資源建設,如各類實驗、統計、模擬、觀察類數據庫購買整合力度,拓展第三方數據獲取渠道,夯實科研項目所需的數據基礎。(2)數據采樣協助服務。發揮學術圖書館的學術聯絡優勢,協調各研究團體之間開展合作,克服研究個體在數據搜集過程中的有限性與局限性,建立以圖書館為中心的的分布式協作數據采集網絡,為更大規模、更高性能的數據采樣創造條件。(3)開展元分析服務。元分析是通過統計方法對大量的相似研究進行量化評價并得出綜合性結論的方法[16],不僅有效擴大樣本量,提高統計檢驗力,還可以縮小置信區間的范圍,使對總體效應量的估計更加精確。在醫學、社會科學、教育科學、心理科學等領域得到普遍應用。圖書館員或學科館員可憑豐富的文獻檢索經驗介入科研團隊,幫助研究人員改善檢索策略,使用明確系統的方法,最大限度地減少偏見,產生更可靠的元分析結果,為決策提供信息并創建可重復的研究。(4)方法指南服務。通過學科指南建設提供數據收集方法的專業指導,提高數據采樣的規范性和科學性。例如布朗大學學術圖書館就生物醫學領域的數據、圖像、定量免疫印跡等采集方法進行匯總并提供資源引薦。

4.2.3 元數據開發與咨詢服務

在數據組織階段,必須發揮元數據的重現功能,充分揭示數據要素和研究過程,實現研究透明化。為此學術圖書館應做好:(1)元數據模型開發與應用服務。通過加強對外合作,以實現可重復需求為中心積極研發并推廣全新的科研元數據模型,協助科研人員全方位提高數據可識別程度和解釋能力。例如芝加哥大學學術圖書館與分子工程研究所共同開發的再現性科學論文監護與探索系統(Qresp)[17],用以指導研究人員在創建科學論文時,對使用的數據集、腳本、工具和筆記本之間關系的過程進行可視化記錄,實現研究數據—元數據,擴展到個人數據文件—密集大數據環境的全方位揭示維度,建立數據與數據來源之間的關系,通過鏈接將研究中的所有數據信息得以集中,便于輸出引用和重復性使用。(2)元數據指導咨詢服務。采取開設微課程、微視頻、文本指南等多元途徑宣講元數據標準、元數據政策等,提高科研人員元數據構建意識,并在元數據規范化操作規則指引下,正確記錄研究流程,揭示上下文信息、有關設備、協議、數據處理或實驗室條件的細節,確??茖W記錄的可靠性并提高研究過程的透明度。同時,積極推廣實驗室電子筆記本(ELN)、版本控制(Git)等技術工具,以工具為載體實現元數據記錄自動化,減少時間成本和精力。

4.2.4 統計培訓與協作服務

為夯實研究人員的統計學基礎,使數據分析結果的可靠性得到有效保證,學術圖書館可開展:(1)學科統計培訓。定期舉辦短期培訓、學術報告或公開演講,邀請學科資深人士、統計學專家或第三方專業統計咨詢機構開展基于學科的統計培訓,對本學科研究適用的統計學原理、常用統計方法、統計分析計劃、使用規則、常見誤區等給予及時指導,積極引領其他學者對該問題的重視及修正。(2)統計協作支持服務。如圖書館要通過多種協作手段介入來滿足數據分析過程中的各類需求。重點應包括①技術需求。杜蘭大學圖書館注重與校外統計顧問、統計公司的合作,運用來自NC3R的實驗設計助理(EDA,Experimental Design Assistant)為研究人員提供統計方法推薦,隨機化和盲法支持、樣本量計算等服務,助力設計更能產出可靠和可重復結果的穩健實驗。②預估需求。如佛蒙特大學圖書館針對本校學生、博士后和科研人員,建立統計分析需求自檢清單,要求在數據分析之前進行自我評估,根據評估結果提供統計指標解讀、分析結果解釋等一系列對應的信息支持,保證統計分析方法使用的正確性。③資源需求。對涉及各學科的統計學相關教材、期刊、會議、報告、數據庫等文獻資源集中予以整合,建立專題書庫或數據庫,通過一站式檢索及時獲得最新最全的統計學指導資源。

4.2.5 立體多維式數據存儲服務

實現研究可重復的關鍵是要確保數據的完整性和開放性,而這依賴于數據存儲力度和存儲質量。作為數據存儲的重要承擔機構,學術圖書館應繼續創新存儲服務,不斷提高自身在科研數據存儲應有的價值和地位,助力科研界改善數據存儲基礎薄弱的局面。服務創新的落腳點在:(1)加強各類存儲庫建設。通過依托機構知識庫改造、第三方商業庫(如Dryad、Zenodo、Figshare、protocols.io等)、開源數據存儲平臺(如開放科學框架OSF)引入以及自籌自建的方式健全數據存儲體系,協助科研人員與管理者能夠將科研全過程中所涉及到的所有數據,如原始數據集,軟件、研究代碼、分析腳本、研究協議、實驗記錄、工作流程、文檔注釋和元數據等都視為不可或缺的整體,實現全方位、全過程存儲,以獨立方式保存高度完整,并能通過DOI鏈接增強與出版物的引用,支持預印本服務器、實驗室筆記本、版本控制軟件等研究工具的數據共享,支持在開放、協作互動討論中來提高研究的可重復性。(2)建立學科導航。學術圖書館應積極按照學科門類整合各類存儲庫資源,提供索引與指南以滿足差異化、精細化的學科數據存儲需求。如歐美國家的學術圖書館都提供re3data、FAIRsharing等門戶信息或搜索引擎,幫助不同專業學科科研人員快速查找和鎖定存儲范圍,實現精準有效的存儲。(3)存儲標準化引導。加大數據存儲標準格式的宣傳和解釋力度,引導研究人員更多地采用“研究綱要”模式[18],按照一定的邏輯標準且易于識別的方式來儲存研究項目的數據材料,使其他研究人員能夠進行有效審查、復制和其他擴展研究。

4.2.6 數據獨立與開放出版服務

實現可重復就意味著數據應保持其最初的豐富性,不應為了解釋某一特定出版物中的發現而降低內容屬性[19]。學術圖書館必須堅持以提高數據披露程度和開放性為目的,綜合運用多種服務手段積極介入出版進程,優化數據出版環境,提高科研人員數據出版意識。舉措有:(1)數據出版資源建設。積極與學術期刊、數據庫商展開對話合作,加大數據期刊購入力度,建立研究項目的數據關聯出版服務。如愛荷華州立大學圖書館為推動數據獨立出版行為,提供專門發表數據論文的期刊資源導航。鼓勵科研用戶采用數據論文的形式,通過文檔描述的數據集,數據庫或數據包,描述數據及其收集的情況,與研究文章一起發表。(2)數據出版咨詢服務。加強對于學術期刊的數據出版政策、出版指南、可重復性研究指南的追蹤與解讀,形成咨詢報告在論文即將發表、數據出版之際進行推送,協助科研人員清晰地掌握數據出版標準,采取更科學的表述,盡可能排除存在偏差的數據操作,確保數據內容得以真實、有效和可重復利用狀態呈現。(3)預印本服務。加強對以預印本為核心的OA學術出版資源揭示力度,如哈佛大學Countway圖書館開辟信息專欄介紹預印本的科普知識問題答疑、政策查詢、服務器資源索引等。同時提供預印本-后印本平臺托管服務,使研究人員能利用平臺對各類科研項目所產出的所有數據成果進行無限制訪問,并提高以預印本作為主流出版方式的認可程度,實現公開透明的發布、共享、討論和評估數據成果,同時提高對于一些負面或無效數據結果的包容性,克服發表偏倚帶來的消極影響。

4.2.7 可重復驗證全面支持服務

可重復驗證研究作為科研進程的有益補充,其價值重要性不言而喻。要真正在廣大科研群體之間實現可重復驗證研究的普及,使可重復性分析、對無效結果的發掘成為研究項目自我糾正的常態化機制,就需要對其提供全方位服務支持,激發研究動力,促進研究交流、降低研究成本,為研究創造空間、技術、硬件環境。學術圖書館對此可提供:(1)學術交流服務。要真正促使科研主體將可重復這一黃金準則內化成自身科研行為標準,就必須強化對可重復驗證研究的宣傳力度,促成理念方法的廣泛認同。借助空間場域、學科聯絡、活動組織優勢打造可重復驗證研究交流平臺。定期開展學術研討,圓桌會議、競賽交流等活動,如南安普敦大學學術圖書館的ReproducibiliTea 每周例會討論、萊登大學學術圖書館的可重復黑客馬拉松(ReproHack)活動,都極大提高了參與者對此研究的認知和參與程度。(2)信息門戶服務。通過匯總各類資源建立研究指南,揭示和報道可重復研究的基本概念、流程方法、最佳實踐、工具與資源索引。目前,北美地區很多學術圖書館都開辟了研究門戶并且關聯培訓、新聞動態信息,以達到推廣普及的效果。(3)數據開放許可服務。確??芍貜万炞C研究合法合規開展的前提是必須有明確的數據許可或使用協議作擔保。學術圖書館應聯合知識產權部門,提供數據開放許可協議的渠道和資源。普林斯頓大學圖書館科研數據管理中心強調在重用現有數據時必須明確獲得所有權的許可,并要求了解許可證設置的限制,以便于數據正確使用、減少數據的錯誤假設導致無效分析。(4)驗證平臺服務??芍貜万炞C的技術難點在于實現研究數據和環境的可移植性。學術圖書館應加快利用Docker、code ocean、GitHub等可重復性云計算平臺構筑一站式在線數據驗證和實習空間,方面科研人員將研究產出如代碼、數據和計算執行環境、配置信息等打包到一個“膠囊”中并提供DOI,使多方主體都能實現獲取并直接開啟驗證。同時,圍繞平臺建立配套的教育課程,邀請專業人員定期組織培訓教學。

5 結語

解決可重復危機問題刻不容緩。學術圖書館以科研數據管理基礎與服務職能優勢自然成為應對危機的有力支持者?;跀祿芷谝暯墙鈽嬑C并建立全新服務框架,既為新形勢下數據管理服務轉型提供新思路,也體現出學術圖書館在順應變革中推動科研進步的應有之義。

參考文獻:

NationalAcademies| R&R.pdf [EB/OL].[2023-03-18].https://nap.nationalacademies.org/resource/25303/R&R.pdf.

BAKER M. 1,500 scientists lift the lid on reproducibility[J]. Nature:International weekly journal of science, 2016, 533(7604): 452-455.

IOANNIDIS J P A. Why most published research findings are false[J]. PLoS medicine, 2005,2(8): 696-701.

FANELLI D. Is science really facing a reproducibility?crisis, and do we need it to?[J]. Proceedings of the National Academy of Sciences, 2018, 115(11): 2628-2631.

OSF | Reproducibility Project: Psychology[EB/OL].[2023-03-10].https://osf.io/ezcuj/.

SAYRE F, RIEGELMAN A. The reproducibility crisis and academic libraries[J]. College and Research Libraries, 2018, 79(1): 2-9.

STODDEN V, BORWEIN J, BAILEY D H. Setting the default to reproducible[J]. Computational science research. SIAM News, 2013, 46(5): 4-6.

EPSKAMP S. Reproducibility and replicability in a fast-paced methodological world[J]. Advances in Methods and Practices in Psychological Science, 2019, 2(2): 145-155.

LARAWAY S, SNYCERSKI S, PRADHAN S, et al. An overview of scientific reproducibility: consideration of relevant issues for behavior science/analysis[J]. Perspectives on Behavior Science, 2019, 42: 33-57.

SAMUEL S, K?NIG-RIES B. Understanding experiments and research practices for reproducibility: an exploratory study[J]. PeerJ, 2021, 9: e11140.

黃鑫,鄧仲華.國外高校學術圖書館科學數據的元數據服務研究[J].圖書與情報,2017(2):84-90.

LINDSEY M L, BOLLI R, CANTY Jr J M, et al. Guidelines for experimental models of myocardial ischemia and infarction[J]. American Journal of Physiology-Heart and Circulatory Physiology, 2018, 314(4): 812-838.

ALSHEIKH-ALI A A, QURESHI W, AL-MALLAH M H, et al. Public availability of published research data in high-impact journals[J]. PLOS ONE, 2011, 6(9): 1-4.

劉佳,霍涌泉,陳文博,等.心理學研究的可重復性“危機”:一些積極應對策略[J].心理學探新,2018,38(1):86-90.

MUNAF? M. Open science and research reproducibility[J]. ecancermedicalscience, 2016, 10.

張力為,彭凡.體育科學如何應對可重復性危機?[J].體育學研究,2021,35(6):1-11.

Scientific reproducibility, data management, and inspiration [EB/OL].[2023-03-03].https://www.lib.uchicago.edu/about/news/scientific-reproducibility-data-management-and-inspiration.

ALSTON J M, RICK J A. A beginners guide to conducting reproducible research[J]. Bulletin of the Ecological Society of America, 2021,102(2): 1-14.

The FAIR data principles[EB/OL].[2022-03-21].https://www.ands.org.au/working-with-data/fairdata.

孔祥輝 錦州醫科大學圖書館館員。 遼寧錦州,121000。

王乙竹 錦州醫科大學人文與健康管理學院講師。遼寧錦州,121000。

(收稿日期:2022-12-29 編校:陳安琪,謝艷秋)

猜你喜歡
數據管理
基于大數據管理的管道智慧檢驗系統的研發及應用
企業級BOM數據管理概要
定制化汽車制造的數據管理分析
海洋環境數據管理優化與實踐
CTCS-2級報文數據管理需求分析和實現
土地權屬調查的方法及數據管理
自然資源一體化數據管理與服務平臺關鍵技術研究與應用
列控數據管理平臺的開發
一種嵌入式控制系統的高容錯小型數據管理方法
基于數據管理的綠通車輛規范化應用
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合