?

醫學學科的研究型數據類數字資源消失速度研究

2014-07-27 06:20臧碩博谷軼亞
創新科技 2014年16期
關鍵詞:研究型比率年限

臧碩博 谷軼亞

(鄭州大學基礎醫學院,河南 鄭州 450002)

醫學學科的研究型數據類數字資源消失速度研究

臧碩博 谷軼亞

(鄭州大學基礎醫學院,河南 鄭州 450002)

醫學學科的研究型數據是一類重要數字資源。本文隨機檢索發表年限在1911年至2011年之間的1 032篇醫學學科的學術論文,對其研究型數據的可獲得性進行調查,采用SPSS軟件進行邏輯回歸擬合,結果顯示,該學科研究型數據的消失速度為每年17%。

數字保存;研究型數據;消失速度;醫學學科

醫學學科的研究型數據是一類重要數字資源,主要包括實驗數據、臨床觀測數據、病理分析數據和實證研究數據等。在該學科的科學研究中,學術論文的論據主要來自于醫學學科研究型數據,結論也主要來自于對該類數字資源的分析、推理與總結,因此,研究型數據對于醫學學科的再現性科學實驗、學術成果的質量評價、后繼研究和相關研究的參考等方面具有重要的甚至不可替代的作用。

無論是政府,還是研究項目的資助機構和研究成果的出版機構[1],都越來越重視制定和實施一些方針政策,以確保研究型數據存儲在公共保存系統中,從而使其能夠被長期訪問獲取。這種做法是基于這樣一個觀點,即研究型數據的生產者在保存其研究型數據方面比較糟糕,尤其是長期保存。實際上,不少研究也表明,研究人員常常不能或不樂意共享他們的研究型數據[2]。但是,到目前為止,有關研究型數據的可獲得性隨著學術論文發表時間的延長而變化的定量研究還沒見報道。本文隨機檢索了1911年至2011年發表的1 032篇醫學學科的學術論文,對這些論文的研究型數據存在狀態進行調查分析,結果顯示,論文發表的年限對研究型數據的可獲得性有重大影響。通過e-mail調查,在作者給出研究型數據存在狀態的論文中,研究型數據的可獲得比率以每年17%降低。本項研究結果證實了研究人員不能對自己生產的研究型數據實施有效的長期保存。因此,制定和實施相關方針政策引導乃至強制研究人員將自己生產的研究型數據共享保存在公共保存系統中是業界的一項緊迫任務。

1 實驗過程

1.1 研究型數據的類型限定。對研究型數據共享的期望在不同學術團體之間有所差別,不同類型的研究型數據的保存困難度也可能不一樣,研究人員產生的研究型數據的類型也會隨著時間的推移而變化。為了控制這些因素帶來的影響,本實驗聚焦在醫學學科中采用判別函數分析法(DFA,discriminant function analysis)對細菌形態(bacteria dimensions)進行研究的研究型數據。因此,在收集論文時設置了兩個條件:分析方法(判別函數分析法)和研究型數據類型(細菌形態)。

1.2 論文的檢索。我們利用Web of Science檢索相關論文,檢索式為:bacteria*and discriminant,年限限定為:1980至2011。檢索結果中1991年之前只有51篇,由于太少不具代表性而被排除。為了減少實驗工作量,我們選擇了1991年至2011年的奇數年,共計有2018篇論文。如果論文的全文通過網絡等方式無法獲取,我們將其排除;如果分析方法不包括DFA,也排除;如果采用DFA但分析的對象不是細菌形態數據,也排除;如果研究型數據已經包含在論文的附件中、附錄中,或通過因特網能夠找到,那么這些論文的研究型數據保存不再是研究人員的職責,這些論文也被排除。通過上述排除,剩下1032篇論文,每個選定的年份至少52篇,大部分超過80篇(見表1)。

1.3 通過e-mail進行調查。針對每篇論文,我們試圖從論文文本中提取每位作者的e-mail地址。但是很快發現發表年限較長的論文作者e-mail的有效性很低,甚至根本就沒有e-mail。在這種情況下,我們通過因特網查找每個作者的近期或當前的e-mail。我們通過e-mail對每篇論文作者進行調查,并在3周之后對沒有回復的e-mail發送提醒郵件,整個調查過程持續45天。對調查結果進行整理后,1 032篇論文的調查樣本被分為6類:①有關該論文的所有郵件發送都返回一個錯誤信息;②至少有一個郵件沒有返回錯誤信息,但均沒有收到回復;③至少收到一個回復,但均沒有給出研究型數據的狀態;④研究型數據已經丟失或存儲在過時的硬件中;⑤研究型數據仍存在但不愿提供共享;⑥接收到來自論文作者提供的研究型數據。因為⑤⑥都表明研究型數據還存在,我們將這兩類歸納成一類,即“研究型數據仍可獲得”。調查結果見表1。

表1 按照論文發表年份獲得的調查數據(N=1032)

【注1】沒有有效e-mail的論文數量,指沒有找到e-mail,或雖找到有e-mail但均不能成功發送?!咀?】無回復的論文數量,指在所有成功發送的e-mail中,均沒有收到回復的論文?!咀?】回復但沒有給出研究型數據狀態的論文數量?!咀?】在給出研究型數據狀態的回復中,指明研究型數據丟失的論文數量?!咀?】在給出研究型數據狀態的回復中,指明研究型數據存在但不樂意提供共享的論文數量?!咀?】作者提供研究型數據的論文數量?!咀?】研究型數據處于可獲得狀態的論文數量(包括【注5】和【注6】兩種情況)。

圖1 論文發表年限對從作者中獲得研究型數據的四個影響因素

2 實驗結果

本實驗的目的在于探討醫學學科研究型數據的可獲得比率與論文發表年限之間的定量關系,為實現該目的,我們依次遞進地進行四個步驟,使用SPSS軟件擬合邏輯回歸系數來探討論文發表的年限與下述因素之間的關系:①至少找到一個有效e-mail的比率;②在至少找到一個有效的e-mail中得到回復的條件比率;③在得到的回復中指明研究型數據狀態的條件比率;④在指明研究型數據狀態的回復中,研究型數據處于可獲得狀態的條件比率。實驗結果見圖1。

2.1 至少找到一個有效e-mail的情況。實驗結果表明,論文發表的年限與至少能夠找到一個有效e-mail的比率成反變關系(見圖1A)。使用SPSS擬合邏輯回歸曲線系數,計算結果為:OR=0.93,[0.90-0.96,95%CI]。該結果表明,論文發表年限每增加一年,至少能夠找到一個有效e-mail的比率下降7%。該擬合過程中用到的“至少能夠找到一個有效e-mail的比率”的計算公式為:(A8-A1)÷A8,其中,A1、A8分別為表1中的列名數據(關于A1至A8的含義,下同)。

2.2 獲得郵件回復的情況。實驗結果表明,論文發表的年限與至少找到一個有效的e-mail中得到回復的條件比率之間不存在關系(見圖1B)。使用SPSS擬合邏輯回歸曲線系數,計算結果為:OR=1.00,[0.97-1.04,95%CI]。表明無論論文何時發表,在至少找到一個有效e-mail中得到的回復期望值相同。另外,采用線性回歸擬合,所得的線性方程的斜率為0,截距為0.5,這也表明兩個變量之間不存在關系,并且無論年限如何變化,條件比率的期望值都是50%。上述兩個擬合過程中用到的“至少找到一個有效的e-mail中得到回復的條件比率”的數據計算公式為:

(A8-A1-A2)÷(A8-A1)。

2.3 指明研究型數據狀態的情況。實驗結果表明,論文發表的年限與在得到的回復中指明研究型數據狀態的條件比率之間也不存在關系(見圖1C)。使用SPSS擬合邏輯回歸曲線系數,計算結果為:OR=1.00,[0.95-1.07,95%CI]。表明無論論文何時發表,在得到的回復中指明研究型數據狀態的條件比例期望值相同。另外,采用線性回歸擬合,所得的線性方程的斜率為0,截距為0.83,這也表明兩個變量之間不存在關系,并且無論年限如何變化,條件比率的期望值都是83%。上述兩個擬合過程中用到的“在得到的回復中指明研究型數據狀態的條件比率”數據計算公式為:

(A8-A1-A2-A3)÷(A8-A1-A2)。

2.4 研究型數據處于可獲得狀態的情況。這里的可獲得狀態包括可以提供共享和存在但不可以共享兩種情況。實驗結果表明,論文發表的年限與在指明研究型數據狀態的回復中研究型數據處于可獲得狀態的條件比率之間存在很強的反變關系(見圖1D)。使用SPSS擬合邏輯回歸曲線系數,計算結果為:OR=0.83,[0.79-0.90,95%CI]。表明論文發表后每增加一年,在指明研究型數據狀態的回復中研究型數據處于可獲得狀態的條件比率下降17%。

上述擬合過程中用到的“在指明研究型數據狀態的回復中研究型數據處于可獲得狀態的條件比率”的數據計算公式為:A7÷(A8-A1-A2-A3)。

科學研究活動產生的研究型數據大多具有鮮明的時間和地點特征,一旦丟失,它們將很難通過再現性實驗等方式重新獲得。本項研究表明,由科研人員對其生產的醫學學科研究型數據進行長期保存的做法很不靠譜,很難保證這類數字資源被未來有效使用。解決方案是要求研究人員將其生產的研究型數據共享在公共保存系統中,從而使這類數字資源的可獲得性與研究人員無關。一些保存機構已經制定實施了相關政策[3]。我們期望,該項研究得出的研究型數據不可獲得性的令人擔憂程度能夠引起業界的高度重視。

[1]Holdren,J.P.Increasing Access to the Results of Federal?ly Funded Scientific Research.[2013-07-02].http://www.white?house.gov/sites/default/files/microsites/ostp/ostp_public_access_me mo_2013.pdf.

[2]Vines,T.H.,Andrew,R.L.,Bock,D.G.,et al.Mandat?ed data archiving greatly improves access to research data.The FASEB Journal.2013(27):1304-1308.

[3]Groves,T.BMJ policy on data sharing.British Medical Journal,2010(14):564.

谷軼亞(1993.8-),女,在讀本科生。

G250

A

1671-0037(2014)08-48-2

臧碩博(1994.3-),男,在讀本科生。

猜你喜歡
研究型比率年限
影響種公牛使用年限的幾個因素與解決辦法
國有企業研究型審計思考與探索
不同連作年限對設施農田土壤微生物群落的影響
遼寧朝陽市劉禹佳問:退役士兵參加基本養老保險出現欠繳、斷繳的,允許補繳嗎
基于半導體聚合物量子點的羧酸酯酶比率熒光傳感
小學數學單元研究型整合學習的探究
基于研究型大學視角下數學課程學習初探
中國研究型大學經費籌措及對策研究
千點暴跌 兩市凈流出逾7000億資金
美拭目以待的潛力城市
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合