?

不同替代計量數據庫數據政策與數據數值的比較研究*

2021-05-29 01:57余厚強尹梓涵
情報雜志 2021年5期
關鍵詞:數據源計數計量

余厚強 尹梓涵

(1.中山大學信息管理學院 廣州 510006; 2.南京理工大學經濟管理學院 南京 210094)

0 引 言

隨著網絡技術的不斷發展,科學交流模式也發生著日新月異的變化,從傳統的科學圖書、科技期刊、聲像資料等的交流媒介,以及個人之間通過面談、書信等方式進行的交流形式,到現在各種在線科學交流平臺和工具的興起,這為研究科學交流和科技評價提供了大量豐富的數據,構成了替代計量學研究的基礎[1]。NISO(National Information Standards Organization, 美國國家信息標準化組織)給出替代計量學的定義為,“替代計量學是一個寬泛的概念,囊括了與學術成果相關的一系列多樣化的數字化指標,這些指標來源于學術生態系統乃至公共空間中各種不同利益相關者和學術成果的活動和交互”[2]。

替代計量學研究離不開高質量的替代計量數據[3],影響替代計量數據質量的因素有很多,替代計量數據的動態性、準確性、一致性和可重復性是影響替代計量數據質量的主要因素[4]。為規范替代計量數據的使用,美國信息標準化組織對替代計量數據質量提供了建議性標準,從透明性、可重復性和準確性三個方面進行了規定。在此基礎上,劉曉娟等[5]從生命周期視角下,描述了數據產生、數據收集、數據聚合三個環節下存在的數據質量問題和出現問題的原因。余厚強等[6]則通過對替代計量數據生產流程的梳理,對與數據質量相關的主體要素進行識別,構建了替代計量數據質量評估體系。這些研究為理解和評估替代計量數據質量提供了框架性的指導。

準確性是數據質量的基本維度之一,指的是數據庫記錄下的數據與來源平臺真實的數據相一致的程度。針對替代計量數據庫的數據記錄開展內容分析,將數據庫提供的數據與來源平臺的原始數據進行對比,可識別出潛在的錯誤類型。Zahedi等[7]對Mendeley元數據的準確性研究發現,學術成果的期刊標題、頁碼的錯誤普遍存在。Yu等[8]對政策文件替代計量數據的準確性做了系統測定,識別出政策文件平臺和替代計量數據庫兩個方面的錯誤類型,并計算出了各種錯誤類型的比例。Ortega[9]則對替代計量數據庫中提供的博客和新聞數據做了研究,測定了所提供鏈接的可用性。

可重復性是數據質量的另一個基本維度,指的是針對相同的對象采用相同的方法在多大程度上可以得到相同的結果。由于各個替代計量數據庫具體的數據處理方法無法獲取,相關研究將不同替代計量數據庫的數據進行對比,測度數據庫之間的數據一致性,以評估替代計量數據的可重復性。Zahedi等[10]比較了PLoS、Mendeley和Altmetric三種數據庫的數據,對改進不同替代計量數據服務平臺的數據一致性起到了參考性作用。Ortega等[11]從國家、語言和主題角度比較了Altmetric、CrossRef和PlumX在博客提及和新聞提及數據上的表現,發現Altmetric在地理和語言上做的較好,博客的覆蓋率最高,PlumX收集的新聞媒體尤其是美國的地方報紙更多一些。不同替代計量數據庫提供的替代計量數據之間的差異,可能是訪問社交媒體平臺數據的不同形式造成的,也可能與收集、處理、匯總和更新替代計量數據的不同方式有關[12]。

替代計量數據庫的數據政策,是數據庫獲取、處理、展示數據的根本依據,對指導和保障數據質量起到至關重要的作用。不同替代計量數據庫為保障數據的透明性、可重復性和準確性,分別采取了不同的政策,對不同替代計量數據庫的數據政策進行比較,有助于理解不同替代計量數據庫對相同的數據源在數據處理上的差異,以及這些差異可能對數據質量造成的影響。不同替代計量數據庫數據數值的交叉比較,可以從整體上反映替代計量數據的穩定性,并且發現不同替代計量數據庫在數據質量上的差異,通過結合數據政策進行分析,可以對差異形成的原因進一步解讀,進而幫助學者和研究人員在選取替代計量數據時根據不同的需求選擇合適的數據庫。

因此,本研究分析了目前主流替代計量數據庫的數據政策與數據數值,旨在解決以下兩個研究問題:

a. 從數據質量保障的政策來看,主要的替代計量數據庫存在什么異同?數據質量保障政策包括保障數據透明性的政策,保障數據可重復性的政策和保障數據準確性的政策。

b. 從數據交叉比較的分析角度,不同數據庫對相同數據來源捕捉的數據存在什么異同?針對相同的替代計量數據源,分析不同數據庫之間的替代計量數據差異,并根據這些差異對替代計量數據庫的特征進行分析。

1 數據來源與處理

1.1研究對象的選取目前較為流行的替代計量數據庫有CrossRef、Altmetric.com、PLoS ALM、ImpactStory、PlumX和Kudos,共計6家。對比了這幾個替代計量數據服務平臺的服務范圍、受眾范圍、數據源等基本情況,本研究選取了Altmetric.com、CrossRef和PLOS ALM這3種替代計量數據庫作為比較分析的對象,因為:ImpactStory數據庫中的數據僅對研究者個人開放使用,無法獲取替代計量數據來進行數據庫的分析;只有少數幾家與PlumX合作的機構公開了它們的數據,所以PlumX可以訪問的數據很有限;關于CrossRef、PlumX和Altmetric.com數據庫的數據比較,Ortega等[11]已經進行了較為深入的研究;Kudos與Altmetric.com的數據存在重疊。

上述選取的Altmetric.com、CrossRef和PLOS ALM 3種數據庫,所收集的替代計量數據來源種類并不完全相同。為了進行對比分析,本研究關注至少被其中兩種數據庫收集的替代計量數據來源,結果共有7種數據源,其定義和收集情況如表1所示。

表1 獲取的替代計量數據庫的數據源比較

1.2數據獲取過程針對各數據庫關于數據政策的比較分析,主要通過網絡調研,包括各個數據庫的網站和其他會議資料,收集各個數據庫在數據質量方面采取的措施和制定的政策。

針對各數據來源的數值比較,首先利用自行編寫的Python程序,對CrossRef數據(CED,CrossRef Events Data)2019年12月1日的數據進行獲取,得到了414 132條數據。將這些數據涉及的學術成果DOI提取出來,分別在PLoS ALM數據庫和Altmetric.com數據庫中進行檢索,得到至少被兩個數據庫收錄的學術成果1 600個。對3個數據庫的數據按照DOI進行匹配,兩兩數據庫進行數據對比,由于不同數據庫對于學術成果的收錄范圍、收錄時間的不同,不同數據庫檢索出來的論文數量有一定差異,分別獲得的論文數量如圖1所示。

圖1 三種替代計量數據庫收錄論文重疊情況

1.3數據分析步驟在得到每一項替代計量數據庫的數據項后,分別進行數據庫之間的比較,比較方式有以下兩種:

a.利用不同數據庫之間數據的計數差反映差異。設DOI相同的學術成果為i,i在3個數據庫中某一類型的替代計量數據(如Twitter)的提及量分別為Ci(CrossRef中提及量)、Ai(Altmetric.com提及量)和Pi(PLoS ALM提及量),用k表示兩個數據庫數據的差值,N(k)表示兩個數據庫差值為k的學術成果的總個數。

k=Ci-Ai

(1)

通過對比N(k),來反映不同替代計量數據庫的替代計量數據的差異。

b. 利用計數差的標準差反映不同替代計量數據庫之間的差異。將計數差進行統計分析,標準差可以展現不同替代計量數據庫的差異,較集中的分布表明替代計量數據庫之間數據差異較小,普遍向一個替代計量數據庫傾斜的數據分布則表明,這個數據庫總是比其他數據庫提供更多或更少的替代計量事件。

2 不同替代計量數據庫數據政策的對比分析結果

NISO從透明性、可重復性和準確性三個方面,提出了替代計量數據質量的建議性規范和標準[3],替代計量數據庫服務商分別應對NISO標準做出了回應和調整,建立了相關數據政策,對數據庫的數據處理方式、數據質量的保障方法、數據庫信息等進行公示,這為對比不同替代計量數據庫數據政策,提供了依據和數據支撐。

2.1不同替代計量數據庫保障透明性數據政策的對比分析透明性是指所提供替代計量數據的信息和細節的清晰程度以及完整的文檔記錄,并將這些信息都向所有用戶開放,以便進行驗證。NISO建議數據庫能夠提供以下信息來保障透明度:替代計量數據庫如何生成、收集和管理數據;數據庫如何將數據聚合和生成派生數據;數據庫更新數據的時間和頻率;如何訪問數據;數據庫如何監控數據質量。

為保障替代計量數據的透明性,Altmetric.com、CED和PLoS ALM三個替代計量數據庫都對數據源及其收集方式、更新頻率和監控數據情況進行公開。三個替代計量數據庫的相同點體現在:都公開了生成和管理數據的方式;獲取數據的途徑主要是各個數據平臺的API;提供數據訪問的方式主要是API和可視化操作界面。不同點主要體現在:在數據庫數據更新上,PLoS ALM根據學術成果的發布時間進行更新,而CED和Altmetric.com都是分時段或實時更新;在監控方式上,Altmetric.com采取多種數據監控方式,如設置閾值自動標記可疑活動、人工監控等;在監控數據上,PLoS ALM采用24小時自動監控,并結合人工監控。

2.2不同替代計量數據庫保障可重復性數據政策的對比分析可重復性是指一組數據在數據源和數據收集者之間以及在一段時間內保持一致的程度。NISO建議替代計量數據庫通過以下方式來保障數據的可重復性:隨著時間的推移,數據庫生成所提供的替代計量數據的方式應該是相同的;數據庫應該記錄下收集和處理數據方法的變化及其造成的影響;數據庫對錯誤進行糾正后,數據的變化應該被記錄在案;數據庫同時提供給不同用戶的替代計量數據應該是相同的,如果提供的數據不同,則數據庫應當記錄不同用戶組訪問的差異;替代計量數據庫應該提供關于數據是否可以獨立驗證以及如何獨立驗證的信息。

為保障數據庫的可重復性,Altmetric.com、CED和PLoS ALM 3個替代計量數據庫都對提供的每個類型的替代計量數據進行了說明。a.在數據的生成和處理上,Altmetric.com對于學術成果的替代計量關注度得分的加權算法、原始的計數在學術成果替代計量詳情頁都是公開的;而PLoS ALM由于一些數據源的限制,部分數據只能提供計數,不能獲取數據來源詳情;CED更關注事件本身而不是對數據進行度量,所以不對數據進行計量處理。b.在數據的提供與跟蹤上,Altmetric.com所有替代計量數據都基于相同的數據庫;CED數據庫直接傳遞替代計量事件的數據,而不提供度量標準,所有事件都有時間戳,用于表示它們發生的時間,因此,用于收集事件的程序可以用時間戳進行匹配;PLoS ALM數據庫沒有審計跟蹤數據,對于運行ALM的開源軟件,將可能影響數據的收集方式的變化都予以記錄。

2.3不同替代計量數據庫保障準確性的數據政策對比準確性是指收集到的數據描述的準確程度。NISO建議數據庫確保以下幾點來保障數據的準確性:替代計量數據庫提供的數據和數據庫聲明反映的數據一致;數據庫應當能夠識別和糾正已知的錯誤;替代計量數據庫提供數據的任何限制都被說明。

在保障數據的準確性上,3個數據庫的共同點在于,都定義了不同類型的數據,但是采取了不同的措施:Altmetric.com對數據進行監控,并在學術成果替代計量詳情頁進行解釋;CED為保障數據的準確性,對每個數據源都進行監視,以防服務中斷導致數據源不可用,但是不對數據進行調整,只對新產生的數據標上時間戳;PLoS ALM對新收集數據的數據質量通過每24小時運行一次的自動過程進行監控,并尋找異常值,同時工作人員也對數據進行人工監控。

3 不同替代計量數據庫不同類型數據的交叉比較分析

3.1 Twitter數據的交叉比對分析根據處理后的數據,繪制數據庫之間計數差的直方圖,如圖2所示,其中白色柱狀代表Altmetric/CED,也就是學術成果的Twitter數據在Altmetric.com數據庫和CED數據庫計數差的累計總和。例如,橫坐標為0的白色條形代表在Altmetric和CED兩個數據庫中,Twitter數據的數值相差為0的論文數量的值。

圖2 不同替代計量數據庫中Twitter提及數據分布差異

表2 不同替代計量數據庫Twitter提及數據分布統計參數差異

表2展現了Altmetric、CED、PLoS ALM 3個替代計量數據庫的Twitter替代計量數據分布差異,可以看出Altmetric的Twitter替代計量數據普遍比CED和PLoS ALM兩個數據庫的數據要大,CED與PLoS ALM相差相對較小,但PLoS ALM部分數據的計數比CED要大一些。

3.2 Wikipedia數據的交叉比對分析Wikipedia是目前全球最大的網絡參考工具書。圖3表示Wikipedia替代計量數據的不同數據庫的數據分布差異情況。從圖3中可以發現Altmetric/CED分布在坐標軸0刻度的左側,CED/PLoS ALM分布在坐標軸0刻度右側,因此CED的計數普遍高于Altmetric和PLoS ALM數據庫。

圖3 不同替代計量數據庫中Wikipedia提及數據分布差異

表3 不同替代計量數據庫Wikipedia提及數據分布統計參數差異

表3展現了Altmetric、CED、PLoS ALM 3個替代計量數據庫的Wikipedia替代計量的數據分布參數差異。從表3中可以看出CED的Wikipedia替代計量數據的計數普遍比其他兩個數據庫的數據計數值大,從計數差的平均值來看,CED比Altmetric數據庫的數據平均值要高444.8,CED比PLoS ALM數據庫的平均值高325.2,從標準差來看,CED與其他兩個數據庫的計數差異的標準差分別為1147.1和995.1,標準差普遍偏高進一步證明了CED替代計量數據庫對Wikipedia的引用數據的計數值更高一些。但是值得一提的是,3個數據庫的計數差為0的數據所占百分比都較大,其中Altmetric和PLoS ALM數據庫的Wikipedia替代計量數據一致性更高一些。

3.3 Reddit數據的交叉比對分析Reddit是一個集娛樂、社交和新聞一體的網站,網站上的內容分類包括新聞、電子游戲、電影、音樂、書籍、健身、食物和圖片分享等。Reddit替代計量數據不同數據庫的分布差異如圖4所示,可以看出Altmetric和CED數據庫的差值分布在坐標軸0刻度的兩側,可以把這種差異歸結為誤差所致。而Altmetric/PLoS ALM和 CED/PLoS ALM都在坐標軸0刻度的右側分布多一些,說明Altmetric數據庫和CED數據庫在Reddit替代計量數據上,比PLoS ALM數據庫的計數值都要大一些,而Altmetric數據庫和CED數據庫的數據一致性更強一些。

表4展現了Altmetric、CED、PLoS ALM 3個替代計量數據庫的Reddit替代計量的數據分布差異??梢钥闯鯝ltmetric/CED的Reddit數據的計數差平均值為-0.2,標準差為2.1,其中計數差為0的部分所占總體79.9%。從數據計數差值來看,3個數據庫計數差值都達到80%左右,相比其他替代計量數據源,Reddit的替代計量數據計數上相差比較小,數據的分布一致性較強。

圖4 不同替代計量數據庫中Reddit提及數據分布差異

表4 不同替代計量數據庫Reddit提及數據分布統計參數差異

3.4 F1000數據的交叉比對分析F1000是基于訂閱的文章推薦和文獻發現服務,可幫助讀者篩選每天出版的數千篇有關生物學和醫學的期刊文章。圖5展現了Altmetric、CED、PLoS ALM 3個替代計量數據庫的F1000替代計量的數據分布差異。從圖5可以發現Altmetric/CED、Altmetric/PLoS和ALMCED/PLoS ALM在直方圖的分布上都在坐標軸0刻度的左側,但分布相對較少,這說明CED數據庫在F1000替代計量數據的收集的數據相較于PLoS ALM和Altmetric數據庫更多一些。相比其他替代計量數據源,F1000的替代計量數據計數上相差小,數據的分布一致性強。

圖5 不同替代計量數據庫中F1000提及數據分布差異

表5 不同替代計量數據庫F1000提及數據分布統計參數差異

從表5中可以看出3個數據庫直接的計數差平均值都很小,相差都在0.05及以下,標準差都在0.04及以下,計數差為0的部分所占總體均在97.5%以上,進一步證實數據分布的一致性較強。

3.5 Facebook數據的交叉比對分析Facebook是源于美國的社交網絡服務及社會化媒體網站,是用戶分享生活的主要平臺。圖6和表6展現了Altmetric和PLoS ALM兩個替代計量數據庫的Facebook替代計量的數據分布差異,由于CED數據庫沒有Facebook這一替代計量數據源,只對Altmetric和PLoS ALM數據庫進行分析。

表6 不同替代計量數據庫Facebook提及數據分布統計參數差異

圖6 不同替代計量數據庫中Facebook提及數據分布差異

從圖6中可以看出直方圖的分布上在坐標軸0刻度的兩側,分布較為均勻,從圖中可以看出大于0所占的比例相對大一些。從表6中可以看出,兩個數據庫計數差平均值為-20.2,標準差為189.8,兩個數據庫的數據分布存在一定的差異,兩個替代計量數據庫在Facebook替代計量數據數值差為0占總體的56.1%,計數差小于0占總體的20.4%,Altmetric數據庫比PLoS ALM 數據庫的數值多1的數據占比10.7%。所以Altmetric數據庫與PLoS ALM在Facebook上的數據存在一定差異。

3.6 DataCite數據的交叉比對分析DataCite是一個國際非營利性組織,為研究數據和其他研究輸出提供持久性標識符(DOI)。圖7和表7展現了CED和PLoS ALM兩個替代計量數據庫的DataCite替代計量數據的數據分布差異,由于Altmetric數據庫沒有DataCite這一替代計量數據數據源,只對CED和PLoS ALM數據庫進行DataCite替代計量數據進行分析。

圖7 不同替代計量數據庫中DataCite提及數據分布差異

表7 不同替代計量數據庫DataCite提及數據分布統計參數差異

從圖7中可以明顯地看出直方圖更多的分布在坐標軸0刻度的右側,也就是CED的數據值普遍會比PLoS ALM的要大一些。從表7中可以看出,兩個數據庫計數差平均值為5.5,標準差為100.8,計數差小于0僅占總體的0.1%,計數差為1占總體的0.2%,計數差為2占總體的0.3%,但其平均值5.5相對其他替代計量數據來說,平均值較小,說明兩個數據庫的數據相差不是特別大。

3.7 Wordpress數據的交叉比對分析Wordpress是一個開源的博客軟件和內容管理系統,是目前最流行的博客系統之一。圖8和表8展現了CED和PLoS ALM兩個替代計量數據庫的Wordpress替代計量數據的數據分布差異,因為Altmetric數據庫并不包含Wordpress這一替代計量數據源,所以只對CED和PLoS ALM兩個數據庫的Wordpress的替代計量數據進行分析。

圖8 不同替代計量數據庫中Wordpress提及數據分布差異

表8 不同替代計量數據庫Wordpress提及數據分布統計參數差異

從圖8中可以看出直方圖在坐標軸0刻度兩側的分布比較均勻,可以理解為兩個數據庫的差異更多是由于隨機誤差導致的。從表8中可以看出,兩個數據庫計數差平均值為0.1,標準差為2.6,計數差小于0占總體的4.3%,計數差為0的數據占總體的91.0%。就平均值而言,相對其他替代計量數據數值小得多,一方面是本身替代計量數據為0的數量比較多,另一方面是在Wordpress這一平臺上被討論的學術成果相對偏少,但總的來說Wordpress這一替代計量數據源在CED和PLoS ALM替代計量數據庫中的差異較小。

4 結 論

雖然理論上來說,不同替代計量數據庫應該提供一致的替代計量數據,但是由于替代計量數據本身的多源性,目前還沒有一家替代計量數據庫能夠涵蓋所有來源的數據。不同的替代計量數據庫在發展的過程中,都形成了自己特色的數據源,并且基于各自的愿景和目標,制定了不盡相同的數據政策。這些數據政策對數據數值有直接的影響,使得在某些替代計量數據上呈現出顯著差異。

本文通過對不同替代計量數據庫的數據政策和數據數值進行對比,揭示了不同替代計量數據庫數據的特征,主要得出以下結論:

4.1 不同替代計量數據庫在保障數據透明性、可重復性和準確性方面的政策不盡相同,并且各有特色

a.Altmetric.com對提供的每個替代計量數據都進行了清晰定義,對于學術成果的替代計量關注度得分的加權算法也進行了公布,原始的計數在學術成果替代計量詳情頁也可以看到,同時Altmetric.com也將不同數據源的采集方式公布。

b.CED的數據是通過從非學術來源進行收集以及允許學術來源發送數據。與其他替代計量數據庫相比,CED更關注事件本身而不是對數據進行度量,CED對每項替代計量數據數據的來源以及采集方式進行了說明,同時CED對每個事件都打上時間戳,所有的事件都會與這一時間戳匹配,所有數據都將有一個開放的API。

c.PLoS ALM將所有數據源的供應商進行了公示,由于一些數據源的限制,部分數據只能提供計數,對于不同的數據源,PLoS ALM收集數據的時間間隔也不一樣,在論文發表的第一個月每天收集,在論文發表的一年內,每周收集,一年后,每個月收集一次。

4.2不同替代計量數據庫的數據存在顯著差異一是不同數據庫追蹤的替代計量數據源不同,二是不同數據庫在同一數據源上的數值也存在一定的差異。其中,在數據數值的比較上,對至少被兩種數據庫收錄的7種替代計量數據做了交叉對比,得到了具體的結論如下:

a.Twitter數據方面,Altmetric數據庫的Twitter數據計數值比CED和PLoS ALM替代計量數據庫高。這可能是因為計數方式上的差異,Altmetric數據庫在獲取Twitter數據時將轉發也進行計數。

b.Wikipedia數據方面,CED所提取Wikipedia的數據最為廣泛。3個替代計量數據庫搜集Wikipedia頁面的范圍不同,Altmetric數據庫只收集英文Wikipedia數據,PLoS ALM只收集世界上最受歡迎的20個維基百科網站的維基百科頁面數。

c.Facebook數據方面,PLoS ALM的數據數值要大于Altmetric。這可能是因為Altmetric數據庫只獲取公開的Facebook數據,而PLoS ALM涉及私密的Facebook帖子。

d.Reddit、F1000、DataCite和Wordpress數據方面,三個數據庫的數據一致性較強,隨機誤差導致的數據分布差異較小。

猜你喜歡
數據源計數計量
計量檢定在食品行業中的重要性
古人計數
CPMF-I 取樣式多相流分離計量裝置
遞歸計數的六種方式
古代的計數方法
古代的人們是如何計數的?
利用屬性集相關性與源誤差的多真值發現方法研究
Web 大數據系統數據源選擇*
計量自動化在線損異常中的應用
數據有增加 圖表自適應
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合