?

未入圍學術機構ESI被引次數推算方法研究
——基于WOS平臺引文分析功能

2020-04-09 03:17楊紅梅王正為
圖書館學刊 2020年2期
關鍵詞:工程學比值檢索

楊紅梅 王正為

(北方工業大學圖書館,北京 100144)

2015年10 月,國務院印發《統籌推進世界一流大學和一流學科建設總體方案》,將建設一流大學和一流學科擺在重要的戰略位置。方案中提出了以一流為目標、以學科為基礎、以績效為杠桿、以改革為動力的建設原則[1]。在此背景下,利用權威的科研績效評價工具,了解學科在世界所處位置以及學科發展趨勢,對于高校培育優勢學科有著重要意義。

ESI(Essential Science Indicators,基本科學指標)[2]是科睿唯安(原湯森路透知識產權與科技事業部)推出的一個衡量科學研究績效、跟蹤學科發展趨勢的分析評價工具。國際上普遍認為進入ESI 前1%的學科屬于世界領先學科[3]。近年來國內各級教育主管部門也已將ESI 作為衡量高校學科發展的重要指標,如我國教育部學位與研究生教育發展中心在第四輪學科評估中把各高校進入ESI全球前1%學科數、ESI高被引論文數作為重要指標[4];教育部、財政部在“高等學校創新能力提升計劃”實施方案中提出,申報面向科學前沿的協同創新中心,“牽頭高校以及主要參與高校,依托的主體學科原則上應進入ESI學科排名前1%”[5]。這都顯示了國內教育主管部門對ESI 學科評價的認可。在此背景下,各高校也紛紛將ESI學科建設列入事關學校發展的重大事項,力爭使更多學科入圍ESI全球前1%甚至前1‰,以此推進學科步入國際先進水平[6]。

利用 ESI、InCites[7]、WOS[8]數據庫對有可能入圍ESI前1%的學科進行預測,是圖書館服務ESI學科建設的重要內容之一,在為學校的學科發展規劃和政策制定提供支持的同時,也能有效提升自身在學校的地位和影響力,因而越來越受到圖書館界的關注。ESI 以“被引次數”排名作為判斷機構入圍的唯一標準,被引次數這一指標也就成為在潛力學科識別以及入圍時間預測分析中最直觀和最重要的指標。由于ESI只公布學科排名前1%的機構的統計數據,尚未進入ESI的機構無法直接獲取其被計入ESI 學科的被引次數以及在ESI 中排名的具體位置,已有研究往往是在WOS或在In-Cites數據庫中模擬ESI檢索,得到機構模擬ESI的被引次數CWI據此來推斷該機構在ESI中的被引次數CESI。一般有兩類推斷方法:第一類是直接用CWI代替CESI,如管翠中[9]等運用曲線擬合模型預測法對清華大學藥學與毒理學學科入圍時間進行預測時,采用的就是這種方法;第二類方法是針對某一學科,選取若干家入圍機構為樣本,計算出樣本機構在ESI 中的被引次數與模擬ESI 檢索出的被引次數的比值,取其平均值作為誤差修正因子,然后對于未入圍機構,令即可。如程建萍[10]等針對22個ESI學科,選取各學科入圍機構中被引次數最低的100家機構作為樣本,計算相應的誤差修正因子,并針對9所大陸高校的計算機學科進行了實證分析,推測其未來入圍的可能性;王雪[11]引入了被引轉換比值,即樣本機構在WOS中模擬ESI 檢索的被引次數與ESI 中的被引次數比值的平均值,利用生物與生物化學學科的被引轉換比值,將南京工業大學、北京化工大學的生物與生物化學學科在WOS平臺模擬ESI檢索的被引次數轉換為ESI的被引次數,并在此基礎上對以上機構入圍時間進行了預測,該方法與文獻[10]的原理相同。第一類方法有效的前提條件是,即yi≈1,這是顯而易見的;第二類方法有效的前提條件是所討論的學科中各機構的被引次數比值yi差別不大,其平均值具有較好的整體代表性。

對于機構被引次數的比值yi遠小于1,且各機構之間的yi差異較大,即平均值的代表性較差的學科,情況如何呢?筆者對ESI 工程學已入圍機構的數據進行觀測,發現工程學即是屬于這種情況,不同機構在兩個數據庫中的被引數據以及排名數據的差異性表現不盡相同。以2018年11 月入圍ESI 工程學的機構為例,排名在1393和1394 的兩家機構,其在ESI 中的被引次數分別為 2374 和 2372,在 InCites 中排名分別為 1139 和1507,被引次數分別為3904 和2522,兩家機構在ESI中的排名僅相差1名,被引次數僅相差2次,但是在InCites 中的排名以及被引次數卻相去甚遠,且此種現象并非個別現象。分別計算入圍的末50家機構在ESI 中的被引次數與在InCites 中的被引次數比值,發現比值數據未集中在工程學的誤差修正因子0.829 附近,而是分散在0.61-0.97 之間。連續追蹤多期數據,得到相似的結果??梢酝茢辔慈雵鷻C構的該比值數據也會在這一較大的范圍內波動。因此,在推斷未入圍機構ESI 被引次數時,需要考慮各機構的特殊性,而不是僅僅用平均值yi作為誤差修正因子乘以CWI。

筆者的創新之處在于利用WOS平臺的引文分析功能,引入反映施引文獻來源特點的“施引文獻量比值”這一可觀測特征變量來推斷未入圍機構在ESI 中的被引次數。文章主要包括三部分內容。第一部分是方案設計,闡述基于WOS 平臺引文分析功能推斷未入圍機構ESI 被引次數的思路。第二部分是實證研究,以ESI 工程學學科為例,利用線性回歸方法推演ESI 被引次數計算公式。第三部分是針對具體未入圍機構的應用舉例。

1 方案設計

無論是在InCites 還是在WOS 數據庫中模擬ESI 檢索,引用數據均來自WOS 七大核心合集,而其中只有來自SCI/SSCI/A&HCI 數據庫(以下簡稱三庫)的引用才會被計入ESI被引次數的統計。由于檢索功能的限制,無法將不屬于ESI統計范圍的被引次數去除,這是模擬ESI檢索時被引次數偏差的主要來源。對于工程學、計算機科學等學科,由于會議論文較多,被引數據來自于CPCI 也相對較多,從學科整體情況來看,模擬檢索的被引次數虛高現象更為突出。本方案以ESI 工程學為研究對象,嘗試通過WOS 數據庫平臺上強大的引文分析功能來找到問題的解決方案。

在WOS 中模擬ESI 檢索,采用的是“機構擴展+期刊名/ISSN 號”的策略,考慮到ESI 工程學的期刊有800余種[12],且綜合交叉性期刊還未考慮在內,檢索式不易編輯。而在InCites 中模擬ESI 檢索,無需構建復雜的檢索式,只要通過對檢索條件進行限定即可完成。因此本研究首先在InCites中模擬ESI 檢索,再將檢索出的論文導入到WOS 平臺上進行引文分析。機構論文在導入WOS 之后,通過引文分析報告可以觀測到論文集合的施引文獻,對施引文獻按照其來源做進一步精煉,即可獲得來自三庫的施引文獻,令,其中“總施引文獻量”是指來自WOS七大核心合集的施引文獻總量,“三庫施引文獻量”是指來自SCI/SSCI/A&HCI數據庫的施引文獻量。

對于同屬于一個ESI學科,作者來自于同一個機構的論文集合,其中不乏有主題相關的論文,它們很可能同時被引用,即成為同被引文獻。從施引文獻的角度來說,一篇施引文獻有可能貢獻了兩次及以上的被引次數,因而施引文獻量并不等同于被引次數。施引文獻既可能來自三庫,也可能來自WOS 核心合集中其它數據庫,施引文獻對被引次數的貢獻度主要與機構論文集合的主題相關度有關,而與其所來源的數據庫關系不大。因此,對于機構來說,來自三庫和來自WOS七大核心合集的施引文獻量比值x與被引次數比值y高度相關。

針對ESI 工程學學科,選取若干家入圍ESI 前1%的機構作為樣本,采集樣本機構的施引文獻量和被引次數數據,運用回歸方法考察施引文獻量比值x與被引次數比值y之間的關系,據此根據未入圍機構的施引文獻量比值x推斷其被引次數比值y,進而得到未入圍機構的ESI被引次數。

2 實證研究

2.1 數據采集

考慮到排名末位的機構與未入圍機構的情況相對接近,筆者選取2018 年11 月入圍ESI 工程學前1%的機構中被引次數最低的50 家機構作為訓練樣本,用以擬合線性回歸模型;綜合考慮被引次數與機構性質(盡量為中國高校)這兩個因素,選擇另外15 家入圍機構作為檢驗樣本,用以檢驗模型的應用效果。

2.1.1 ESI被引次數與InCites被引次數

ESI統計的數據范圍是近10到11年內的WOS數據,每兩個月更新一次,每次更新增加兩個月數據;InCites 統計的 WOS 數據是從 1980 年開始,到目前已累積有近40年的數據,每月更新一次,每次更新增加一個月數據?;谝陨显?,即便在In-Cites 中按照ESI 當前的數據年限設定檢索時間跨度,也可能因兩個數據庫涵蓋的WOS 數據范圍的不同,導致模擬檢出的論文數與ESI真實值之間的差異。因此要特別注意兩個數據庫幫助文檔中關于所涵蓋的WOS數據時間范圍的提示[13-14],選擇合適的模擬檢索時間。

以本文的數據采集為例,在2018 年11 月初,InCites 更新,涵蓋的 WOS 數據范圍到 2018 年 8 月31 日,而此時的 ESI 還是 2018 年第 5 期的數據,涵蓋WOS的數據范圍到2018年6月30日,在InCites中檢索時按照ESI的年代范圍限定檢索時間跨度:2008—2018,檢索結果也比ESI 多出了兩個月的WOS 數據。而在 2018 年 11 月中下旬,在 ESI 更新到第6 期數據,而InCites 還尚未更新時,兩個數據庫涵蓋的WOS數據都截至2018年8月31日,所以應該選擇此時在InCites 中模擬ESI 檢索并采集數據。

盡管模擬檢索時已盡可能接近ESI 的真實情形(檢索時間跨度:2008—2018,文獻類型限定為article 與review,研究領域選擇ESI 學科分類體系下的工程學),但是由于兩個數據庫由不同的部門開發,在數據統計上存在差異,模擬檢索出的機構論文數與ESI 真實值依然會有不一致的情況。如果機構在兩個數據庫中論文數差別過大,應將其作為異常數據去除,補充新的機構數據。記錄最終選取的65家樣本機構在InCites 中模擬ESI檢索出的被引次數以及在ESI 中的被引次數。因篇幅所限,僅列出其中20家訓練樣本機構的數據(見表1)和全部15家檢驗樣本機構的數據(見表2),機構名稱采用InCites 幫助文檔[14]中提供的機構縮寫形式。

2.1.2 總施引文獻量與三庫施引文獻量

以某機構為例,將模擬ESI檢索得到的機構論文從InCites 中導出,利用論文的入藏號在WOS 中檢索,由檢索結果頁面上的“創建引文報告”鏈接轉至引文報告頁面,查看綜合引文統計(如圖1 所示),其中2900即為本例中機構論文集合的總施引文獻量。

圖1 綜合引文統計

在圖1 中,雖然有總被引頻次的統計(3406),卻無從獲得究竟有多少被引次數來自于三庫。但是可以對施引文獻做進一步的分析:點擊圖1中“施引文獻”鏈接,在“精煉檢索結果”面板的多個精煉選項中選擇Web of Science 索引,進而選中三庫的復選框進行精煉(見圖2),運行的結果數為2454 篇(自動去重),即是本例中三庫施引文獻量。

圖2 精煉施引文獻

依此方法分別獲取65家機構的施引文獻量數據,部分訓練樣本機構的數據見表1,檢驗樣本機構的數據見后面的表2。

表1 部分訓練樣本機構的統計數據

續表1

由于WOS 平臺上的數據是每天更新的,圖1中的引文數據已不再是樣本機構在InCites中檢索時截至到2018年8月31日的WOS數據,而是隨著WOS 平臺更新到了數據導入時的2018 年11 月。筆者在不同時間將同一家機構的論文導入WOS平臺進行分析,發現盡管被引次數、總施引文獻量隨著時間的推移有所增加,但是三庫施引文獻量與總施引文獻量的比值,即x值變化不大,間隔時間越短,差別越小,因此可以將x值看作是反映機構在某一時間段內ESI 論文的施引文獻來源特點的指標。

2.2 ESI被引次數推算

利用50 家訓練樣本機構的兩組比值數據(x,y)作散點圖,見圖3。

圖3 (x,y)散點圖

從散點圖可以看出,樣本點基本都在一條直線附近,說明二者之間可能存在較強的線性關系。進一步擬合線性回歸方程如下:

擬合度R2=0.940。修正的R2=0.939。這說明線性回歸方程對比值數據(x,y)擬合得很好。另外,根據回歸系數顯著性檢驗,對x前面系數進行t檢驗的 p 值為 2e-16,接近于 0,說明x對y的線性影響非常顯著。

根據未入圍機構的施引文獻量比值x,代入線性回歸方程(1)式即得到被引次數比值,y的估計值。于是,

圖4為本方法流程圖。

圖4 推算ESI被引次數方法流程圖

2.3 被引次數誤差率比較

為考察本文所提出的方法的有效性,針對15家入圍機構所組成的檢驗樣本,由公式(2)推算出各機構ESI被引次數,再采用文獻[9]的方法。

表2 用于檢驗的樣本機構被引次數誤差率比較

(InCites被引次數乘以ESI工程學誤差修正因子0.829),得到各機構均值修正法的ESI 被引次數,最后利用公式(3)分別計算兩種方法推測出的各機構被引次數的誤差率,并進行分析比較(相關數據見表2)。

本方法的誤差率平均值為1.87%,且由表2可見,各機構誤差率均不超過5%。而基于均值修正法的誤差率平均值為9.02%,且有5家機構的誤差率超過10%。由此可見筆者所提出的方法因引入了施引文獻量比值這一機構特征變量,亦即考慮到了機構間的差異性,從而使得推測出的ESI被引次數誤差率明顯減小。

3 應用舉例

以北方工業大學ESI 工程學為例,推算其在ESI 中的被引次數。于2018 年11 月中下旬,在In-Cites數據庫中模擬ESI檢索,檢出該機構工程學論文 279 篇,被引次數 2613 次,利用 279 篇論文的WOS入藏號在WOS數據庫中檢索,查看論文集合的引文報告。引文統計結果顯示施引文獻2263篇,進一步精煉結果,得到來自三庫的施引文獻1589 篇。利用公式(2)由InCites 中的被引次數推算出機構在ESI中的被引次數為1908。與本期In-Cites 數據相對應的ESI 工程學機構閾值為2370,該機構在InCites中模擬檢索的被引次數達到閾值的110%(=2613/2370),經本方法推算出的被引次數僅為閾值的80%(=1908/2370)。單純某一期的數據不能說明問題,需要連續跟蹤機構的被引數據以及與之對應的機構閾值數據,采用一定的數據分析方法來判斷其未來入圍的可能性以及預測入圍時間,筆者對此不再展開討論。

4 結語

對潛力學科的識別以及對潛力學科入圍ESI時間的預測分析是為滿足高校決策的實際需求而提出的研究主題,有助于高校制定科學合理的學科發展規劃,優化資源配置,聚焦工作重心,從而實現優勢學科的重點突破[15]。

模擬ESI 檢索得到的機構論文被引次數存在“水分”,不將這一水分去除會直接影響到機構入圍ESI 預測分析的準確性。三庫施引文獻量與總施引文獻量的比值x可以被看作是度量機構被引次數“水分”的個性化指標(比值越小,水分越大)。以此為基礎而非以入圍樣本機構的平均表現為基礎的被引次數推算方法,更具針對性地將模擬檢索出的被引次數水分去除,有效減少模擬檢索產生的偏差,從而提高預測入圍分析的準確性,且可操作性和普適性強,計算方法亦并不復雜,希望能為同行在進行機構入圍ESI預測分析時提供參考。

猜你喜歡
工程學比值檢索
瑞典專利數據庫的檢索技巧
在IEEE 數據庫中檢索的一點經驗
一種基于Python的音樂檢索方法的研究
也談極值點偏移問題破解策略
Excel在學科服務中的應用
“人機(體)工程學”教改新方案探究
物理中的比值定義法
平均功率與瞬時功率的比較與應用
材料模擬軟件在固體物理教學中的應用
大男孩的超級玩具
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合