?

基于論文作者署名位置的廣義“陪護人效應”檢測

2021-06-19 06:46田文燦王賢文許小可
電子科技大學學報 2021年3期
關鍵詞:醫學期刊通訊比例

柳 娟,許 爽,田文燦,王賢文,許小可*

(1.大連民族大學信息與通信工程學院 遼寧大連116600;2.大連理工大學科學學與科技管理研究所暨WISE實驗室 遼寧大連 116024)

近年來,隨著科學研究的迅速發展以及數據分析技術的廣泛應用,基于數據驅動的科學家合作信息挖掘成為科學學領域的重要研究方向[1-2]??茖W家合作是科研活動組織與科學信息傳播的基礎,可推動科研工作的交流與創新,對知識的創造和傳播具有重要意義,因此受到科研學者的廣泛關注[3-5]。學術論文是科研成果的重要展示形式之一,科學家合作最直接的表現形式就是合作發表論文。關于學術論文的發表,大家經常會提出這樣一個問題:“如果以前從未在著名期刊上發表過文章,那么在該期刊上發表文章時是否需要已經在該期刊上發表過論文的知名作者提供幫助呢?”針對此問題,近期PNAS中的一項研究將最后作者作為文章的最重要作者,研究了在同一期刊中沒有經驗的科學家如何在期刊上發表論文。研究表明如果科學家在頂級期刊上以普通作者的身份參與過論文的發表,由于在論文發表過程中有重要作者的陪護,那么該科學家今后在該期刊上以重要作者身份發表論文的可能性就越大,稱為“陪護人效應”[6]。該效應強調了科學家在職業生涯初期的論文發表經驗對其后來發表高水平論文的重要性。相反,如果科學家從未以任何身份在某個期刊上發表過論文,那么這位科學家以重要作者的身份在該期刊上發表論文的可能性較低。

陪護人原本指陪同年輕人出席社交場合的監護人,在科學家合作中是指曾經在著名期刊上發表過論文的導師,他們在科研工作中發揮重要的指導作用,可以為年輕科學家發表高水平論文帶來優勢。即科學家發表論文往往是有一個學術“陪護”過程,第一次在高水平期刊上發表論文的科學家往往都需要“大?!睂煹摹芭阕o”,而這些“大?!睂熆赡芤呀浽谶@些期刊上發表過多篇文章,對相關研究和期刊審稿等各個過程比較熟悉??偟膩碚f,PNAS中“陪護人效應”的主要研究對象是文章作者署名中最重要的作者,該文中指的是排名最后的作者,他們對第一次在頂級期刊上發表文章的“配角”作者有重要的指導作用。因此,定義文章的重要作者是對“陪護人效應”進行檢測的前提條件。

在實際的科學研究過程中,一些影響力較大的科研成果一般是由團隊共同完成的[7-10],因此一些權威的學術文章通常也是由多個作者共同撰寫的。與單一作者的論文相比,多個作者合著論文的比例一直在增長,文獻[11]最早關注到多作者合作發文增多的現象,并提出成果中應該描述團隊中參與者各自承擔的工作和他們之間的關系,這樣有助于明確作者角色及貢獻。由于一些重要作者往往在多作者合著論文的撰寫和發表過程中起著關鍵作用,因此識別該類作者具有重要意義[12-13]。

在多個作者合著的文章中,論文作者的署名順序為作者在項目中所作的貢獻提供重要信息,而占據不同署名位置的作者扮演著不同的角色[14-16]。如在生物和物理科學領域中,論文的第一作者往往是該項目的主要執行者;最后作者一般是項目的指導者,負責指導項目的實施、構建論文的寫作框架以及與期刊編輯聯系等工作;而處于第一作者和最后作者之間的中間作者通常負責一些數據支持或數據分析等工作[17-18]。同時,在科技期刊中標注通訊作者已經變得越來越普遍,如《材料研究學報》、《科技通報(英文版)》和《力學學報》等,通常認為文章的通訊作者是課題的總負責人,負責指導課題及論文投稿等方面的工作,是合著作者中較權威的作者[19-21]。由此可見,學術論文中的重要作者并不相同,其可能是文章的第一作者、最后作者或通訊作者。根據大多數期刊都要求標記通訊作者的情況,本文將通訊作者當作文章最重要作者,為研究不同署名位置作者與通訊作者的差異性以及對差異性進行解釋提供依據。

本文研究了Web of Science上6本著名期刊在1984?2019年間發表的近10萬篇論文,涉及自然科學和醫學科學等領域。首先,探究了不同署名位置作者與通訊作者之間是否存在差異性。然后將處于不同署名位置的第一作者、最后作者、通訊作者、倒數第二作者、第二作者和第三作者假設為文章的重要作者(principal investigator,PI),并將PI分成3類:新PI、有經驗PI和資深PI,通過對比6種位置作者的3類PI比例隨時間變化的趨勢來對“陪護人效應”進行檢測。最后,計算了不同署名位置作者與通訊作者之間的相似性系數,對他們與通訊作者之間的差異性進行解釋。本研究將有助于理解不同署名位置作者的角色和貢獻的差異性,也將進一步加深對學術論文發表過程的認識。

1 數據說明

1.1 數據來源

本文實驗利用了Web of Science中6本著名期刊數據,包括《科學》、《自然》、《新英格蘭醫學雜志》、《柳葉刀》、《美國醫學會雜志》和《英國醫學期刊》?!蹲匀弧泛汀犊茖W》屬于世界最權威的綜合類學術期刊,涵蓋科學研究的各個學科領域,如生命科學、自然科學和物理化學等領域。其余4本期刊是頂級的醫學領域期刊。6本期刊涉及不同學科領域,可使實驗結果具有普適性。其中,《自然》包含了1998?2018年的全部數據,《科學》和其他4本醫學期刊則包含了1984?2019年的全部數據。對于每一篇論文,數據集包含了發表時間、文章類型、文章作者及署名順序、作者所屬機構和文章通訊作者等字段信息。在這些期刊中設有各種不同的欄目,考慮到科學家合作主要是在研究性學術論文中進行的,因此僅考慮Article和Review這2種文獻類型。由于實驗數據不存在共同第一作者的情況,并且共同通訊作者的文章占比較少,在《自然》和《科學》中共同通訊作者的文章占比0.046,而4本醫學期刊中共同通訊作者的文章僅占比0.003,綜上本文將不考慮共同第一作者和共同通訊作者的情況。

1.2 數據預處理

由于原始數據存在冗余信息較多、數據格式不統一和姓名歧義等問題,因此在研究之前需要對原始數據進行數據預處理,提取研究所需的字段信息,包括發表時間、作者及通訊作者等信息。數據預處理包括作者姓名消歧[22-23]和期刊合并兩個過程。

1)姓名消歧。由于數據中作者的姓名由姓氏全稱加上名字首字母縮寫構成,這樣就會存在不同作者的姓名相同的情況,于是本文對姓名進行了消歧處理,判斷兩篇文章中同名作者是否為同一人。消歧的原則為:當兩篇文章存在姓名相同的作者時,如果在兩篇文章中該作者存在相同的合著者,那么為同一作者,否則為不同作者。

2)期刊合并。在發表高影響力科學成果時,經驗往往起著至關重要的作用,這一點在頂級期刊論文上表現尤為明顯。如果一位科學家在《自然》上發表過文章,那么在同級別期刊《科學》上發表文章的可能性就很大。同一類別的頂級期刊往往有多本,如《自然》和《科學》都屬于同級別綜合類期刊,而《新英格蘭醫學雜志》、《柳葉刀》、《美國醫學會雜志》和《英國醫學期刊》也是同級別醫學類期刊,這樣作者投稿這兩大類期刊時不確定具體會投稿哪個期刊。即可認為作者向《自然》投稿與向《科學》投稿的可能性基本相同。如果只在每類期刊中選擇一種期刊單獨進行實驗,那么數據量偏少而且無法充分考慮作者的論文發表情況。如果將同類期刊的多本期刊合并,那么在數據量增加的同時也會使實驗結果更加穩定。因此本文在進行研究時,將《自然》和《科學》合并成一類期刊,將《新英格蘭醫學雜志》、《柳葉刀》、《美國醫學會雜志》和《英國醫學期刊》4本頂級醫學期刊合并成一類,這樣就產生兩組文章數分別約為5萬的論文數據集,利用這兩大類期刊的論文數據檢測“陪護人效應”。

2 基于不同署名位置的“陪護人效應”檢測

2.1 不同署名位置作者擔任通訊作者的差異性

研究中將1篇論文的作者劃分成3類:第一作者、最后作者和中間作者。中間作者是指該篇文章署名中位于第一作者和最后作者之間的作者,那么很明顯兩個作者的文章不存在中間作者。由于在單一作者的文章中,第一作者也是最后作者,并且不存在中間作者,所以3類作者之間明顯不存在交集。綜合以上因素,此處僅考慮作者數大于2的文章。根據文章的作者數分別統計了第一作者是通訊作者、最后作者是通訊作者和中間作者是通訊作者的比例,結果如圖1所示,縱坐標表示3類作者是通訊作者的比例,橫坐標表示文章的作者數,可以看出《自然》和《科學》與4本醫學期刊的結果有一定的差異性。

圖1 作者數與通訊作者比例關系曲線

在《自然》和《科學》中,第一作者是通訊作者的比例曲線由最初的比例最大緩慢下降至第二位,曲線呈下降后又慢慢上升的趨勢。中間作者是通訊作者的比例曲線則整體呈上升趨勢,這可能與中間作者的數量逐漸變多、因此通訊作者分布在中間位置的可能性變大有關。而最后作者是通訊作者的比例曲線由最初的第二位逐漸升至第一位,超過了第一作者是通訊作者的比例,曲線整體呈上升后又慢慢下降的趨勢,該曲線比例最大約為0.56,說明在《自然》和《科學》中,最后作者和通訊作者之間的關聯性較大。當文章的作者數大于25以后,3種情況的比例已基本相同,說明此時通訊作者可能分布在文章作者署名順序的第一位置、最后位置和中間位置,并且分布在3個位置的可能性基本相近。

與《自然》和《科學》結果不同,在4本醫學期刊中,第一作者是通訊作者的比例最大,即使隨著作者數的增多,該曲線呈下降趨勢,而另外兩條曲線呈上升趨勢,但是第一作者是通訊作者的比例仍然高于其他兩種情況,該曲線比例最低也達到了0.6左右,而最后作者是通訊作者的比例則遠小于第一作者是通訊作者的比例,比例最大也未超過0.3,中間作者是通訊作者的比例則最小。說明在醫學期刊中,最后作者和中間作者擔任通訊作者的可能性較小,而第一作者和通訊作者之間則存在較大的聯系,三者在論文中的角色并不一致。

通過上述分析得知,隨著作者數不同,3類作者是通訊作者的比例會發生變化,并且這兩類期刊的結果存在一定的差異性。隨著時間推移,3類作者是通訊作者的比例也有變化,如圖2所示。在《自然》和《科學》這兩本期刊中,隨著時間推移,第一作者是通訊作者的比例曲線由最高下降至最低,中間作者是通訊作者的比例曲線由最低緩慢上升,而最后作者是通訊作者的比例曲線由第二位上升至比例最高,最大比例約為0.54,說明最后作者與通訊作者之間的重疊性相比于另外兩類作者要高。在4本醫學期刊中,最后作者是通訊作者的比例曲線雖然有一定程度的上升,但是仍遠小于第一作者是通訊作者的比例,該曲線比例最大僅為0.25左右;中間作者是通訊作者的比例最小,未超過0.1。醫學期刊中最后作者和中間作者擔任通訊作者的比例較小,而第一作者是通訊作者的比例最大,該比例最小也大于60%,說明第一作者和通訊作者之間的關聯性較大。

基于圖1和圖2中兩類期刊的3曲線,可發現無論是隨著文章作者數量還是時間變化,兩類期刊的結果均存在明顯的差異性。在《自然》和《科學》中,最后作者是通訊作者的比例占了一半以上,約為0.55左右。說明在該類綜合性期刊中,最后作者與通訊作者之間存在很強的重疊性,而第一作者、中間作者與通訊作者的重疊性不高。但是在4本醫學期刊中,第一作者和通訊作者之間存在較強重疊性,而最后作者和中間作者一般較少擔任通訊作者,最后作者是通訊作者的比例遠小于第一作者是通訊作者的比例,該比例最大也未超過0.3。綜合兩類期刊來看,第一作者、最后作者是文章通訊作者的概率較大,但是中間作者是通訊作者的可能性較小。

圖2 時間與通訊作者比例關系曲線

2.2 廣義的“陪護人效應”檢測

在PNAS的文章中,研究者基于最后作者是文章最重要作者(PI)的假設,發現了“陪護人效應”的存在[6]。研究中將重要作者(PI)主要分成了3類[6]:1)新PI指的是以前從未以任何作者身份在特定期刊上發表過文章的作者;2)有經驗PI指的是以前只以普通作者的身份(非最后作者)在特定期刊上發表過文章,但從未當過重要作者(PI)的作者;3) 資深PI指的是以前以重要作者身份(最后作者)在特定期刊上發表過文章的作者。

根據這3類定義可知,任何文章中的重要作者只能歸于這3類中的一類。如2000年A在《自然》上首次以重要作者(最后作者)發表文章,但是2000年以前他從未以任何身份在《自然》上發表過文章,那么A將被歸類為2000年在《自然》上的新PI。2006年,A再次以重要作者(最后作者)的身份在《自然》上發表文章,那么由于2000年他已經以重要作者(最后作者)的身份在《自然》上發表過文章,于是在2006年他將被歸類為《自然》上的資深PI。同時,如果B是這篇2006年文章的另外3個普通合著者之一(非最后作者),如果2008年B以重要作者(最后作者)身份在《自然》上發表文章,那么B將被歸類為2008年在《自然》上的有經驗PI。

PNAS文章中將最后作者作為論文的PI,分析了以上3類PI隨時間的變化趨勢,研究發現:如果一名科學家在事業早期沒發過《自然》之類的頂級期刊,那么該科學家在成為PI后的論文也更難登上同樣的期刊。這一趨勢在多學科期刊最為顯著,隨后依次是生物學、醫學、化學、物理等學科。需要注意的是,不同學術領域中文章的重要作者可能并不相同,可能是文章的第一作者、最后作者,也可能是文章的中間作者。本文已經在兩大類期刊中分別繪制了隨著作者數和時間的變化,最后作者、第一作者和中間作者擔任通訊作者的比例曲線。本文發現在《自然》和《科學》這樣綜合類期刊中,最后作者和通訊作者存在強重疊性;但是在4本頂級醫學期刊中,第一作者和通訊作者之間存在最強重疊性?;谶@些結果,本文嘗試基于不同署名位置的作者角色對廣義的“陪護人效應”進行檢測,檢測是否處于任何署名位置的作者都具有該效應,而不只有最后作者具有該效應。

在PNAS論文中也檢測了“陪護人效應”隨著時間的變化情況,發現《自然》雜志從1990?2012年,由那些以其他身份發過論文的科學家擔任末位作者的論文從16%增長到22%,而初次在《自然》雜志中以末位作者發布的論文比例從39%逐步下降到31%。盡管這種時變特性非常有意義,但是作者們在研究中沒有對數據進行加時間窗處理。當不加時間窗進行限制時,隨著時間的演化在一本期刊上發表的論文越來越多,在該期刊已發表過文章的作者數量將越來越多,而新作者數很自然將會越來越少,這樣有可能會導致實驗結果不準確。

為了排除以上因素的影響,本文對實驗進行了加時間窗處理,并與不添加時間窗的結果對比,以便準確地探究“陪護人效應”隨著時間的變化情況。為了選擇合適的時間窗長度,本文首先繪制了論文作者的生存曲線,選擇至少發表兩篇文章的作者,計算作者的發文時間間隔。如果作者在期刊上發表的第一篇文章的時間為t1,發表的第i篇文章的時間為ti,最后發表的一篇文章的時間為tend,那么該作者的發文時間間隔為tend?t1,根據此規則統計所有作者發文時間間隔所占的比例。結果如圖3所示,結合兩類期刊的作者生存曲線可以看出,當發文時間間隔大于15年時所占的比例基本小于0.02,因此可認為作者在兩類期刊上的生存時間約為15年,本研究中選擇時間窗長度為15年。于是將選擇兩種實驗條件進檢測,分別是加時間窗和不加時間窗,以驗證不同條件下的實驗結果是否存在差異。

圖3 生存曲線方面的描述

2.3 不同署名位置的“陪護人效應”檢測

在“陪護人效應”的檢測實驗中,本文將假設通訊作者、第一作者、最后作者和中間作者(分別為第二作者、第三作者和倒數第二作者)作為文章的重要作者(PI),以檢測該效應是否存在。由于要計算多種中間作者的3類PI的比例,所以這里選擇作者數大于2的文章進行數據分析。根據已經選好的時間窗長度,分別計算期刊中各個作者的3類PI比例隨著時間的變化趨勢,結果分別如圖4和圖5所示。其中橫坐標表示年份,縱坐標表示3類PI的比例。

從圖4和圖5中的實驗結果看出,在每類期刊中無論加窗與否,各種作者的3類PI比例都隨時間變化而變化,并且整體變化趨勢相似,說明在不同條件下的實驗結果是一致的。但是同條件下的6種作者的“伴隨效應”大小存在一定差異。在圖4的《自然》和《科學》中,最后作者與通訊作者之間的比例相對來說很接近,說明最后作者和通訊作者之間存在一定關聯性,這與前面小節中得出的最后作者與通訊作者之間的重疊性有關。但是第一作者、第二作者、第三作者和倒數第二作者這4種作者與通訊作者之間的比例相差很大,這說明他們與通訊作者之間存在較大差異。對比3種中間作者的實驗結果,發現中間作者的“陪護人效應”存在一定差異,其中第二作者和第三作者的結果更加接近,兩者都與倒數第二作者存在較大差異。

圖4 《自然》和《科學》6種作者的3類PI比例曲線

圖5 4本醫學期刊中6種作者的3類PI比例曲線

與綜合性期刊《自然》和《科學》的結果不同,在圖5的4本醫學期刊中,第一作者與通訊作者之間的曲線相對比較接近,尤其是有經驗PI比例,即圖5c和圖5d,說明在4本醫學期刊中第一作者與通訊作者之間具有一定的關聯性,該結果與前面分析中第一作者與通訊作者之間存在較強重疊性有關。但是最后作者、倒數第二作者、第二作者和第三作者與通訊作者之間的結果相差較大,說明他們與通訊作者在文章中所扮演的角色不同,對文章所做的貢獻也不相同。對比3種中間作者可以看出,第二作者、第三作者和倒數第二作者之間的差異性并不大,這3種作者的“陪護人效應”的結果相對比較接近。

從整體結果來看,無論是《自然》和《科學》還是4本醫學期刊,3類PI比例中6種角色的PI比例曲線隨時間變化的趨勢整體上是一樣的,即新PI比例隨時間變化呈下降趨勢,有經驗PI隨時間變化整體呈上升趨勢,資深PI隨時間變化整體呈上升趨勢。從3類PI的變化趨勢來說看,正與PNAS論文中的“陪護人效應”相符合。但是,原始“陪護人效應”的研究發現實際是基于文章最重要作者(即最后作者)的,研究的是向頂級期刊發表論文時,重要作者對一般作者的“陪護”過程。本文發現不僅僅文章的最后作者才能具有該效應,即使是處于不同署名位置的作者,數據分析仍存在與“陪護人效應”相同的變化趨勢,說明實際上存在廣義的“陪護人效應”,即頂級學者只要參與到論文合作(頂級學者不一定非得是通訊作者)就對一般作者有一定的“陪護”效應。

雖然不同署名位置的作者都存在“陪護人效應”,但是不同位置作者的“陪護”作用仍然有一定區別。綜合3種PI比例變化可以看到,在圖4的《自然》和《科學》中,倒數第二作者的陪護效果相對更好。在圖5的四本醫學期刊中,最后作者和倒數第二作者的陪護效果相對更好。

2.4 不同署名位置作者與通訊作者之間存在差異性的機理解釋

盡管不同署名位置作者之間存在明顯的論文分工差異,但是通過基于不同位置作者對“陪護人效應”進行的檢測表明,無論任何位置作者都存在“陪護人效應”的作用,但不同署名位置作者的陪護人效應存在一定的區別。

本節根據不同署名位置作者和通訊作者之間相似性的差別對這一區別進行解釋,說明影響陪護人效應的內在原因。本文分別計算最后作者與通訊作者、第一作者與通訊作者、倒數第二作者與通訊作者、第二作者與通訊作者和第三作者與通訊作者的之間杰拉德相似系數,相似系數可定義為:

式中,Ui表示某一年中通訊作者的作者群;Uj表示某一年中最后作者、第一作者、倒數第二作者、第二作者或第三作者的作者群;相似系數則為兩個作者群交集與并集的作者數量比值。如兩類期刊中每一年都會存在最后作者和通訊作者的作者群,若這兩個作者群的相似性系數較大,那么說明大多數最后作者也是通訊作者。最后作者群與通訊作者群越相似,那么兩者之間存在強關聯性;若兩個作者群的相似性系數較小,則說明最后作者和通訊作者之間的差異性較大。

如圖6所示,橫坐標表示論文的發表時間,縱坐標表示作者之間的杰拉德相似性系數。在《自然》和《科學》中,最后作者與通訊作者的相似系數隨著時間呈上升趨勢,相似性最大約為0.5左右。第一作者與通訊作者之間的相似性呈下降趨勢;而倒數第二作者、第二作者和第三作者與通訊作者之間的相似性最小。這些結果說明在綜合類期刊中,最后作者與通訊作者之間的相似性是最大的,這可以解釋前述研究中本文發現綜合類期刊中最后作者與通訊作者之間的強重疊性。

圖6 通訊作者與另外5種作者之間的相似系數

與綜合類期刊不同,4本醫學期刊中第一作者與通訊作者之間的相似性系數最大,占到了50%以上。最后作者與通訊作者的相似系數遠小于第一作者和通訊作者之間的相似系數,僅為0.12左右;而倒數第二作者、第二作者和第三作者與通訊作者之間的相似性系數最小,未超過0.05。這說明在4本醫學期刊中,第一作者與通訊作者的相似性最大,但最后作者、倒數第二作者、第二作者和第三作者與通訊作者之間的相似性很小,說明他們與通訊作者之間存在較大差異。這也對前面得出的第一作者與通訊作者之間存在強重疊性、而另外4種作者與通訊作者之間存在差異性進行了解釋。

3 結束語

本文基于不同位置作者對廣義“陪護人效應”進行了檢測,將第一作者、最后作者、通訊作者和3種中間作者(即第二作者、第三作者和倒數第二作者)假設為文章的重要作者(PI),并將文章的PI分成3類:新PI、有經驗PI和資深PI,在兩大類期刊中對6種作者的3類PI比例隨時間的變化進行了分析。從整體變化趨勢來看,在兩大類期刊中6種作者的新PI比例均隨著時間的變化慢慢下降,有經驗PI比例隨著時間上升,資深PI比例隨著時間的變化也慢慢上升。也就是說,在3種PI比例曲線中,6種位置作者的整體變化趨勢是類似的,都呈現出廣義的“陪護人效應”。本文分別計算了第一作者、倒數第二作者、最后作者、第二作者和第三作者與通訊作者之間的相似性系數,對不同位置的作者間的差異性進行了解釋,相似性系數較大的作者之間存在較強的重疊性,而相似性系數較小的作者間則存在一定的差異。

本研究有助于深入理解不同署名位置的作者的角色和貢獻,為科學學領域的探索提供新的研究思路,也可以為理解科學論文的動態發表過程以及年輕科學家選擇科研導師帶來一些啟示。在進行創新性的科研工作和發表高水平的科研論文時,年輕的科學家選擇與資歷較深的科學家合作,能拓寬科研認知,提高自身的科研水平,“站在巨人的肩膀上”增加在知名學術期刊上的發表機會。同時,本文研究結果也可為科研管理部門和基金資助機構提供啟示,對科研團隊的組建提供更多合理可行的指導和建議。如在團隊組成中注重老中青研究者的合理構成,有利于年輕一代學者更好更快地成長。在未來的研究中,如何準確區分不同署名位置作者的角色及貢獻,深入理解高水平科研成果的產出過程與陪護人效應的內在機制是值得探討的研究問題。

猜你喜歡
醫學期刊通訊比例
《茶葉通訊》簡介
《茶葉通訊》簡介
通訊報道
山西醫學期刊社簡介
山西醫學期刊社簡介
山西醫學期刊社簡介
山西醫學期刊社簡介
人體比例知多少
通訊簡史
按事故責任比例賠付
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合