?

隱形三角引用:科學論文中的不規范引用行為

2024-04-14 13:33劉運梅李冉盛小平
現代情報 2024年4期
關鍵詞:影響因素

劉運梅 李冉 盛小平

關鍵詞:三角引用結構;不規范引用行為;引文內容相似度;文獻耦合;影響因素

參考文獻是學術論文的有機組成部分,注明了被引理論、觀點、方法、數據的來源,將其正確、合理、充分地引用在學術傳播與科學發展過程中發揮著重要作用和廣泛影響。然而,相比于研究方法剽竊、實驗數據造假等學術不端行為,參考文獻的引用不規范問題并未涉及科學論文的正文,從表面看并不會產生嚴重的學術風險。因此,在科學知識快速更迭的背景下,參考文獻引用不規范、不合理問題在近年來層出不窮,越來越具有隱蔽性與欺騙性,形式也逐漸呈現出多樣化特征?!禢a-ture》雜志曾通過對科學論文中的引文錯誤開展調查,發現許多作者并沒有閱讀他們所引用的參考文獻,引文著錄中的異常錯誤非常普遍,進而披露了科學界普遍存在的引用不規范這一事實。在國內,因科研人員參考文獻引用不規范而通報的各類學術不端事件也頻頻發生,其中不乏學術界的知名學者。參考文獻的引用不規范現象逐漸成為科學界一項長期、復雜且相對隱蔽的問題。

為此,我國政府及相關部門十分重視對引用不規范行為的防范與治理,并出臺了一系列針對性的政策文件。2018年8月,中共中央辦公廳、國務院辦公廳印發了《關于進一步加強科研誠信建設的若干意見》,提出“嚴厲打擊嚴重違反科研誠信要求的行為,建立終身追究制度”。2021年11月,針對引用不規范行為,中國科學院科研道德委員會辦公室發布了《關于規范論著引用的通知》,明確提出“反對不合理不規范的論著引用情形”,并將其認定為科研失信行為。此外,2022年8月,科技部對《科研誠信案件調查處理規則》進行了修訂,規則中將“引用與論文內容無關的文獻、要求作者非必要地引用特定文獻”等引用不規范行為認定為科研失信,并進一步規范了其調查程序,使得引用不規范行為的調查處理工作有了更具操作性的懲處規則。引用不規范問題的解決除了通過相關政策規則予以打擊之外,隨著科學文獻全文數據庫的成熟、大數據文本分析技術的發展,運用科學的文本語義分析手段與文獻計量學的數據挖掘方法予以識別與治理是關鍵所在。

目前,在科學文獻引用規范問題上學者們已進行了大量相關研究,但鮮有人關注不規范引用行為的形成機制與偏好及其對學術論文價值造成的負面影響。在早期的引文研究與期刊編輯工作中,轉引問題便被發現并指出,“轉引行為”指施引文獻作者受某些客觀或主觀因素影響,在沒有閱讀引文原文內容的前提下,從其他引用了該篇引文的文獻中轉引該引文內容與題錄信息的現象。轉引行為具有高度的隱蔽性、復雜性與危害性,一方面,其不僅違背了科學論文中參考文獻引用的基本要求,還因轉引作者缺乏對原始文獻全面、系統的理解,而降低論文本身的表達流暢度與科學性;另一方面,通過轉引行為產生的虛假引用,導致被轉引文獻的被引頻次表面虛高,而實際上這些被引則多來自中間文獻的間接影響力,掩蓋了被引文獻的真實價值,造成引文分析的開展建立在虛假的數據資料基礎之上,從而影響引文分析、引文評價工作的準確度、嚴謹性與科學性。因此,有必要對這一引用行為與影響因素予以識別,并分析其中具體的引用情境與危害,為優化不合理的引文評價體系、治理不規范的引用行為提供解決途徑。

基于以上研究問題,本文對轉引這一不規范引用行為進行有效識別與分析。通過大規模的文獻數據對不規范引用行為進行有效識別,并嘗試結合相關文獻特征,挖掘這些不合理引用背后的引用情境與動機,首先,可以為編輯部、期刊管理部門檢測、治理科學引用不規范問題提供技術指導;其次,通過揭示廣泛、隱性、長期存在的不當引用行為及其危害,為學者在科學論文寫作與引用中提供警示;最后,提出針對不規范引用行為的治理措施與規范建議,為科學界、科研管理機構后續科技政策的制定與完善提供重點方向和指導。

1引用不規范行為相關研究

1.1引用不規范行為的概念界定與分類

在引用不規范行為的界定與分類領域,學者們已結合期刊編輯中的具體實例進行大量討論。引文包括參考文獻的引用內容信息與文后的著錄條目信息,據此,引用不規范行為也包括引文內容不規范、引文格式不規范兩種形式。引文內容不規范是指具有學術不端動機的引用行為,或引文與被引文獻之間沒有內在邏輯關聯的引用現象,主要包括誘引、匿引、轉引、濫引、崇引、曲引等;引文格式不規范則是指引文著錄格式錯誤的現象。其中,大部分引文格式不規范往往在期刊審稿、編校過程中加以修正,而由學術不端動機導致的引文內容不規范行為則相對隱蔽且復雜,很難通過直接觀察與主觀判斷對其識別。

1.2引用不規范行為的識別方法與技術

對于引用著錄格式錯誤的自動識別,學者們從理論分析與自動化識別方法兩個層面進行了探索。例如,蘇新寧分析了CSSCI數據庫中容易出現的幾類引文格式錯誤形式,并提出計算機輔助糾錯的思路:Brennan D探討了各種格式類型的引文字段自動識別與規范化表達,可用于檢驗參考文獻格式的準確性:李軍蓮等根據參考文獻著錄標準來分析期刊引文數據的核心特征,并基于決策樹方法和準確率指標生成多特征融合的引文不規范數據自動處理模型,實驗表明該模型的準確率高達99.72%。

此外,部分研究還基于引文中錯誤的著錄數據及其分布,推斷引文復制等引用不規范行為。例如,Simkin M V等將一篇高被引論文的錯引記錄按其被引頻次從高到低排列,構建錯誤引文的隨機分布模型,發現大部分“名著文獻”的被引用都是通過中間文獻復制的;梁立明等以《Nature》雜志中一篇高被引論文的錯引記錄為例,通過錯引記錄的引文傳播網絡,推斷出科學家群體中存在的引文復制與引而不注兩種引用不規范行為。綜上所述,目前在引文不規范問題的自動化識別領域主要聚焦于引用格式及其信息的識別與校正,而未深入到引文內容不規范問題的識別。

1.3引用不規范行為的政策治理

在引用不規范行為的政策治理領域,學者們大多從原因分析視角提出相應的建議,其中包括相關政策規范的完善、作者的自身意識提高、期刊編輯的審核編校、審稿專家的學術把關等。例如,鄧履翔等簡述了一種欺詐引用的定義、表現形式、產生原因,并從外部客觀環境、編輯、作者和讀者等方面給出了防治欺詐引用的建議:王志標認為造成期刊論文引用不規范的原因在于作者研究態度不端正、未建立良好引用習慣、不了解學術規范等,并從作者、學術期刊、作者單位、行業管理部門等主體角度提出相應的治理措施。綜上所述,目前在引用不規范問題的政策治理方面,研究者多是從編輯報道與建議視角出發,未深入該行為背后的邏輯及機理,制約了研究的理論深度。

目前學界對于引用不規范行為的研究主要存在以下兩個問題:一是僅從編輯報道視角指出一些現象問題與具體實例,未深入引用不規范行為背后的邏輯及機理,制約了研究的理論深度:二是聚焦于錯誤引用格式及其信息的識別與校正,未深入到情節嚴重且相對隱蔽的引文內容不規范問題檢測。因此,本文將從引用結構角度,探索不規范引用行為的識別方法及其內在生成因素。

2隱形三角引用行為概念與識別方法

2.1概念

在早期的編輯工作中,轉引問題便被發現并指出,轉引指來源文獻的作者由于某種原因沒有閱讀引文的原文內容,而從其他引用了該篇引文的文獻中轉錄該引文內容的現象。實際上,轉引現象在文獻引用關系中的體現即為三角引用結構中的間接引用現象。間接三角引用行為的定義為:文獻C在未閱讀文獻A原文的情況下,通過中間文獻B中關于A的引文,對文獻A施加了間接引用行為,從而在文獻A、B、C三者之間產生三角引用關系,間接三角引用行為的示例圖如圖1所示。

在上述間接三角引用行為發生過程中,會出現兩種引用情況:一種是作者在標注引文時,既標注原始文獻A,也標注中間文獻B;但也有可能只標注原始文獻A,而忽略了最先參考的中間文獻B。鑒于后一種引用情境,本文將提出一種間接三角引用延伸出的匿引問題,即隱形三角引用結構,如圖2所示??茖W文獻C的作者在閱讀中間文獻B時,根據文獻B中關于A的引文內容對文獻A施加引用:然而,文獻C作者受到某些社會性因素影響,如為避免抄襲之嫌等主觀因素、文獻A、B權威度、影響力差距等客觀因素,雖采納、吸收或利用了文獻B中的論述、數據或觀點,在實際引用中卻沒有引用最先參考的中間文獻B,只引用了文獻A。其定義為:科學文獻C的作者在未閱讀文獻A原文的情況下,根據文獻B中關于A的引文內容對文獻A施加引用;然而,文獻C作者受到某些社會性因素或主觀心理影響,雖采納、吸收或利用了文獻B,但在實際引用中沒有引用中間文獻B,只引用了文獻A。

上述隱形三角引用行為具有兩個比較明確的特征:第一,未閱讀原文而轉引文獻A。第二,參考但未引用文獻B。隱形三角引用現象使得引文成分與引用行為更加復雜化,但同時也包含著豐富的科學引用偏好與規律。

其中,間接引用原始文獻A,而非親自閱讀的行為動機如下:

●文獻C作者力求省力原則,認為他人所引用資料中包含的信息足夠完整、足以滿足需要,不愿再去核查原始文獻的原文。

●文獻C作者受數據庫權限、資料搜集能力、語言閱讀障礙、跨學科知識壁壘等影響,難以尋找到原始文獻的全文或無法順利閱讀全文,只能采取間接引用的方式。

參考但未引用中間文獻B的行為動機如下:

●文獻C作者缺乏嚴肅認真、實事求是的科學態度,雖采納或利用了中間文獻B,但為了在文中掩人耳目、避免抄襲之嫌,又或為了體現自己論文的創新性、先進性或原創性,故意不引用文獻B。

●文獻C作者受馬太效應影響,寫作時傾向于選擇引用被認為“重要的”“權威的”文獻或期刊來證明自身研究的科學價值與知識聯系,并避免引用那些相對“不重要”的文獻。在三角引用結構中,原始文獻A由于發表時間、科學發現優先權、被引頻次累積等方面的優勢,往往比中間文獻B更具有所謂的“權威度”和“社會認可度”。因此,在二者擇其一的情況下,文獻C作者傾向于放棄引用中間文獻B,只引用文獻A。

2.2識別旨標

隱形三角引用行為識別方法與影響因素構建如圖3所示。

首先,在文獻引文網絡中提取可能發生的隱形三角引用關系,步驟如下:

●提取文獻B與文獻C具有耦合關系的數據,即文獻B、C同時引用文獻A。

●去掉文獻B與文獻C之間發生直接引用的數據。

●保證文獻B的發表時間早于文獻C。

其次,構建以下三項指標測度耦合關系中的隱形三角引用行為。

1)文獻使用一引用轉化率。WoS數據庫平臺中論文的使用數量(Usage)是Web of Science平臺所有用戶訪問論文全文鏈接或保存記錄的次數,捕獲了用戶試圖獲取全文的各種操作。文獻使用一引用的轉化率用一篇科學文獻的被引頻次與使用次數之比計算,表示為CR。若文獻所獲被引頻次用R表示,使用次數用U表示,CR計算公式如式(1):

按照隱形三角引用行為發生的兩個情境:引用但未閱讀文獻A、參考但未引用文獻B,本文識別的一組隱形三角引用關系應具有以下特征:文獻A的被引頻次R應當較大,而使用次數U則偏小,甚至低于被引數量,因此文獻A的使用一引用轉化率CR(A)較高;而文獻B受參考但未引用的影響,表現為使用次數U較大、被引頻次R較小,因此文獻B的使用一引用轉化率CR(B)應相對較低。

2)B-A與C-A引用內容的文本相似度。隱形三角引用結構中,文獻C是通過B的引文內容間接引用文獻A,那么,最直接、有效的判斷方法是通過文本相似度計算,比較文獻B引用A的引文內容與文獻C引用A的引文內容之間是否相似。

由于傳統IF-IDF表示特征向量計算的引用文本相似度區分度較低,本節將調用Nils and Iryna構建的Sentence Transformers預訓練模型,計算B-yA與C-A引用內容之間的文本相似度。Sentence Trans-formers模型是一個用于最先進的句子、文本和圖像嵌入的Python框架,使用連體和三元網絡結構來推導語義上有意義的句子嵌入,并使用余弦相似度進行語義文本相似計算,其在語義文本相似性應用中表現出很好的性能和區分度。此處,將引用內容設定為引用標簽所在的完整句子,計算得到耦合關系組中,兩兩引用文本的內容相似度Sim(B-A,C-A)。Sim(B-A,C-A)值越接近于1,比較的兩個引用文本越相似,則認定對應的耦合關系更傾向于發生了隱形三角引用行為。

3)耦合強度。耦合強度是指文獻B與文獻C中參考文獻重合的數量。隱形三角引用情境中,文獻C通過文獻B的參考文獻列表,間接引用文獻A。因此,文獻C中的參考文獻與文獻B的參考文獻重復數量越多,那么意味著文獻C更大概率地將文獻B作為中介傳輸文獻,間接引用越多的文獻A,此時對應的耦合關系更傾向于發生了隱形三角引用行為。文獻B、C的耦合強度用BS(B,C)表不,N(B n C)表示文獻B與文獻C中參考文獻重合的數量,耦合強度計算公式如式(2):

2.3影響因素

從文獻數據庫平臺WOS的全字段記錄中提取出6項有效的文獻屬性特征,用以推斷影響隱形三角引用行為發生的情境與偏好,即隱形三角引用行為的影響因素。

最省力法則指出,一個人在面對多種問題的情況下將會爭取運用最省事、省力的方法去處理面臨的問題,這里的問題不只是當前面臨的問題,也包含未來有可能出現的問題,他會盡可能運用最小功力消耗率去解決。間接引用文獻A的分析要素包括3項,即文獻A、B、C組合在語言、文獻類型、學科方面存在怎樣的特征,導致文獻C間接通過文獻B引用文獻A:

1)語言差異:在每組文獻耦合關系中,文獻A、B、C在語言方面的分布特征。

2)文獻類型差異:在每組文獻耦合關系中,文獻A、B、C在文獻類型上的分布特征。

3)學科差異:在每組文獻耦合關系中,文獻A、B、C在學科上的分布特征。

馬太效應理論表明,論文自身被引、作者知名度、期刊權威性、發表時長等方面的累積是馬太效應在科學研究中的表現,都對論文的關注度和被引量有正向的影響作用。由于作者在其所屬研究領域知名度的測量具有一定復雜性和主觀性,且無法通過文獻來源信息直接獲取,本文暫不考慮作者知名度這一變量對隱形三角引用行為的影響。本文選取其他3項變量作為參考但未引用文獻B的分析要素,即文獻A、B在發表期刊影響力、出版時間、被引影響力方面存在怎樣的差異,導致文獻C只選擇引用文獻A、不引用文獻B。

4)期刊影響力:本文用期刊的五年影響因子代表文獻所發表期刊水平的高低,在每組文獻耦合關系中,測度文獻A、B所發表期刊五年影響因子之間存在的差異。

5)發表時間:在每組文獻耦合關系中,測度文獻A、B發表年份之間的時間跨度特征,以代表文獻A、B在科學發現優先權方面的差異。

6)被引影響力:在每組文獻耦合關系中.測度文獻A、B所獲得被引頻次之間存在的差異,以代表文獻A、B在相關研究領域的相對地位和權威度。

3隱形三角引用行為的識別指標計算

本文以Web of Science數據庫作為數據來源:根據WoS學科分類體系,選取醫學與生物學、心理學、管理學、化學、物理學、數學、計算機科學、圖書情報科學8個學科,并根據文獻的被引頻次分層抽樣;其次,為保證數據樣本多樣性,文獻類型同時包含Article、Review、Proceedings Paper;最后,以40篇樣本文獻作為原始文獻A,獲取相關的三角引用關系與隱形三角引用關系文獻數據,具體的數據獲取與處理過程如圖4所示。

其中,三角引用關系的獲取是以原始文獻A人手,尋找中介文獻B和追隨文獻C,來確定以文獻A為原始文獻的三角引用數據。具體步驟如下:首先,采集引用文獻A的所有施引文獻,得到中介文獻集合{ B0、B1、B2、…Bi…},即多個“B-A”的引用關系對;其次,分別采集中介文獻集合中每個文獻B的施引文獻;最后,獲取A的施引文獻與Bi的施引文獻中相同的文獻,所得到的相同文獻就是追隨文獻集合Ci,即“Ci-A”,同時“C-Bi”。那么,文獻A、Bi與集合Ci中的每個文獻就組成了三角引用關系。本文通過40篇原始文獻A的樣本,在引文網絡中共獲取了6918篇中介文獻B、54649篇追隨文獻C,以及54649條三角引用關系。

隱形三角引用關系的獲取同樣也是以原始文獻A入手,來確定以A為原始文獻的隱形三角引用數據。具體步驟如下:首先,將文獻A施引文獻集合中的文獻兩兩配對,即文獻B、C具有耦合關系的數據。通過40篇文獻A所獲得的15045篇施引文獻,本文共得到2990905條耦合關系;其次,隱形三角引用結構中的文獻B與文獻C不存在直接引用關系,在已獲得的2990905條耦合數據集中,刪除發生三角引用關系的54649條數據,共剩余2936256條數據:最后,在保證每組隱形三角引用數據中,文獻B的發表時間要早于文獻C??紤]到文獻B、C同一年發表的作者自引或團隊自引等問題,去掉文獻B與文獻C同年發表的耦合關系數據,以及數據記錄中沒有明確發表時間的文獻數據13743條,最終共剩余可供分析的隱形三角引用文獻數據共2922513條。

通過2922513組耦合數據中文獻A與文獻B在WoS平臺獲得的使用量、引用量(WoS Core),計算得到文獻A、B的使用一引用轉化率CR(A)、CR(B),統計值的對比結果如表1所示。

根據CR(A)、CR(B)的對比結果,在近300萬組耦合數據中,超過七成的文獻A使用一引用轉化率高于文獻B。因此,在一組文獻B、C的耦合關系中存在較為普遍的規律,即被引文獻A的被引量往往較高,而使用量偏??;相比之下,施引方文獻B的被引則較少,被使用較頻繁。

根據2922513組耦合數據中文獻A與文獻B的使用一引用轉化率分布,構建散點圖,如圖5所示。其中,為了更清晰地表示轉化率數據的主體分布區域,將CR(A)超過10的極端數值設置為10??梢钥吹紺R(B)在[0,1]區間內的分布最為密集,隨著使用一引用轉化率增加,其在圖5頂部的分布越來越稀疏;而CR(A)在[0,10]區間內的分布則相對比較均勻。

在規范、合理的引用情境下,文獻的使用與引用存在一個遞進的鏈式關系,引用文獻之前用戶必然需要獲取和瀏覽原文內容。因此,被引頻次的增加一定伴隨瀏覽、下載等使用次數的增加。那么,在隱形三角引用的不規范引用情境中,文獻A受引用但未閱讀的影響,此時,理論上文獻A的部分引用數據并未伴隨相應的瀏覽、下載等使用行為,而是在未閱讀原文情況下進行的間接引用行為,因此文獻A的被引頻次R大,而使用次數U則偏小,甚至低于被引次數,即CR(A)大于1。同樣地,文獻B受參考但未被引用的影響,使用次數大于被引次數,即CR(B)小于1。因此,當CR(A)≥1,且同時CR(B) <1時,對應的耦合關系發生隱形三角引用行為的可能性較大。

在2922513條數據中,位于圖5右下角區域(同時滿足CR(A)≥1且CR(B)<1)的耦合數據共687112條,將用于進一步的隱形三角引用行為識別。其中,文獻B或文獻CDOI號缺失、無全文記錄的耦合數據共108622條,因此,對能夠獲取全文數據的578490條文獻耦合數據進行引文內容相似度與耦合強度分析。

在耦合強度計算中,由于文獻B、C本身具有耦合關系,因此耦合強度BS(BC)的最小值為1。在引文內容相似度計算中,由于文獻B、C涉及多種語言,文獻B、C的跨語言文本相似度計算使用了Google機器翻譯工具,將非英文的源語言翻譯為目標語言英語,再使用單語言的文本相似度算法進行計算。最后,根據耦合強度BS(BC)、引用內容相似度Sim(B-A,C-A)的計算結果構建三維氣泡圖,如圖6所示。其中,橫坐標表示耦合強度值,縱坐標表示兩兩引用內容的文本相似度值,氣泡大小表示對應位置的耦合關系數量。

在耦合強度與引文內容相似度分布圖中,當耦合強度高于3時,引文內容相似度的變化最為明顯:隨著相似度增加,氣泡的分布越大,且越密集。此時,耦合關系大部分分布在Sim(B-A,C-A)≥0.5區域內。而當耦合強度在1~2之間時,引文內容相似度主要分布在0.5~0.6區間內,明顯低于耦合強度超過3時的引文內容相似度。因此,在耦合關系中,文獻B與C的耦合強度越大,兩者同時引用文獻A的引文內容相似度就越高。

耦合強度越高,意味著文獻B與C之間雖然沒有實際的引用關系,但兩者具有密切的隱性關系,文獻C在一定概率上參考了文獻B中較多的參考文獻。而B-A與C-A之間引文內容相似度較高,意味著在很大程度上文獻C參考了文獻B中關于A的引文內容,進行了轉引行為。因此,在圖6右上角的氣泡高密集區,即耦合強度BS在3以上,同時B-A與C-A的引文內容相似度超過0.5,該耦合關系在很大概率上發生隱形三角引用行為。文獻A的被引用量大于使用量、文獻B的被使用量大于被引量、文獻B與文獻C高耦合強度與高引文內容相似度一致等特征,也進一步佐證了隱形三角引用現象在科學界的廣泛、真實存在。

4隱形三角引用行為的影響因素分析

4.1間接引用行為的影響因素分析

結合三角引用行為的特征識別結果,從耦合關系中文獻A、B、C的語言差異、文獻類型差異、學科差異層面,對隱形三角引用結構的間接引用行為進行引用語境與影響因素分析。間接引用行為在文獻特征上的表現:文獻A收獲的被引量較大,而使用量偏?。何墨IB與文獻C的參考文獻重復(耦合強度)較多;文獻B與C引用文獻A的引文內容相似度較高。

因此,根據CR(A)、CR(B)的識別結果,首先,將2922513組耦合關系分為4個數據集合:CR(A)<1且CR(B)<1、CR(A)<1且CR(B)≥1、CR(A)≥1且CR(B)<1、CR(A)≥1且CR(B)≥1;根據文獻B與C耦合強度的計算結果,將578490條文獻耦合關系分為兩個數據集合:BS≤2、BS≥3:根據文獻B與C同時引用文獻A的文本相似度計算結果,將578490條文獻耦合關系分為兩個數據集合:Sim<0.5、Sim≥0.5。其次,根據耦合關系中文獻A、B、C的語言類型、文獻類型、學科領域,劃分為ABC相同、AB相同、BC相同、AC相同、ABC不同五種特征分布類型。最后,分別計算A-B-C不同特征分布類型在以上8個數據集合中的數量及比例。其中,語言差異情境下的特征分布情況如圖7所示,文獻類型差異下的特征分布如圖8所示,學科差異下的特征分布如圖9所示。

1)語言差異:在圖7中,95%以上的耦合關系A-B-C語言相同,而A、B、C均屬于不同語言的耦合數據則最少,這來源于WoS平臺的收錄文獻主要以英語為主,且在非英語母語國家,英語仍作為科學交流、科學文獻撰寫的主流語言。

對比具有語言差異的文獻耦合數據,在以引文內容相似度分類的兩個數據集合中,BC語言相同情境下的分布比例對比較為明顯:Sim≥0.5的比例超過了Sim<0.5的5倍之多。同樣,在以耦合強度分類的兩個集合中,BC語言相同的情境下對比同樣最為明顯,BS≥3的比例(0.151%)遠遠高于BS≤2(0.008%);此外,ABC語言均不同的比例也具有較大差異,BS≥3時的比例(0.175%)遠遠高于BS≤2(0.013%)。而以使用一引用轉化率分類的4個數據集中.BC語言相同這一情境在CR(A)<1且CR(B)≥1的耦合數據中沒有出現,而在其余3種數據集的分布比例變化不大。因此,根據以上引文內容相似度與耦合強度兩個對比結果,文獻B、C語言相同、但與文獻A不同的語言特征傾向于發生在耦合強度與引文內容相似度均較高的隱形三角引用結構中,與文獻A的語言差異是追隨文獻C施加間接引用行為的一個重要影響因素。

2)文獻類型差異:在圖8文獻類型差異情境下的三角引用特征分布中,除了CR(A)<1的兩個數據集之外,A、B、C文獻類型相同的耦合關系在其他6個數據集中仍占據60%以上的主要比例。統計2922513條文獻耦合關系中文獻A、B、C的文獻類型,如表2所示。

在表2中,大部分文獻類型為Article、Review,因此在A-B-C的文獻類型組合中,三者文獻類型相同的情況占據主要比重。在文獻類型不一致的耦合數據中,與語言情境下的對比結果相似,BC文獻類型相同在耦合強度與引文內容相似度分類集合中的差異最為顯著:在Sim≥0.5與BS≥3數據集合中的比例均明顯超出了Sim<0.5與BS≤2。其中,Sim≥0.5中的分布比例(4.438%)高于Sim<0.5(10.613%)的兩倍;在BS≥3中的分布比例(12.534%)也明顯超出了BS≤2(7.639%)。而其他4種文獻類型結構(ABC相同、AB相同、AC相同、ABC均不同)在上述幾個數據集中的分布則比較穩定,并沒有表現出明顯差異。因此,在隱形三角引用結構中,根據以上引文內容相似度與耦合強度兩個數據集的對比結果,A、B、C的文獻類型差異是追隨文獻C施加間接引用行為的影響因素。

3)學科領域差異:在學科情境下的8組耦合數據集對比中,BC學科相同在BS≥3與Sim≥0.5兩個數據集中所占比例最高,分別為16. 512%、7.704%。此外,在CR(A)≥1的兩個數據集合中,BC學科相同所占比例也明顯高于CR(A) <1時。因此,在CR(A)、BS(BC)、Sim(B-A,C-A)較高的隱形三角引用結構中,更容易發生文獻B、C學科相同,但與文獻A不同的跨學科引用現象。同時,與文獻A的學科差異是追隨文獻C施加間接引用行為的一個顯著影響因素。

美國語言學家Zipf最早提出省力法則:人們總希望以最小的付出得到最大的收獲,一切有目的的行為總是追求“省力”“偷懶”。綜合語言、文獻類型、學科特征的分析結果,在隱形三角引用結構中,文獻C會受到跨語言、跨文獻類型、跨學科等因素的影響,不負責任地間接從文獻B的引文內容中轉引文獻A,從而體現出B-A與C-A引文內容相似度較高、文獻B與文獻C參考文獻重復較多等特征。具體引用情境為:追隨文獻C作者受到文獻A跨語言、跨文獻類型、跨學科等壁壘,無法獲取原始文獻,或為了省力不愿查找和閱讀原文,但為了增加參考文獻豐富度、“裝飾門面”等,在閱讀與其相同語言、相同文獻類型或相同學科的文獻B時,產生惰性引用心理,傾向于從文獻B的引文中直接轉引文獻A,從而對文獻A施加間接引用。

4.2匿引行為的影響因素分析

從耦合關系中文獻A、B所在期刊影響力、發表時間間隔、被引影響力3個方面,對隱形三角引用行為中參考但未引用文獻B的匿引行為進行引用語境分析,僅引用A、未引用B的匿引行為在文獻特征上的表現是:文獻B收獲的被引量較少,而使用量較大;相反,文獻A的被引量則較大,使用量偏小。因此,根據CR(A)、CR(B)的計算結果,比較在CR(A)<1且CR(B)<1、CR(A) <1且CR(B)≥1、CR(A)≥1且CR(B)<1、CR(A)≥1且CR(B)≥1的4個數據集合中,文獻A、B在期刊影響因子、發表時間、被引頻次3個角度的差異。

1)期刊影響力差異。首先,計算文獻A、B發表期刊的影響因子差距對匿引行為的影響。去掉非期刊類型的文獻,以及未被收錄、無影響因子的文獻數據后,共剩余2598600條文獻耦合數據。分別統計文獻A、B所在期刊的5年影響因子,并計算IF(A) -IF(B)。圖10顯示了不同的影響因子之差在4個耦合數據集中所占比例。

在圖10的特征分布中,對比以使用一引用轉化率分類的4個數據集合,CR(A)≥1且CR(B)<1數據集中的影響因子之差分布最為集中,主要分布在-4~50范圍內。相比之下,在-8~-90的較大負值范圍內,CR(A)≥1且CR(B) <1的數量微乎其微,而其他3個數據集合在該區域均占有一定比例。因此,對于CR(A)≥1且CR(B)<1的耦合數據,文獻A與文獻B的影響因子之差明顯主要分布在正值區域內,即文獻A所在期刊的影響因子一般高于文獻B。

通常情況下,期刊聲望越高,文章質量就越好,學界認可度也越強。對于研究主題與研究內容相似的論文,作者會更傾向于引用發表在權威度較高期刊上的論文?;贑R(A)≥1且CR(B)<1的期刊影響因子分布,可以看到隱形三角引用結構中的文獻C作者,在文獻A、B二者擇其一的情況下,更傾向于選擇引用期刊影響力與權威度更高的文獻A,在實際引用中往往忽略所在期刊影響力相對較低的文獻B,從而出現文獻A的被引量甚至高于其使用量(CR(A)≥1),文獻B收獲的被引頻次遠遠低于其應有的被引量(CR(B)<1)這一現象。在隱形三角引用結構中,文獻A、B所發表期刊的影響力差異是施引作者C選擇匿引文獻B的重要影響因素。

2)發表時間差異。其次,計算文獻A、B發表時間間隔,以分析文獻發表優先權對匿引行為的影響。分別統計2 922 5 13條耦合數據中文獻A、B的發表年份,并計算year(B)-year(A)。圖11顯示了不同發表時間差在4個耦合數據集中所占的比例。

從文獻A、B發表時間角度可以發現,在以使用一引用轉化率分類的4個耦合數據集合中,CR(A)≥1且CR(B)<1明顯與其他3組數據集的分布范圍不同。對于CR(A) <1且CR(B) <1、CR(A)<1且CR(B)≥1、CR(A)≥1且CR(B)≥1這3個數據集合,隨著時間差year(B)-year(A)增大,對應的耦合數據所占比例明顯隨之減少:相反,CR(A)≥1且CR(B) <1的時間差隨時間變化明顯比較穩定,在2~12年里的分布比例幾乎一致。其次,從極端值看,在文獻A早于文獻B發表20年以上的數據中,基本是CR(A)≥1且CR(B)<1的耦合關系,甚至還有部分文獻A發表在文獻B之前47年之久。因此,當文獻耦合結構中CR(A)≥1且CR(B)<1時,文獻A的發表時間一般要遠遠早于文獻B,而在其他使用一引用轉化率情況中,文獻A與文獻B的發表時間間隔相對較小。

因此,在隱形三角引用結構中,文獻A、B的出版時間差距是施引作者C選擇匿引文獻B的重要影響因素??紤]到文獻A在相關研究領域的相對領先地位、發表優先權等,追隨文獻C更傾向于引用發表時間較早、較年長的文獻A,而不引用發表時間相對較近、較年輕的文獻B,從而導致文獻A的被引量甚至高于其使用量(CR(A)≥1),而文獻B收獲的被引頻次遠遠低于其應有的被引量(CR(B)<1)。

3)自身被引影響力。論文所獲被引頻次在一定程度上反映了論文在該研究領域的影響力或地位,計算文獻A、B所獲被引頻次的差距,以分析文獻A、B自身影響力對匿引行為的影響。分別統計2922513條耦合數據中文獻A、B的被引頻次,并計算C(A)-C(B),圖12顯示了不同的被引差在4個耦合數據集中所占比例。

在被引頻次差異情境下,耦合數據集CR(A)≥1且CR(B)<1仍表現出與期刊影響力、發表時間等類似的特征。在以使用一引用轉化率分類的4組數據集中,CR(A)≥1且CR(B) <1的被引頻次之差主要分布在200~700區間內;相反,在文獻B被引頻次大于文獻A的左側負值區域內,幾乎沒有CR(A)≥1且CR(B) <1的耦合數據,而其他3種數據集(CR(A)<1且CR(B) <1、CR(A) <1且CR(B)≥1、CR(A)≥1且CR(B)≥1)在負值區域內均有明顯的一定比例分布。因此,當文獻耦合結構中CR(A)≥1且CR(B)<1時,文獻A的被引影響力一般遠遠高于文獻B。

在隱形三角引用結構中,文獻A、B的被引頻次大小及其差距是追隨文獻C選擇匿引文獻B的重要影響因素。Price D J S曾指出:一篇經常被引用的論文比一篇很少被引用的論文更容易再次被引用??紤]到文獻A在相關研究領域的影響力、權威度等,追隨文獻C作者更傾向于引用被引頻次較高的文獻A,而忽略被引較少的中間文獻B,從而導致文獻A的被引量甚至高于其使用量(CR(A)≥1),而文獻B收獲的被引頻次遠遠低于其應有的被引量(CR(B)<1)。

綜上所述,在隱形三角引用行為中,由期刊影響力差異、發表時間差異、自身被引影響力差異導致的匿引文獻B現象在科學文獻引用中真實且廣泛存在??茖W文獻引用中的馬太效應指出,作者通常具有崇拜學術權威和學術名望的社會心理,引用動機會受到社會因素和主觀意識的影響。為了達到說服和被認可的目的,學者們在論文撰寫過程中,更傾向于引用被認為具有“權威性”的文獻,如著名期刊、著名學者、著名文獻等,而不管被引文獻在研究內容上與自己的論文是否實質性相關。追隨文獻C在閱讀文獻B時,通過文獻B中關于A的引文內容對文獻A施加引用,即表現為三角引用結構:但文獻C會受到文獻A與文獻B期刊影響力差異、發表時間間隔差異、自身被引影響力差異等影響,在引用過程中往往忽略期刊影響力較差、發表時間較晚或被引頻次較低的文獻B,只引用相對更“權威”的文獻A,從而在引文網絡中表現為文獻B、C同時引用文獻A的耦合關系,即隱形三角引用結構。

5結語

文獻的不當引用是一個長期、復雜且相對隱蔽的現象,既屬于學術道德問題,又屬于學術規范問題。學界針對科學文獻引用相關問題已進行了大量的研究,但很少有人關注不合理的參考文獻引用對學術論文價值造成的不良影響。本文通過大規模的文獻數據對隱形三角引用行為進行有效識別,并嘗試結合相關文獻特征,挖掘這種不合理引用背后的引用動機與情境。

首先,在隱形三角引用行為識別中,雖然文獻B與C之間未有直接的引用關系與關聯,但本文結合使用一引用轉化率、耦合強度、引文內容相似度等多維度判定指標,從近300萬組文獻耦合數據中層層篩選,發現了39276條隱形三角引用行為。其中,引用動機、引用行為的識別均建立在理想化的前提和推斷之上,部分數據可能帶有判斷誤差,但通過大規模的數據表現出的特征規律及多個判定指標綜合的識別結果,足以表征隱形三角引用行為在科學文獻引用中的真實且普遍存在。

其次,在隱形三角引用行為的引用情境分析中,由文獻語言、文獻類型、所屬學科領域影響的轉引行為是真實存在的,由文獻A、B所在期刊影響力、自身影響力、發表時間差異影響的匿引行為也真實存在。雖然,轉引行為與匿引行為中作者刻意的主觀性動機無法通過文獻來源信息間接判斷,但由文獻特征等客觀因素導致的引用動機則可以通過大規模數據表征出來,并足以表征隱形三角引用這種不規范引用現象存在的必然性。

因此,在進行引文分析與評價時,可以通過技術手段提前識別、并排除這些引文相似度較高的不規范引用,以增強引文分析的可靠性。廣大科學界學者、期刊應共同重視引文不當問題的緊迫性和重要性,逐步推出針對不當引用行為的監督、獎勵機制,鼓勵廣大學者發現、修正間接引用、引而不標注、匿引等不合理引用問題。在國家、相關機構組織等層面,要高度重視文獻情報的管理工作,加強智力投資,建立健全各種類型科研文獻、科研成果的全文存儲與開放獲取平臺,盡可能為學者提供多語言、多種文獻類型的文獻資源全文,以避免作者因獲取、借閱不到原始文獻而進行間接三角引用、隱形三角引用等行為。對于期刊編審人員,應重視參考文獻的規范化著錄,對參考文獻引用是否得當及準確性提出意見,提高文獻引用的科學性與真實性。對存在嚴重虛假引用、錯誤引用或不規范引用的稿件嚴肅處理或不予錄用。在作者層面,作者自身也要提高對參考文獻重要性的認識,重視參考文獻的選擇和著錄。論文所引用的參考文獻應限于作者親自閱讀過的、與論文有密切聯系的文獻:在無法查到原始文獻、只能間接引用的情況下,應采用腳注的方式注明引文出處,消除轉引對引文分析結果的影響。同時,作者不應將參考文獻的數量、語種、來源期刊、來源機構等作為權衡論文質量唯一或過于重要的標準,無論參考文獻是出自“名家之手”還是出自“無名小卒”,均應出于對前人研究成果的尊重而如實地在論文中予以標識,并在文后參考文獻中著錄。

猜你喜歡
影響因素
突發事件下應急物資保障能力影響因素研究
環衛工人生存狀況的調查分析
農業生產性服務業需求影響因素分析
村級發展互助資金組織的運行效率研究
基于系統論的煤層瓦斯壓力測定影響因素分析
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合