?

論文標題長度與被引頻次的關系研究

2024-01-16 10:25俞立平程凱林
晉圖學刊 2023年6期
關鍵詞:個字符位數長度

俞立平,程凱林

(浙江工商大學 統計與數學學院,浙江 杭州 310018)

0 引言

標題是一篇論文的畫龍點睛之筆,在論文中具有十分重要的作用。標題點明論文主題,有的學者將論點作為論文標題,有的學者從研究視角角度給論文命名,有的學者從研究對象角度命名,有的學者從研究方法角度命名等等,各具特色。一個好的標題具有吸引讀者、激發讀者閱讀興趣的作用。標題長度是學術論文的來源指標之一,一般期刊對論文標題長度都有明確的規定,標題必須簡潔明確。

標題對論文被引具有重要影響。被引頻次是衡量學者論文和期刊影響力的重要指標之一,在學者查找文獻時,一個好的標題能夠吸引讀者閱讀和下載,從而充分增加了引用的可能性。從標題長度看,主要有以下特征:較短的標題往往關注研究熱點,容易被引用[1];而較長的標題提供的信息量相對豐富,從而方便讀者在最短的時間了解論文大致內容。目前,鮮有學者對論文標題和被引頻次之間的關系進行研究。

研究論文標題長度和被引頻次之間的關系具有重要意義。研究標題長度對被引頻次的影響機制、特征和規律,可以豐富文獻計量學的理論,而且對于作者設計出合適的論文標題有重要的指導意義。

1 文獻綜述

關于論文標題的研究,目前很多學者認為論文標題要簡潔以及明確:楊新興[2]、陳滌瑕等[3]認為論文標題必須簡潔、明確,引人注目,如果過于繁瑣,冗長,將不方便閱讀、查詢和檢索,不便于讀者記憶和引用;溫冠男[4]認為論文標題除了要精簡明快、準確無誤和符合規范,還要掌握標題的核心以及特點;曹裕才[5]認為論文的標題要使其含義能準確反映文章內容和主要信息,能夠突出論文中心內容并且可以正確引導讀者閱讀和參考;楊曉成[6]對其寫作經驗和分析論文標題相結合,提出了謙虛保守型標題、亮點突出型標題和個案研究型標題三種類型的論文標題,并對每種標題類型提出了建議。

關于論文被引頻次影響因素的研究,一部分學者從文獻計量指標角度開展研究:Bornman L.等[7]、Vieira E.S.等[8]研究發現論文被引頻次與共著作者數量、引用文獻數量、頁數和期刊影響因子存在一定關聯,同時與論文長度也存在一定的關系,但這種關系非常弱;陳悅、宋超等[9]的研究表明,論文標題和摘要區別度、論文使用次數、熱點持續能力等因素對被引頻次具有正向影響,而論文長度對被引頻次具有負向影響,作者合作強度、引用參考文獻數與被引頻次之間呈現“倒U型”關系;王黎明、張嘯岳等[10]等就論文作者數和被引頻次的關系進行了研究,發現單作者論文和多作者論文的平均被引頻次沒有顯著差異,作者數量對被引頻次有影響,但影響效果并不顯著;俞立平[11]認為論文篇幅與被引頻次總體上無關,提高論文篇幅進而提高影響因子的機制是降低分母載文量,不能提高論文影響力。

關于論文標題與被引頻次的研究,國外有多篇文章探討了各種文章特征(例如標題、作者數量、全文長度、詞匯密度等)對文章下載量和被引用量之間的關系,其中標題是研究最多的特征之一,但是國內的有關研究還較少。學者通常認為標題長度和類型等特征與文章的下載量和引用量相關,但是關于標題長度與被引用頻次之間的關系的方向(甚至是否存在)還沒有達成共識。在現有的研究中,關于標題長度與被引頻次之間關系的研究結論并不相同。第一種觀點認為標題長度與其被引用次數呈負相關:Jamali H.R.等[12]研究結果表明,長標題的文章比短標題的文章的下載量略少,帶有冒號的標題往往更長,下載和引用次數更少;Paiva C.E.等[13]認為標題較短的文章比標題較長的文章更吸引人,更容易被瀏覽和引用;Subotic S.等[14]研究顯示,標題較短的文章的被引用頻次更高,因為這些論文往往發表在影響力較高的期刊上。

第二種觀點認為論文標題長度與其被引用次數呈正相關:Habibzadeh F.等[15]指出較長的標題更詳細地描述了研究方法和/或結果,更容易被研究者檢索,從而吸引更多的關注和引用;Jacques T.S.等[16]也認為標題長度與其被引用次數呈正相關;甄長慧等[17]研究表明,長標題論文被引次數顯著高于短標題論文,論文被引與下載次數成明顯正相關;石慶玲等[18]的研究結果顯示,論文標題長度對論文的下載率和引用率具有顯著的正向影響,其中對下載率的影響更大。

第三種觀點認為論文標題長度與其被引用次數不相關:Huggett S.[19]研究了2006—2010年的《細胞》學術論文的引用情況,并指出標題長度和總引用次數之間沒有直接的聯系,標題在31到40個字符之間的論文被引用的次數最多;Braticevic M.N.等[20]、Fumani M.R.等[21]學者也指出標題長度與被引用次數沒有相關性。

此外,還有研究認為標題長度與其被引之間的關系與論文的發表時間有關。魏瑞斌[22]指出兩者之間的關系與數據的時間屬性關聯性較強:對于發表時間較長的論文,論文標題長度與其被引用頻次正相關;對于發表時間較短的論文,論文標題長度對其被引的影響不顯著。

結合國內外的現有研究來看,關于論文標題長度與其被引頻次之間的關系,學者們的研究結論并不一致:有些學者認為論文標題長的論文包含豐富的信息,更容易被研究者檢索到;但是有些學者認為標題較短的論文更具吸引力,從而吸引研究者去下載閱讀。研究結論的不一致主要是由于數據源不同、學科差異性以及研究方法的多樣性所導致的,特別是樣本選取不合適以及研究方法的局限性,可能會得到錯誤的結論。此外,現有的研究往往選擇多種期刊或者不同時間的論文作為研究對象,但是期刊的被引頻次會受到發表時間長短[22-23]、期刊質量[14,23]的影響。因此,有必要對一種期刊某個時間段的論文開展研究,以盡可能排除論文的發表時間長短、期刊質量對其被引頻次的影響。

本文以2017年《情報雜志》為例研究論文標題長度與被引頻次的關系,能夠保證所要研究論文的發表時長以及論文質量是近似一致的。此外,《情報雜志》是圖書館情報與文獻學期刊中具有代表性的期刊,載文量較大,是較為理想的研究對象。本文基于中國知網數據庫,采用Mann-Whitney U檢驗、回歸分析和分位數回歸來研究標題長度與被引頻次之間的關系,并對研究結果進行分析和總結。

2 理論基礎和研究方法

2.1 理論基礎

關于論文標題長度和被引頻次之間的關系,其內在機制較為復雜(見圖1)。首先,研究本問題的前提條件是論文質量相同,由于不同期刊論文質量可能存在一定的差異,因此如果基于一種期刊某個時間段的論文來進行研究更有意義。當然,對于同學科影響因子大致相近的期刊,可以認為論文質量近似相同。

Fig.1 Influencing mechanism

其次,標題內容是決定作者是否進一步選擇下載閱讀,并可能進一步引用的關鍵。一般情況下,很少有作者根據檢索論文標題的長度決定是否下載,主要關注標題的內容,以決定是否具有下載的必要。從這個角度,也可以說論文標題長度與下載以及后續被引無關。

從分組視角進行分析,標題長度與被引頻次關系的內在機制是標題長度與標題內容相關:當標題較短時,往往是研究熱點某個關鍵詞的進一步拓展,或者某個重要的關鍵概念,這都容易被引,因此平均被引頻次較高;當論文標題較長時,由于能夠相對詳細說明論文的內容,使得讀者對論文產生較大的興趣,從而增加被引,也會導致平均被引頻次較高。當論文長度適中時,由于標題內容與標題長度并沒有嚴格的邏輯關系,此時論文標題長度與被引可能不存在明顯的分組特征。

從標題長度與被引頻次的相關關系看,并不存在標題長度越長會增加被引,或者標題長度越長會減少被引的機制,標題長度與被引頻次無關。

基于以上分析,本文提出以下兩個假設:

H1:當標題較短時,論文平均被引頻次較高;

H2:當標題較長時,論文平均被引頻次較高;

H3:論文被引頻次與標題長度無關。

2.2 研究方法

本文將從內部視角和外部視角來分析論文標題長度和被引頻次之間的關系。從內部視角來看,我們可以研究標題長度在不同分組下的平均被引頻次,分析其中存在的大致規律,并采用Mann-Whitney U檢驗來分析它們之間的規律是否顯著。從標題長度和被引頻次的外部視角來看,采用回歸分析和分位數回歸來探究它們之間的關系:回歸分析可以探究回歸的彈性系數是否通過統計檢驗,是標題長度對被引頻次影響的平均水平;分位數回歸研究在不同被引頻次水平下,論文標題長度與被引頻次的彈性系數是否存在差異。兩種研究方法相結合可以全面系統分析論文標題長度與論文被引頻次之間關系的全貌。

2.2.1 Mann-Whitney U檢驗

Mann-Whitney U檢驗是檢驗兩個樣本之間是否存在顯著差異的非參數檢驗方法,其基本思想是:首先,將兩樣本數據進行混合并按照升序排序,求出各數據的秩;其次,進一步比較各組秩的均值是否存在顯著的差異。Mann-Whitney U檢驗統計量的計算公式如下:

(1)

其中,R1為樣本容量為n1樣本的秩和,R2為樣本容量為n2樣本的秩和。

2.2.2 回歸模型

本文將被引頻次作為因變量,標題長度作為自變量,同時對自變量和因變量取對數再做回歸,取對數不會改變原數據的性質,而且可以提高數據的穩定性。用以下回歸方程表示:

log(Y)=a+b1log(X)。

(2)

為更進一步分析被引頻次和標題長度之間的非線性關系,引入標題長度的二次項來分析:

log(Y)=a+b1log(X)+b2log2(X)。

(3)

其中,Y表示被引次數,X表示論文標題長度。

2.2.3 分位數回歸

一般意義上的回歸實質上是研究被解釋變量的條件期望,而分位數回歸[24]是用來估計解釋變量X與被解釋變量Y的分位數之間的線性關系的建模方法,分位數回歸最早是由Koenker R.[25]提出,他能夠更加全面的描述被解釋變量條件分布,而不僅僅是分析被解釋變量的均值(條件期望),同時分位數回歸也比最小二乘估計更加穩健。

一般線性回歸模型可設定如下:

ρx(t)=t(τ-I(t<0)),τ∈(0,1)。

(4)

在滿足高斯-馬爾可夫假設前提下,可表示如下:

E(v|x)=a0+a1x1+a2x2+…+akxk。

(5)

其中,u為隨機擾動項,a0,a1,a2,…,ak為待估解釋變量系數。類似于傳統的均值回歸,分位數回歸模型定義如下:

Qy(τ|x)=a0+a1x1+a2x2+…+akxk+Qu(τ)。

(6)

可采取線性規劃法(LP)估計其最小加權絕對偏差,從而得到分位數回歸解釋變量的回歸系數:

minEρx(y-a0-a1x1-a2x2-…-akxk)。

(7)

求解得:

(8)

3 研究數據和實證結果

3.1 研究數據

本文選取圖書情報與文獻學CSSCI期刊中《情報雜志》期刊進行研究。載文選取的時間為2017年,《情報雜志》2017年的載文量為415篇,刪除其中含有會議通知、書評和簡訊等文章,最后有效論文為402篇。關于論文標題長度的計算,統一包含副標題字數。變量的描述統計如表1所示。

表1 變量描述統計

3.2 論文標題長度與被引頻次關系的統計分析

論文被引次數的數據分布如圖2所示。從圖中可以看出其不服從正態分布,Jarque-Bera檢驗值為463 987.60,p值為0.000,拒絕正態分布的原假設。被引頻次的極大值為221,極小值為0,均值為8.88,總的來說被引頻次在10以下的論文占大多數。

Fig.2 Map of cited frequency distribution

論文標題長度的數據分布如圖3所示。Jarque-Bera檢驗值為53.78,對應的p值為0.000,不服從正態分布,但較為接近于正態分布。標題長度在20~25個字符內有最多的論文,論文標題最長為90個字符,最短為8個字符。

Fig.3 Distribution chart of paper title length

不同層次論文標題長度與平均被引頻次的關系如表2所示。論文標準最短設置為10個字符,并按5個字符長度進行論文標題長度分組,并計算其平均被引頻次:當論文標題長度在10以下時,平均被引頻次為15.10;當論文標題在11~15之間時,平均被引頻次為7.21;當論文標題長度在16~40字符之間時,發現除了31~35字符間其平均被引頻次為15.81以外,此情況可能由于異常點所致,其余字符段的平均被引頻次圍繞在8~9之間波動;當論文標題長度高于40個字符時,平均被引頻次在3.65左右波動。通過以上分析可以初步發現在論文標題長度適中或者較短時論文被引頻次較高,論文標題較長的論文被引頻次較低。

表2 不同論文標題長度下的平均被引頻次

3.3 論文標題長度和被引頻次的Mann-Whitney U檢驗

根據以上的統計分析,進一步對不同情況下的論文標題長度和被引頻次之間的關系進行統計檢驗。據圖2,論文的被引頻次呈現偏態分布[26],并且不能通過數據轉化的方式將其轉化為正態數據,因此本文利用Mann-Whitney U檢驗法來驗證不同情況下的論文被引頻次的差異性。檢驗結果如表3所示。

表3 不同情況下的Mann-Whitney U檢驗

第一種情況是將論文標題長度分為兩個層次:第一個層次是將標題長度小于等于40個字符的作為一組,其論文被引頻次為9.01;另一個層次是將論文標題長度較長即大于40個字符的放在一起作為一組,其論文平均被引頻次為5.88。z值為-2.262,對應的p值為0.024,在5%的水平下通過了統計檢驗,表明兩組樣本的論文被引頻次存在顯著差異,短標題的論文被引頻次更高。

假設H2沒有通過統計檢驗,一般期刊論文標題的長度規定不超過40個字符,本文標題長度包括副標題,所以會出現超過40個字符的情況。研究表明,論文增加副標題不一定能增加被引,用40個字符完全可以將論文研究內容高度概括。

第二種情況是探討標題長度小于40個字符下的不同分組表現,將標題長度分為4組來進行檢驗,分別為標題長度的25%和75%、30%和70%、40%和60%以及50%和50%。根據結果可以得到在25%和75%分組,即標題字符小于10和大于10字符這一組內,在5%顯著性水平下通過了檢驗,說明標題長度短是有利于增加被引次數。而在另外三個分組結果并沒有通過顯著性檢驗。這樣,假設H1就通過了統計檢驗,即當標題長度較短時,論文平均被引頻次較高。

3.4 論文標題長度和被引頻次的回歸分析

基于外部視角下探究論文標題長度和被引頻次之間的關系,可以采用回歸分析進行研究。因少數被引頻次的數值為0,這里采用計量分析中常見的方法即將被引頻次數值加1然后再進行回歸處理?;貧w結果如下:

log(Y)=2.236-0.143log(X)

(0.00)(0.209)

R2=0.003n=402。

(9)

上式中,Y表示被引次數,X為看論文標題長度,可以得到以下結果,雖然常數項通過了顯著性檢驗,但論文標題長度并沒有通過顯著性檢驗,并且二者之間的擬合優度很低,只有0.003,說明論文標題長度和被引頻次之間沒有線性關系,論文標題的長短并不能影響被引頻次的高低。

進一步分析引入標題長度的二次項進行回歸分析,回歸結果如下所示:

log(Y)=2.910-0.532log(X)+0.067log2(X)

(0.026) (0.552)(0.661)

R2=0.004n=402。

(10)

由上述結果可以得到,論文標題的一次項和二次項均沒有通過統計檢驗,說明論文標題長度和被引頻次之間不存在2次非線性關系。

從以上綜合分析看,假設H3得到了檢驗,即論文標題長度與被引頻次沒有關系。

3.5 論文標題長度和被引頻次的分位數回歸

因本文樣本容量所限,若采取過多頻次分位數來研究標題長度與被引頻次之間的關系價值不大,故對論文被引頻次選取3個分位進行回歸分析,結果如表4所示。

表4 分位數回歸結果

從分位數回歸結果看,論文標題長度無論在什么分位下,其回歸系數均沒有通過統計檢驗,這樣進一步驗證了假設H3。

4 結論與討論

第一,標題長度與內容相關帶來了其與論文被引頻次相關。本文研究發現,從理論上來講,在論文質量近似相等的情況下,是標題內容吸引作者下載以及后續的引用,沒有任何一個作者會根據標題的長度來決定是否下載和閱讀引用。但這并不是說標題長度與論文被引頻次無關。當論文題目較短時,往往是研究熱點或者關鍵概念,容易吸引讀者注意,進而下載和引用。單純從論文標題長短來看,其并不存在長度增加或減少越來越吸引下載和引用的機制。

第二,標題長度較短時論文的平均被引頻次較高。本文基于《情報雜志》2017年402篇論文研究發現:當論文標題長度在10個字符以內時,其平均被引頻次為15.10;而論文標題長度在11~40之間的平均被引頻次為8.85,并且統計檢驗是顯著的。說明標題較短時論文平均被引頻次較高。

第三,較長標題論文的平均被引頻次較低。本文研究發現:當論文標題較長時(超過40字符),平均被引頻次為5.88;而小于40字符論文的平均被引頻次為9.01,并且統計檢驗是顯著的。這說明即使論文標題較長,能夠對論文內容進行較全面的概括,但并不能有效提高論文的下載和被引頻次。由于正常論文標題長度一般為40字符,超過40字符的往往含有副標題,這也從另外一個側面說明盡管副標題有助于論文標題進行補充說明,但不能增加被引頻次。

第四,論文標題長度與其被引頻次無關。由于論文標題長度與被引之間僅僅存在分組統計分析的差異,并不存在嚴格變量之間的相關機制,多元回歸和分位數回歸的實證研究發現:論文標題長度和被引頻次不相關;同時擬合優度極低;在引入變量的二次項后,這種不相關的結果并沒有改變。說明論文標題長度和被引頻次之間不相關,也不存在非線性效應。

與Huggett S.[19]、Braticevic M.N.[20]、Fumani M.R.[21]等學者的研究結論一致,本文的研究表明:論文標題長度與其被引頻次無關;標題長度與內容相關帶來了其與論文被引頻次相關。對于論文標題長度對論文被引的影響,學術界并未達成共識,研究結論有時是相當矛盾的。本文認為研究結果不一致的原因主要有以下幾個方面:第一,研究者選取的研究對象不一致,包括期刊的數量、種類、影響力、樣本量大小以及學科的差異[23,27],數據源的不同是導致研究結論差異性的一個重要原因;第二,影響論文被引頻次的因素是復雜多樣的,論文的被引頻次受到論文本身、期刊以及作者等多個因素的影響,在實際的研究中,大多時候只關注了因變量與自變量之間的關聯,而忽略了其他干預和控制變量的作用,或者說未能有效排除論文標題長度以外的其它影響因素的干擾;第三,開展研究的方法具有多樣性,研究方法的不適用性、局限性也會導致結論的不一致,甚至會得出錯誤的結論。

為了盡可能排除期刊質量以及論文發表質量對論文被引頻次的影響,本文僅對《情報雜志》2017年的論文進行研究,使得研究結果更加準確。此外,本文綜合采用Mann-Whitney U檢驗、回歸分析、分位數回歸方法進行分析,研究結論相互補充且一致,研究結果具有較好的穩健性。本文的數據量有限,至于進行大樣本分析是否會得出更多的結論,或者有不同的發現,有待后續開展進一步研究。

猜你喜歡
個字符位數長度
解決Windows超長路徑問題
五次完全冪的少位數三進制展開
1米的長度
人類遺傳密碼97%待解讀
愛的長度
怎樣比較簡單的長度
不同長度
遙感衛星CCD相機量化位數的選擇
“判斷整數的位數”的算法分析
基于分位數回歸的剪切波速變化規律
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合