張 暉, 楊小彥, 趙旭劍, 楊春明, 李 波
(1.西南科技大學 理學院 四川 綿陽 621010; 2.西南科技大學 計算機科學與技術學院 四川 綿陽 621010)
隨著信息資源數量和種類的急速增長,科學研究領域不斷開拓,科研人員和學者在掌握學科前沿熱點方面面臨著越來越多的挑戰.如何快速、準確地從科研文獻中提取和識別學科領域研究的前沿熱點,對當前科研工作具有重要研究意義[1].傳統研究方法主要是以電子期刊、學位論文等作為數據源,采用詞頻分析[2]、共詞分析[3]、多維尺度分析[4]、社會網絡分析[5]和其他分析模型[6-8]來識別前沿熱點.這類研究方法主要通過分析文獻的學術傳播熱度來挖掘學科領域熱點,僅考慮了領域知識在專業學術平臺的影響力,忽視了科研文獻在社會網絡中的流行與傳播,熱點挖掘結果存在滯后、前瞻性較差等不足.
學科前沿熱點挖掘可分為兩類:第一類簡單地考慮文獻計量特征,包括詞頻分析、文獻引用、關鍵詞的共詞或共現分析;第二類是使用廣泛用于文本挖掘中的主題模型LDA、HDP等來識別主題熱點.由于引文和關鍵詞能較好地描述科技文獻的主題內容,因此國內外學者利用文獻計量的引文分析法、可視化圖譜[9]、關鍵詞的詞頻分析和共詞分析等方法進行學科前沿熱點挖掘.文獻[3]運用文獻計量中共詞和文檔共引,從高影響力文章、作者、期刊、機構和國家等角度出發,繪制知識圖譜,分析抗癌研究領域的研究熱點和整體發展趨勢.文獻[10]基于h指數和引文分析法梳理了國內外碳市場研究領域的研究熱點、發展趨勢和主要區域分布等.文獻[11]利用WoSCC收錄的Treg領域相關文獻數據進行文獻計量方法和Citespace[12]繪制共引圖譜,分析該領域的研究熱點和發展演化趨勢.除此之外,基于主題模型的學科領域熱點識別方法也得到了廣泛運用,如文獻[13]使用LDA模型從論壇語料中識別熱點話題,并計算話題強度和特征關鍵詞,以找到熱點話題的發展及演化趨勢,實驗結果說明該方法是合理和有效的.文獻[14]提出基于主題模型的熱點發現技術,實驗表明該模型在文本挖掘方面的熱點主題識別上具有明顯的優勢.
相較于專業學術平臺,信息在社會網絡環境下往往傳播速度更快、范圍更廣,更能實時地體現傳播對象的冷熱程度及普遍性,充分保證學科熱點的前沿性.因此,科研文獻在社會網絡中的傳播影響力分析對挖掘學科前沿熱點具有重要研究意義和應用價值.基于該思想,本文考慮了社會網絡中文獻傳播的普及,提出了一種用于熱點主題挖掘的方法.將文獻熱度屬性分為傳統和社會屬性,然后在社會網絡環境中構建文獻熱度評價模型,計算和分析文獻關注度,挖掘具有社會傳播影響力的學術論文.其次,采用LDA算法對文獻內容進行主題挖掘,生成學科前沿熱點主題.與已有的工作相比,本文的主要貢獻在于:
1) 從數據相關性的角度分析文獻傳播的評價指標與文獻熱度的關聯性,采用無監督學習方法進行各媒體指標的主成分分析,劃分影響文獻熱度的熱度評價指標主題類別,為測度文獻的社會網絡關注度指標奠定了基礎.
2) 通過挖掘評價指標中的社會網絡關注度因子,構建文獻熱度評價模型,計算文獻社會傳播熱度(社會網絡關注度),采用LDA主題模型對文獻內容進行主題挖掘,生成學科前沿熱點主題.
3) 利用Altmetric[8]獲取“artificial intelligence and image processing”學科的16 658條論文記錄數據集,對提出的學科前沿熱點挖掘方法進行了對比實驗.實驗結果表明,本文提出的方法有效提高了學科熱點挖掘結果的時效性,熱點主題在時間維度上與傳統方法相比,挖掘結果更具有學科前沿性.
本文工作主要為兩部分:對指標數據進行相關性分析,采用無監督學習方法進行評價指標的主成分聚類,剖析出影響文獻熱度的媒體指標主題類別,挖掘社會關注度因子并構建文獻熱度評價模型;采用吉布斯抽樣的LDA模型對科研文獻內容進行學科前沿熱點挖掘,生成學科前沿熱點知識.熱點主題挖掘算法具體的方法流程如下所示.
輸入: K=
1.2.1相關性分析 通過數據分析,本文采用皮爾遜(Pearson)相關性模型挖掘文獻傳播的媒體指標與文獻熱度的關聯性,計算其相關系數并剔除弱相關或無相關的指標,最終提取出6個文獻熱度評價指標(Reddit、Bloggers、Twitter、Google+、News、Facebook).皮爾遜相關系數是用來反映兩個變量線性相關程度的統計量.皮爾遜相關系數用PX,Y表示,計算公式為
(1)
其中:n為樣本量;Xi和Yi分別為兩個變量X和Y的觀測值;σX為變量X的標準差.
1.2.2熱度評價模型指標主題挖掘 6個文獻熱度評價指標從不同維度表征了一篇論文在各媒體平臺的傳播影響力,然而通過研究發現每個評價指標及其代表的媒體平臺都具有一定的主題性.因此,本文考慮采用無監督學習方法進行熱度評價指標的主成分分析,挖掘指標主題.進行主成分聚類之前,需進行KMO-Bartlett檢驗,計算出KMO 值為0.690,大于0.5(KMO值小于0.5 不適合進行主成分分析)表明指標間存在共同因子,因此也說明可以進行主成分分析.
雖然這些熱度指標能提取出共同因子,這些共同因子能聚類到一起構成幾個主成分,還需通過解釋總方差進行分析,各指標解釋總方差如表1所示. 根據主成分的提取原則(主成分對應的特征值應大于1,主成分積累的總方差盡可能大(50%以上)),只有成分1和成分2的特征值合計大于1,而且這兩個成分積累的總方差比較大,達到61.149%,沒有影響原始數據的共同度,表明可以將6個指標提取出兩個主成分.同時,如表2所示, 對各指標進行了主成分載荷矩陣,Facebook、Google+、Twitter、Reddit、Bloggers 5類指標對成分1貢獻較大,而成分2則主要依賴于News.因此,文獻熱度評價指標可以劃分為兩個主題:由Facebook、Google+、Twitter、Reddit、Bloggers等社交平臺構成的社會網絡媒體即社會屬性;News為代表的傳統網絡媒體即傳統屬性.
表1 各指標解釋總方差Tab.1 Total variance explained
表2 主成分載荷矩陣Tab.2 Principal component load matrix
1.2.3文獻熱度評價模型構建 由1.2.2節可知文獻熱度由具有不同主題屬性的6個評價指標綜合決定,各指標特征滿足AHP分析法中的單層次模型,因此采用AHP模型[15]思想構建文獻熱度評價模型:
psoc=λ1·Ri+λ2·Bi+λ3·Ti+λ4·Gi+λ5·Ni+λ6·Fi,
(2)
ptra=γ1·Ri+γ2·Bi+γ3·Ti+γ4·Gi+γ5·Ni+γ6·Fi.
(3)
其中:psoc表示第i篇文獻在社會網絡媒體上的關注度,即文獻熱度;ptra表示第i篇文獻在傳統網絡媒體上的關注度;λ1代表Reddit指標的權重;Ri代表Reddit對第i篇文獻的引用數;λi是指第i個評價指標在整體評價中的相對重要程度,權重越大則該指標的重要性越高,對文獻熱度的影響就越大.
表3 成分得分系數矩陣Tab.3 Component score coefficient matrix
由熱度評價指標主題類別可知,本文可采用主成分分析提取兩個主成分,借鑒文獻[16]使用主成分分析各指標數據之間的潛在關系,利用回歸法計算出成分得分系數,各指標成分得分實際上是一個相對值,即該樣本偏離所有樣本均值的程度,正值說明超過平均水平,負值說明低于平均水平,正負值正好將各指標劃分到對應的主成分中,能很好地區分各主成分的主題類別,結果如表3.
從表3可知,Twitter、Facebook、Google+等指標與主成分1密切相關,系數均在0.2以上,由此可以發現主成分1中貢獻比較大的指標主要用于測度學術論文在社會網絡媒體中的傳播影響,通過在線社交過程中的交互行為傳播所產生的影響力,是最具社會網絡關注度的因子,也是本文研究的重點.News對主成分2相關系數較高,故主成分2可以代表用于測度學術論文在新聞等傳統網絡媒體中傳播所產生的影響力.從成分得分系數矩陣確定指標權重得到文獻熱度評價模型:
psoc=0.22·Ri+0.237·Bi+0.285·Ti+0.289·Gi+0.185·Ni+0.307·Fi,
(4)
ptra=-0.088·Ri+0.495·Bi-0.294·Ti-0.27·Gi+0.648·Ni-0.182·Fi.
(5)
本文利用Altmetric跟蹤“artificial intelligence and image processing”學科的指標數據進行數據分析與處理,構建文獻熱度評價模型.因為社會網絡媒體具有時間優勢.故以主成分1構建的具有社會網絡關注度的文獻熱度評價模型進行學科前沿熱點數據挖掘實驗.通過該模型挖掘出社會網絡媒體上比較受用戶關注以及具有熱度的前沿熱點文獻數據,列舉了社會網絡關注度排名前10的文獻數據,結果如表4所示.
表4 社會網絡關注度排名前10文獻數據
從表4可知,在排名靠前的這10篇文獻中,Twitter、Facebook和Google+等社會網絡媒體上的文獻引用數較大,其社會網絡關注度的psoc值較大,說明通過主成分1構建的文獻熱度評價模型能很好地體現文獻的社會網絡特性以及熱度.
由基于社交網絡的模型評估的文獻數據被表示為dataset 1,而dataset 2表示由基于傳統媒體的模型評估的文獻數據.為了評估這兩種模型挖掘出的文獻在人工智能和圖像領域的影響,本文引入NCII指數來測量文獻的影響力.論文的引用次數與其出版時間有很大關系,一般來說,論文出版時間越早,引用的可能性就越大.這導致在不同時間出版的論文很難比較它們的影響力.因此,考慮到出版時間對參考文獻數量的影響,因此提出了一種新的NCII指數[17],其計算公式為
(6)
以最近五年內的文獻作為前沿信息,通過式(6)計算傳統媒體和社交網絡媒體的文獻影響力,驗證兩種媒體識別出的科研文獻的時效性及影響力,結果如圖1所示.從圖中可知,社交媒體挖掘的文獻的影響力值均大于傳統媒體,說明社會網絡媒體挖掘的文獻數據更具時效性和影響力.
利用吉布斯抽樣的LDA主題模型,以dataset 1為實驗數據挖掘出50個潛在主題及其代表關鍵詞.主題是由一系列關鍵詞組成,而每個詞對主題的貢獻率各不相同,因此,選擇每個主題貢獻率最大的8個單詞表征該熱點主題.根據不同主題的關鍵詞表示,本文對各個熱點主題進行話題語義抽象.由于篇幅有限,表5給出了10個主題的挖掘結果.
同時,本文分析了主題模型計算出的潛在話題分布情況如圖2所示,從圖2可知,自然語言處理、算法優化、情感分析、深度學習等熱點主題在“artificial intelligence and image processing”領域較其他主題占的比重較大,更為熱門;而圖像識別、大數據應用、可視化等熱點主題在該領域發展較為均衡.
本文以dataset 1和dataset 2為實驗數據進行學科熱點主題挖掘,選取對熱點主題貢獻最大的文獻的發表時間作為該主題的熱點時間對比分析,兩種媒體類型挖掘的熱點主題對比結果如表6所示.
圖1 社會網絡與傳統媒體NCII影響力Fig.1 The NCII of social-network and tradition-media influence
圖2 熱點主題潛在話題分布Fig.2 Potential topics distribution of hotspots
表5 前沿熱點主題
從表6可知,兩者有2個熱點話題相似,其中相似話題“情感分析”和“自然語言處理”的熱點時間不同,社會網絡媒體挖掘的這兩個熱點主題時間比較新,原因是隨著深度學習的深入研究,直接推動情感分析和自然語言處理等相關技術的發展,使兩者也成了較新的研究熱點.除了共同熱點外,社會網絡媒體挖掘的熱點主題還包含一些特有的前沿熱點信息,如“社會信息安全”、“大數據應用”、“算法優化”和“可視化”等,這些熱點概念提出時間較晚,概念較新,近年來在學術著作中有大量的研究,其熱門趨勢也越來越明顯,故也成了該領域的研究熱點.
同時,為了進一步驗證本文方法的挖掘結果更具學科準確性,以dataset 1為數據分別采用LDA主題模型和基于關鍵詞的共詞分析法[14]進行學科前沿熱點挖掘對比實驗,表7給出了這兩種方法的熱點挖掘結果.
從表7可得,兩種方法挖掘的熱點有30%是相似的.本文挖掘“人工智能與圖像處理”領域的前沿熱點,主題模型挖掘出關于圖像處理方面的熱點有“圖像識別”,其在2015年過后被廣泛關注,是該領域的研究熱點;然而傳統的研究方法并沒有挖掘出關于圖像方面的熱點,故該方法存在一定的不足.除上述熱點主題均只通過主題模型挖掘出,傳統研究方法也并未挖掘出“深度學習”、“文本挖掘”、“可視化”、“社會信息安全”等新技術或新熱點.通過知網學術趨勢(http://trend.cnki.net/TrendSearch/),查詢各熱點主題發展趨勢,以學術關注度最大的年份作為該熱點主題的學術關注時間;發現共詞分析法挖掘的熱點 “決策支持”、“行為研究”、“推理”和“認知科學理論”最大學術關注度的時間偏離目前時間,說明其研究已久,故不能作為該領域的前沿熱點;總體而言,主題模型挖掘的熱點較共詞分析法挖掘的熱點更準確.
表6 兩種媒體類型挖掘的熱點主題對比Tab.6 Hot topic results comparison of two media types
表7 兩種方法熱點主題挖掘結果對比Tab.7 Hotspot mining results comparison of two methods
針對以往挖掘學科前沿熱點存在時滯過長等不足,本文提出基于社會網絡關注度的學科領域文獻熱度評價模型挖掘學科前沿熱點.通過對各指標進行相關性獲取相關屬性,采用主成分分析劃分社會與傳統屬性,構建具有社會網絡關注度的文獻熱度評價模型.以“artificial intelligence and image processing”學科文獻記錄數據為實驗數據,利用構建的文獻熱度評價模型識別該學科有影響力和熱度的文獻,由于文獻內容冗余和有噪聲,故本文采用在文本抽取中效果較好的LDA模型,通過兩組對比實驗,得出自然語言處理、算法優化、情感分析、深度學習等熱點主題在人工智能和圖像處理領域較其他主題更為熱門,圖像識別,大數據應用、可視化、人工智能理論、信息安全等熱點發展趨勢較均衡的結論,同時也驗證了本文挖掘的學科領域前沿熱點知識的前沿性、時效性和準確性.