?

基于綜合指數和可視化分析的紅學熱門主題及核心作者研究

2019-01-06 02:19張亞成夏換楊秀璋于小民朱滌塵竇悅琪
電腦知識與技術 2019年32期
關鍵詞:紅學

張亞成 夏換 楊秀璋 于小民 朱滌塵 竇悅琪

摘要:針對目前紅學研究主題繁多且學術成果數量龐大,對核心作者及其文獻篩選工作困難的問題,該文提出了一種基于綜合指數和可視化分析的紅學熱門主題及核心作者研究方法,篩選出九大熱門主題,并從多方面分析了評估紅學核心作者的因素,從多個角度分析了紅學研究文獻的特性,研究其特征和主旨。該文采用Python語言進行了詳細的實驗,分析了紅學核心作者與其作品的聯系,挖掘出作品研究價值高且適用性廣的核心作者。實驗結果表明該算法具有一定的理論意義和研究價值,可以應用到作者推薦、文獻分析等領域,同時能優化紅學研究方式,推動紅學研究發展。

關鍵詞:紅學;核心作者;綜合指數;Python;普賴斯定律

中圖分類號:1207.411 文獻標識碼:A

文章編號:1009-3044(2019)32-0023-04

1基于綜合指數分析紅學核心作者的必要性

《紅樓夢》是中國歷代以來唯一以一本書的研究,而建立起一門專門學問的作品,這就是大家所稱的“紅學”。進入“紅學”圈子的人,上至高層官員、國學大家、著名作家,下至普通的研究者,人數之眾多,可與西方的“莎士比亞學”相媲美。

目前我國紅學研究主題繁多,每年有大量文獻被收錄,同時不乏大量商業炒作和虛假文獻,為廣大紅學學者對核心作者和文獻的篩選和研究帶來的很大阻礙。針對以上問題,本文提出了一種基于綜合指數的分析方法,通過該算法結合可視化分析,可以直觀反映出熱門主題的核心作者。本文旨在分析出熱門主題文獻和其核心作者之間的關系,從多個角度挖掘紅學主題,利用綜合指數分析方法對收集到的紅學文獻數據,從而得出核心作者群體,并利用數據可視化技術進行直觀展現。

本文實驗數據集是CNKI收錄的19598篇紅學文獻的相關數據。主要步驟是利用Python技術自定義爬取CNKI的相關數據,構建詞云和綜合指數分析等模型分析文獻信息,從多個角度挖掘熱門主題和文獻的關系,根據提取的特征預測核心作者。實驗結果表明,本文提出的算法可以有效挖掘出紅學熱門主題有價值的信息,包括核心文獻的下載量、被引量等;該方法可以給紅學研究者甄別文獻質量,快速篩選熱門話題相關核心作者,從而為研究者學習、引用紅學核心文獻提供幫助,具有重要的理論意義和實際應用價值,可廣泛應用于紅學研究事業,優化紅學研究方式,推動紅學研究發展。

2紅學文獻和核心作者的相關研究現狀

核心作者是對本學科研究的發展具有較大貢獻的科研人員,同時也是期刊學術影響力、競爭力的重要貢獻者,他們影響著期刊的生存與發展,對核心作者進行測評有助于學科研究和學術期刊的發展嘲。目前對文獻的研究主要分為文獻分析、核心作者算法分析兩方面。高淮生對紅學高端論壇的學術內容進行綜述。崔淼對近三十年作者的文獻、學術思想進行了評述,分析具有代表性的觀點,總結近三十年來《紅樓夢》作者新說的研究路徑、文化傳統、新變及局限,反思作者研究之于《紅樓夢》這部傳統小說經典的價值所在,并引入基于“闡釋循環”理論的理想作者研究模式。高源對《紅樓夢》的哲學性進行了考辨,分析其能否進入哲學的視閾并成為嚴格意義上中國哲學研究的一個領域。楊子倩等通過對《紅樓夢》中家具相關文獻的互證,研究《紅樓夢》中與桌案相關的物質文化細節鑒古知今,以期為了解《紅樓夢》的器物文化和研究家具文化與禮制提供參考意義。朱淡文對《紅樓夢》文獻學提出了研究綜述,在??闭砑凹t學資料的搜集匯編等方面皆取得了重要收獲。

在核心作者算法分析方面,鐘文娟基于普賴斯定律和綜合指數法對《圖書館建設》的核心作者進行分析測評。段和平等對核心作者群和期刊發文的意義做出了探討。張磊以《現代大學教育》為例,探究了如何建立積極互動的“雜志與作者(讀者)關系”。李智毅等對公開發表的學術文獻數據為基礎,采用文獻計量學等方法和多種專業工具組合,對國內軍民融合研究文獻的作者進行了多方位的研究,以發掘相關領域的核心作者。杜宇等對我國醫學論文進行綜合評測篩選,了解檢驗醫學重要期刊和核心作者,為醫學人員的研究提供幫助。

這些文獻研究或核心作者算法研究通常是利用文獻計量學方法對某一小部分學科的核心作者進行研究,或是僅僅從學術角度對紅學進行分析,沒有將核心作者的算法研究和紅學文獻研究相結合,深層次對紅學核心作者及其文獻進行挖掘。本文將引入綜合指數分析、WordCloud等方法,結合可視化技術從多個角度深層次挖掘紅學核心作者及其文獻,更好地優化紅學研究產業,為紅學學者提供幫助。

3紅學文獻熱門主題核心作者分析及可視化研究過程

3.1系統架構

本文旨在對CNKI收錄的19598篇紅學文獻進行數據分析,其系統框架如圖1所示,主要包括數據采集、數據預處理、數據分析、實驗分析及結果評估四個步驟,具體流程如下:

(1)首先采用Python自定義爬蟲抓取文獻數據。

(2)對收集到的數據進行預處理操作,包括異常值處理、數據清洗、缺失值補齊等操作。

(3)數據分析主要包括可視化分析和算法分析。通過echarts、熱點詞云等方式直觀展示影響紅學熱門主題及文獻的相關因素,利用綜合指數分析方法深層次挖掘熱門話題和核心作者的關系。

(4)最后評估實驗結果,得出結論。

3.2數據采集

本文使用Pvthon自定義爬蟲對CNKI紅學相關文獻進行抓取,并將信息存儲到本地excel。圖2是CNKI文獻《“歷史回顧與未來展望——《紅樓夢》文獻學研究高端論壇”學術綜述》對應的頁面,包括題名、作者、來源、發表時間、數據庫、被引次數和下載量等信息。

3.3數據預處理

在進行數據分析之前,需要對所爬取的文獻數據進行預處理操作,包括缺失值填充、異常值處理、數據清洗等步驟,其目的是為了保證數據的質量和標準,從而保證分析的準確性。本文的數據預處理操作過程包括:

(1)缺失值填充。在爬取文獻數據的過程中,存在缺失部分信息例如作者信息、下載量等情況,在標記缺失項后,利用定向爬取補全數據,部分數據采用手動填充。

(2)異常值處理。所爬取的小部分文獻數據不符合實際情況,如無作者、部分數值為0等,此時采用excel排序后進行定向校驗。

(3)數據清洗。原始數據中存在重復發文和與紅學相關性較低的文獻,比如學者逝世訃告等,需要刪除重復項、篩選無關項進行處理。

最終得出從1954年到2019年5月的19589篇紅學相關學術成果如表1所示。

3.4詞云分析

“詞云”是對數據文本中出現頻率較高的熱點詞,予以視覺突出,使瀏覽者可以很快了解文本的主旨,主要利用文本挖掘和可視化技術。本文中使用的詞云是在Python中,通過安裝WordCloud詞云擴展包以形成的詞云圖片。

本文主要對紅學熱門文獻的題材及標簽進行分析來生成詞云。其流程如圖3所示。

3.5綜合指數

綜合指數分析是從評價紅學中9大熱門主題的作者人手,先采用普賴斯定律得出核心作者候選人,接著選用發文量和被引量這兩項指標得出該作者的質量指標值,也就是該作者在熱門主題學術成果中的平均指標值,最后比較各作者間的指標值大小,得出最終的核心作者群。

4實驗分析及結果評估

4.1紅學近十五年發展綜述可視化分析

如表2所示,篩選出2004年至2018年的所有學術成果,包括發文量、第一引用量和第一下載量,如圖4所示。紅學的學術成果發文量在2011年達到頂峰,隨后呈現下降趨勢,可見有關紅學的研究熱度有所減弱,第一引用量和下載量亦是如此。其中,引用量第一的是2005年童慶炳在北京大學學報發表的《文學經典建構諸因素及其關系》,被引用230次;下載量第一的是2009年湖南師范大學鄧娜發表的碩士論文《<簡·愛>與<紅樓夢>女主人公形象的比較研究——中西文化互觀中的簡·愛與林黛玉》,被下載10473次。由此可見,不少相關文獻是采用紅樓夢本身或是其中人物事件作為案例或交叉比較研究,所以要在眾多文獻中準確找出需要的研究點,還是有一定難度。因此,篩選總結出熱門主題的核心作者是十分有必要的。

4.2主題詞詞云分析

利用python的wordeloud詞云技術,對爬取的19598條紅學學術成果以主題詞為關鍵詞,形成熱門詞云,如圖5所示。其中,“紅樓夢”出現次數最多共14602次,但由于紅樓夢與紅學本是同源,所以該主題不納入計算核心作者群的候選熱門主題中。剩余主題選取總占比超過2%的9個主題,即“翻譯”“小說”“人物形象”“曹雪芹”“清代”“林黛玉”“悲劇”“后四十回”和“賈寶玉”,出現頻次分別是3216次、789次、749次、693次、675次、526次、465次、417次和380次。

其中,score;表示第i位核心作者候選人的綜合指標數,xi表示其總發文量,Yi表示其總被引量。發文量和被引量的系數都為0.5。

運用此公式對76位九大主題核心作者候選人進行計算,得出如表4所示的前18位綜合指數超過1的核心作者。其中劉澤權發表相關文獻25篇,被引次數594次,綜合指數為5.758;洪濤發表相關文獻25篇,被引次數337次,綜合指數為3.865;江帆發表相關文獻11篇,被引次數421次,綜合指數為3.709。這種多方面指標的方法計算核心作者的方法更加準確客觀,具有很高的參考價值。

5結束語

傳統紅學分析方法普遍利用文獻計量學的方法對文獻進行分析,步驟較為煩瑣,效率較低,工作量大,沒有結合可視化分析對現有文獻進行深層次挖掘。針對這一情況,本文提出了基于綜合指數的核心作者研究,結合數據可視化,得出以下結論:

(1)紅學近十五年發展綜述可視化分析顯示紅學文獻引用量第一的是2005年童慶炳在北京大學學報發表的《文學經典建構諸因素及其關系》,下載量第一的是2009年湖南師范大學鄧娜發表的碩士論文《<簡·愛>與<紅樓夢>女主人公形象的比較研究——中西文化互觀中的簡·愛與林黛玉》,可見紅學中人物案例和其他文學作品交叉比較這一方向是較為熱門的研究方向。

(2)主體詞云分析得出“紅樓夢”是研究的核心內容,“曹雪芹”“小說”“翻譯”“人物形象”是比較熱門的研究題材。

(3)綜合指數算法對核心作者候選人進行篩選,通過構建綜合指數模型得出了發表文獻最具有參考和研究價值的18名核心作者,他們的綜合指數指標最高。

綜上,本文提出的研究方法可以對紅學相關文獻進行了有效挖掘和分析,這對于紅學相關研究者以及對紅學感興趣的學者都具有良好的參考價值,避免了文獻過多而無法精準找到所需要的主題和作者的情況。實驗證明用這樣的方法識別出核心作者是可行的,同樣對于其他學術領域的文獻檢索也可以同樣實現,這樣大大減少了人工篩選的過程,提高了學習的效率和研究的準確性。此外,本文對于傳播弘揚紅學文化也具有一定的宣傳意義,有望再次激發起各學者對于紅學文化的研究興趣與熱情,推動紅學研究的發展與進步。

猜你喜歡
紅學
今天,我們如何面對紅學?
吳宓檔案中的“紅學”資料
趙建忠《紅學流派批評史論》序
新中國紅學第一人——追憶李希凡老師
Force-Based Quadrilateral Plate Bending Element for Plate Using Large Increment Method
紅學研究溯源
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合