?

大數據視域下陽明心學主題挖掘及作者發現研究

2020-02-01 15:23楊秀璋武帥夏換竇悅琪趙紫如朱滌塵張亞成
現代計算機 2020年34期
關鍵詞:發文候選人成果

楊秀璋,武帥,夏換,竇悅琪,趙紫如,朱滌塵,張亞成

(1.貴州財經大學信息學院,貴陽550025;2.貴州財經大學,貴州省經濟系統仿真重點實驗室,貴陽550025;3.貴州財經大學,貴州省電子商務大數據營銷工程研究中心,貴陽550025)

0 引言

陽明心學是明代著名思想家王陽明的心學思想,是中國傳統文化的精華,其精神內涵包括“知行合一”“致良知”“身之主宰便是心”等[1]。陽明文學強調“心即是理”,即最高的道理不需外求,而從自己本心得到,其中的四句教“無善之惡心之體,有善有惡意之動,知善知惡是良知,為善去惡是格物”廣為流傳。目前共分為七個學派:右派(江右學派)、南中王門學派、閩粵王門學派、北方王門學派、楚中王門學派、左派(浙中王門學派)、泰州學派[2-3]。陽明心學文獻作為其交流與傳播的重要載體,有效地推動陽明心學的發展。當前陽明心學的研究主要采用期刊閱讀、書籍查閱、學派交流,核心作者僅僅依據發文量來判斷,缺乏利用大數據技術來進行分析和研究。

隨著互聯網和大數據技術的迅速發展,傳統文化相關的學術成果和在線博客呈爆炸式增長,如何從海量文獻中識別出核心科研作者、挖掘出熱門主題變得越來越重要。核心作者是學科研究的堅實基礎,決定著學科研究方向以及學術成果的質量[4]。傳統識別方法是通過發文量來認定,卻忽略了論文質量,缺乏利用社交網絡或知識圖譜技術構建核心作者間的關系,識別結果往往存在片面性,針對這些問題,本文通過社交網絡方法挖掘陽明心學的核心作者深層次合作關系。同時,利用LDA主題模型挖掘陽明心學文獻的核心主題關鍵詞,并結合可視化技術直觀地反映陽明心學的研究熱點。

近年來,國內外學者致力于學術文獻研究并提出各自的分析方法。侯建華[5]通過PathFinder算法,基于美國科學情報研究所的Web of Science三個檢索數據庫(SCI、SSCI、A&HCI)繪制和分析工商管理學科主干理論演進的關鍵路徑圖譜。楊秀璋等[6]基于LDA主題模型挖掘水族文獻知識,揭示學科領域作者合作關系。何超[7]借助知識圖譜理論與方法研究我國工商管理學科,并系統繪制管理科學學科知識圖譜。嚴紅等人[8]基于CSSCI引文索引數據庫為數據來源,采用CiteSpace引文空間可視化分析方法,繪制國內協同創新研究熱點知識圖譜。黃海瑛[9]通過知識圖譜和可視化技術系統分析外國文學文獻及熱點變遷。

綜上,結合國內外學者的研究現狀,本文提出一種基于大數據分析技術的陽明心學研究方法,包括社交網絡、LDA模型、詞云可視化,旨在挖掘陽明心學文獻的熱門主題和核心作者,并結合可視化技術展現陽明心學的研究熱點及作者關系圖譜。

1 研究方法

1.1 基本思路與框架

本文旨在利用大數據分析技術研究陽明心學文獻,通過文獻計量、社交網絡、LDA模型、綜合指數、可視化分析方法挖掘陽明心學文獻的熱門主題和核心作者。該算法的框架圖如圖1所示。

(1)采用Python和Selenium技術自定義爬蟲抓取KI陽明心學文獻數據。

(2)數據預處理包括中文分詞、停用詞過濾和特征提取,提取陽明心學相關的特征并存儲至數據庫,包括文獻標題、文獻作者、文獻摘要、文獻來源、發表時間、被引量和下載量。

(3)陽明心學大數據分析包括文獻計量分析、核心作者計算、科研團體發現和研究主題挖掘,所涉及的技術包括文獻計量、普賴斯定律、綜合指數、社交網絡、LDA模型和可視化技術。

1.2 數據采集及預處理

本文旨在挖掘中國知網陽明心學文獻的核心作者,分析陽明心學核心期刊雜志及研究主題,共抓取中國知網1974年至2019年4月期間2463篇陽明心學相關的學術成果,并對抓取的文獻進行數據預處理,從而得到更準確、更完整、質量更高的文獻信息。實驗所采用的數據預處理主要包括異常值處理、數據清洗和中分分詞。

圖1 陽明心學研究框架圖

1.3 LDA模型

LDA(Latent Dirichlet Allocation)是一種文檔主題生成模型,由Blei等人[10]在2003年首次提出,是一種基于主題(T)、文檔(D)和主題詞(W)的三層貝葉斯結構,其中文檔到主題(D-T)以及主題到主題詞(T-W)層面均服從多層分布。LDA模型將一篇文本的每個詞都按照一定概率分布到某個主題上,并從這個主題中選擇相關的詞語集,如圖1所示,將d篇文檔映射到k個主題中,每個主題包括一定量的主題詞。

圖2 文檔-主題-詞映射模型

本文針對陽明心學文獻完成主題挖掘研究,經過LDA主題分布后,得到各個文檔的不同主題所占比例,實現陽明心學各主題關鍵詞的挖掘。

2 陽明心學文獻計量分析

本文采用Python自定義爬蟲抓取中國知網陽明心學相關的學術成果,共獲取2463篇學術成果,包括學術期刊論文1825篇、博士論文134篇、碩士論文354篇、國內外會議論文63篇、報紙文獻87篇,詳細信息如表1所示。

表1 中國知網1974年至2019年3月的陽明心學學術成果匯總表

2.1 近十年發展綜述分析

本文首先利用文獻計量和可視化技術分析陽明心學近十年的發展概況。通過PyEcharts庫繪制如圖3所示的趨勢圖,圖中橫軸為2009至2018年這十年的時間軸,縱軸為近十年中國知網陽明心學相關的學術成果的發文量(紫色折線圖)、最高引用量(紅色柱狀圖)和最高下載量(藍色柱狀圖)。整體而言,發文量呈平緩增長趨勢,可見越來越多的學者關注陽明心學研究,對陽明心學的傳承和弘揚起到一定的推廣作用。其中,2014年陳琪[11]《王陽明“致良知”思想研究》博士論文下載量最高,共被下載6780次,被引用29次。

圖3 近十年學術成果發展趨勢圖

2.2 發文作者分析

對陽明心學學術成果相關作者發文量進行匯總排名,得出如表2所示的結果。其中,貴州大學中國文化書院的張新民、貴陽學院陽明學與黔學研究所陸永勝均發表26篇以陽明心學為主題的文獻。

表2 作者發文量前十統計表

2.3 學科類別和研究類型分析

針對中國知網陽明心學學術成果的學科類別和研究類型進行計量分析,得出如圖4和圖5所示的結果。其中,圖4是陽明心學學術成果學科類別分析,以哲學與文學為主,其中哲學占59.07%、文學占10.11%,陽明心學主要歸于哲學和文學范疇。

圖4 學科類別統計分析

圖5是陽明心學研究類型分析,排名最高的分別是基礎研究(社科)、政策研究(社科)、行業研究(社科),分別占80.07%、4.38%、3.69%,該結果間接反映出我國大多數研究陽明心學的為基礎社科研究。

圖5 研究類型統計分析

2.4 學術期刊分析

學術期刊分析能有效挖掘研究陽明心學的中堅力量,它們有效推動了中國傳統文化的研究。本文采用WordCloud技術挖掘熱門期刊,得出如圖6所示的結果。其中,“貴陽學院學報(社會科學版)”“孔子研究”“貴州師范大學學報(社會科學版)”“哲學研究”“貴州大學學報(社會科學版)”五家期刊雜志社的出現頻數最高,分別為82次、29次、27次、26次、22次,它們均對陽明心學的研究作出重要共現,也側面反映出貴州省對陽明心學的重視程度。

圖6 期刊文獻分析

3 陽明心學核心作者計算

針對傳統的核心作者發現僅采用發文量或被引用量來評判的缺陷,本文采用一種同時考慮發文量和被引用量來確定核心作者候選人的方法,再通過普賴斯定律計算陽明心學文獻核心作者候選人的測評樣本[12],最終計算出文獻的核心作者。具體步驟如下:

(1)依據普賴斯定律統計核心作者候選人刊發文章的累計最低發文量。其計算公式如式(1)所示:

其中,Mp為普賴斯定律統計發表陽明心學文獻的最低發文量,Npmax為普賴斯定律統計的最高發文量。實驗統計發現,陽明心學文獻最高發文量為26,依據普賴斯定律,選擇發表四篇或四篇以上的作者作為陽明心學文獻核心作者的候選人。

(2)計算核心作者候選人刊發文章的累計最低被引用量。實驗發現,陽明心學文獻中作者發文被引用量最高為71次,依據普賴斯定律確定核心作者候選人的最低被引用量,其計算公式(2)如下:

其中,Mc為普賴斯定律統計陽明心學文獻的最低被引用量,Ncmax為作者發文單篇被引用最高量。依據普賴斯定律,選擇被引用量在七次以上的作者作為陽明心學文獻核心作者的候選人。

(3)篩選符合①和②的作者進行統計分析,最終確定陽明心學文獻核心作者候選人為45位,候選人共發表學術成果396篇,占全部陽明心學文獻的16.1%,候選核心作者的總被引用次數為1794次,占陽明心學文獻總被引用量的28.4%。

(4)計算陽明心學核心作者候選人的平均發文量和平均被引用量。其計算公式如下:

其中,X表示核心作者候選人總發文量,Y表示核心作者候選人發文的總被引用量,n表示核心作者候選人數。

(5)依據發文量與被引用量構建綜合指數,從陽明心學在中國知網收錄文獻的數量和質量兩個角度評估核心作者候選人。綜合指數計算公式如下:

其中,scorei表示第i位核心作者候選人的綜合指數得分,xi和yi分別表示第i位核心作者候選人的發文量和累計被引用量,發文量和被引用量系數均為0.5。

運用此綜合指數方法對45位核心作者候選人進行計算,得出如表3所示的前20位核心作者。其中,左東嶺發表陽明心學相關文獻9篇,被引用量為180次,綜合指數為2.77;楊國榮發表陽明心學相關文獻11篇,被引用次數為159次,綜合指數為2.62;張新民發表陽明心學相關文獻26篇,被引用量為46次,綜合指數為2.06;王路平發表陽明心學相關文獻22篇,被引用次數為58次,綜合指數為1.98;陸永勝發表陽明心學相關文獻26篇,被引用次數為29次,綜合指數為1.85。該方法有效挖掘出陽明心學研究的核心科研工作者。

表3 陽明心學學術成果核心作者統計表

4 陽明心學作者關系發現

針對陽明文化核心作者關系發現,本文提出一種基于社交網絡和共現矩陣的分析方法,利用Gephi構建陽明心學文獻作者間的關系圖譜,進一步挖掘對陽明心學做出重要貢獻的科研群體。具體操作如下:

(1)首先計算中國知網2463篇陽明心學學術成果的所有作者共現矩陣,當兩位作者出現在同一篇文獻中時,則認為共現并構建一條相關聯關系邊,否則沒有。

(2)采用Gephi構建陽明心學作者關系圖譜,繪制如圖7所示的效果圖。由圖可知,圓圈越大表示合作關系越密切,反之越少。

圖7 陽明心學核心作者合作關系圖譜

該知識圖譜共挖掘具有合作關系的核心作者435名,合作次數321次,平均聚類系數為0.844,平均路徑長度為1.137。陽明心學核心科研群體包括以張新民老師為代表的貴州大學中國文化書院科研團隊,其研究方向是中國古代史、哲學和陽明文化;以鄒建鋒老師為代表的湖州師范學院團隊,他們的研究方向是明代思想史、明代儒學和哲學;以陸永勝老師為代表的貴陽學院科研團隊,其研究方向是中國文學、哲學和王陽明心學美學。

綜上,這些科研團隊對中國傳統文學及陽明文化研究均有一定的貢獻,同時,更多陽明心學研究者采用獨自科研并發表相關學術成果的方式。本文也鼓勵科研工作者合作研究、共同探討,為中華傳統文化的保護和傳承提供幫助。

5 陽明心學研究主題挖掘

本文采用WordCloud和LDA模型挖掘陽明心學的主題關鍵詞。其中,詞云分析得出如圖8所示的分布圖,陽明心學學術成果的熱門主題詞主要包括“王陽明”“陽明心學”“王陽明心學”“致良知”“傳習錄”“知行合一”“龍場悟道”“程朱理學”等,它們被研究的頻率較高,直接反映了陽明心學的核心價值及學術研究方向。

圖8 陽明心學文獻的熱點主題詞

在基于LDA模型的主題挖掘實驗中,本文通過實驗發現最佳主題數為3,迭代次數為500,最終實驗結果如圖9所示,三個圓圈分別代表陽明心學學術成果的三個核心主題,即陽明心學和知行合一(Topic 1)、哲學思想和美學啟示(Topic 2)、儒學思潮和明代文學(Topic 3),它們明顯區別且聯系密切。圖9展示了主題3對應的詞頻大小,LDA主題模型有效凝聚了陽明心學的主題,可視化直觀地呈現各主題對應的關鍵詞分布差異及重要程度。同時,為進一步挖掘各主題的核心關鍵詞,通過LDA主題模型提取三大主題的前20個主題詞,如表4所示。

圖9 陽明心學LDA主題挖掘

表4 LDA模型主題-關鍵詞識別結果

由表可知,每個主題的差異明顯,主題1中的特征詞主要是陽明心學和知行合一,包括“心學”“王陽明”“知行合一”“龍場悟道”“研究”等主題關鍵詞;主題2中的特征詞主要是哲學思想和美學啟示,包括“王陽明”“哲學”“良 知”“哲 學 思想”“倫理”“精神啟示”等主題關鍵詞;主題3中的特征詞主要是儒學思潮和明代文學,包括“儒家”“文化”“陽明心學”“影響”“明代”“文學”“儒學理論”等主題關鍵詞。

6 結語

針對中國傳統文學和哲學缺乏利用大數據技術分析的特點,本文提出一種基于大數據分析技術的陽明心學研究方法,主要采用文獻計量、社交網絡、LDA模型、詞云可視化對中國知網所收錄的陽明心學相關的2463篇學術成果進行研究。

實驗結果表明,本文方法發現了以左東嶺、楊國榮、張新民、王路平、陸永勝為代表的陽明心學核心研究者,挖掘的熱門主題包括“王陽明”“陽明心學”“知行合一”“致良知”“傳習錄”等,LDA模型識別出三大核心主題,分別是陽明心學和知行合一、哲學思想和美學啟示、儒學思潮和明代文學。本文方法能有效地挖掘出中國傳統文化的主題關鍵詞及作者關系圖譜,使研究的主題脈絡更加清晰,為推動陽明心學的弘揚與發展提供幫助,具有一定的應用前景和和實用價值。

猜你喜歡
發文候選人成果
七部門聯合發文 進一步完善和落實積極生育支持措施
村黨組織委員會候選人預備人選的推薦與確定
第十五屆“中國大學生年度人物”入圍候選人展示(以姓氏筆畫為序)
驗收成果
數說中國—東盟經貿合作成果
2018數博會4大成果
校園拾趣
爺孫趣事
以牙還牙
一張圖看懂“論壇成果清單”
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合