?

基于LDA模型的高??蒲泄芾碇黝}演化研究

2021-07-12 06:45薛培軍
中州大學學報 2021年3期
關鍵詞:科研人員文檔強度

薛培軍,潘 宋

(鄭州職業技術學院,河南 鄭州 450121)

當前關于高??蒲泄芾淼难芯恐饕譃橐约钍侄魏图罘椒橹?、以科研人員(教師)為主、以科研獎懲機制為主等幾個方面。以激勵手段和激勵方法為主的研究主要是從不同的視角提出科研獎懲機制措施方面展開。孫桃[1]探討了內、外兩方面激勵因素對科研人員的科研績效的影響,并指出薪酬和創新是影響科研績效的重要激勵因素。張和平[2]認為高校薪酬水平及當地薪酬購買力對高校教師的科研生產力具有顯著影響。以科研人員(教師)為主的研究主要是以人為主體。張海[3]呼吁為加強對高??蒲腥藛T人文關懷,為高??蒲腥藛T創造良好的科研環境、科研數據規范化和標準化。熊立[4]通過調研大量高??蒲腥藛T的各方面信息,得出科研人員的科研績效受到工作沉浸感的顯著影響。劉宇文[5]認為目前高??蒲型獠开剳蜋C制缺乏創新是高校教師缺乏科研激情的主要原因之一。史冬波[6]以多起學術不端事件為案例進行分析,得出了科研不端行為很大程度上受到激勵誘惑與獎懲機制不對稱的影響。

現有研究對當前高??蒲泄芾淼陌l展和趨勢涉及較少,本文從主題模型的角度出發,研究高??蒲泄芾淼陌l展主題,從總體上把握高??蒲泄芾淼难芯棵}絡和發展動向。

一、研究方法及數據來源

(一)LDA模型

主題是由具有某領域特性的一系列專業術語組成,這些術語的組合能夠表征一個領域的研究內容及研究方向。從學術期刊的角度來看,科研管理在其發展過程中的研究內容變化,表現為其研究主題的變化。LDA(Latent Dirichlet Allocation,LDA)模型[7]是一種主題(topic)生成模型,是以文本—主題—詞語的三層貝葉斯結構來實現文檔中主題及詞匯生成,能夠挖掘出龐大語料庫中隱含的主題信息[8]。LDA模型認為文檔由若干個主題以不同的概率組合而成,而主題是由若干個詞語以不同的概率組合而成。從主題模型的角度來講,每一篇文檔都是詞匯構成,而詞匯由主題概率分布和詞匯概率分部聯合采樣得到,其數學描述為:

1.對于語料庫D中的每一篇文檔d,依據服從于Dirichlet分布原則采樣獲取文檔d中的主題分布θd,即θd~Dir(α);

2.對于在每一個主題,依據服從于Dirichlet分布原則采樣獲取主題z中的詞匯分布φz,即φz~Dir(β)。

3.根據主題分布θd獲得主題zd,j,再依據詞匯分布φz獲取詞匯wd,j

重復上述過程,即可獲得一篇文檔中的所有詞匯。其中,D代表原始語料庫,d代表第d篇文檔,θd是文檔-主題概率分布,φz是主題-詞匯概率分布,Dir(α)和Dir(β)代表先驗分布狄利克雷分布,α和β代表模型的超參數,是手動設置的常數,zi代表第d篇文檔的第j個主題,wd,j代表第d篇文檔的第j個詞匯。在整個過程中,θd和φz是隱含的參數,一般采用吉布斯(Gibbs)采樣方法進行參數估算。Gibbs利用詞匯和主題之間的后驗概率,間接估算參數φ和θ的值。參數估算步驟如下:

1.將主題zi初始化為1到K之間的隨機整數。i從1遍歷到詞匯總數N。

2.迭代循環。i從1遍歷到N,并給詞匯賦予新的主題。

3.估算φ和θ值。分布收斂后,保存樣本,將zi的值作為訓練成熟的數據。w表示詞匯迭代一次的樣本,據此間接推斷φ和θ的值,公式如下:

(1)

(2)

(二)數據來源

本文以來自中國知網的關于高??蒲泄芾淼钠诳撐臄祿鳛長DA模型的原始語料庫,進而挖掘出潛藏在學術期刊中的研究主題。根據LDA模型的輸出結果,對比分析不同年份的主題強度及主題內容的變化,從而梳理出高??蒲泄芾淼难芯棵}絡和趨勢。

以“高??蒲泄芾怼睘闄z索詞,收集中國知網數據庫的期刊論文數據,時間跨度設置為2011—2020,在對檢索結果進行精煉和篩選后得到期刊論文2622篇。鑒于期刊論文的結構性及文本內容的復雜性,本文僅以對論文研究內容具有強表征性的標題、摘要和關鍵詞作為原始數據,并進行數據清洗。接著使用由Python編程的Jieba中文分詞工具對每一篇文檔進行分詞。以一年為一個時間窗口,將數據以文本文檔的形式分布到對應的時間窗中,文本中每一行詞語序列代表一篇論文的分詞結果。2011—2020年,我國高??蒲泄芾硌芯课墨I呈倒“U”形趨勢,自2015年峰值后下降明顯,研究力量有所減弱。各時間窗口的文檔數及詞匯數見表1。

表1 各時間窗口中文本集數據情況

三、主題挖掘及結果分析

(一)主題挖掘

在進行主題挖掘之前,需對LDA主題模型的參數進行設置。根據LDA模型應用中常用的設置,這里設置參數α=0.5,β=0.1,迭代次數item=1000。根據困惑度(Perplexity)評價函數確定了總文本集的最優主題數為19。LDA模型腳本以Python語言編程,將處理后的期刊論文數據輸入到腳本中,得到2622篇期刊論文的文檔-主題概率分布矩陣和19個主題的主題-詞匯概率分布矩陣。通過對主題挖掘結果的分析與觀察,篩選掉6個無效主題。參照已有文獻[9]的主題命名方法,將保留的13個主題以其特征詞匯的含義歸納命名,并劃分為“管理主體”“科研主體”“科研載體”三大類,見表2。其中,“管理主體”類的主題內容是關于高校的研究,包含高校、創新、制度、改革四個主題;“科研主體”類的主題內容是關于科研人員的研究,主要包含績效、研究人員、激勵三個主題;“科研載體”類的主題內容是關于科研的對象的研究,包含學術、系統、經費、信息化、成果轉化、科研項目等主題。

表2 主題挖掘結果

(二)主題強度演化

主題強度演化展示了相關主題在學術期刊中的研究熱度,主題強度越大,則表明在當前時間段內該主題的研究熱度越高。通過分析對比同一主題在時間軸上的主題強度變化,能夠動態把握該主題的研究情況,對分析主題的演化具有重要意義。主題挖掘結果中生成的文檔-主題概率分布矩陣,給出了所有主題的概率分布情況,反映主題對文本的貢獻度,亦即主題強度。本文采用的主題強度的計算方法[10]:

(3)

其中Q(Zt,k)表示當前時間片t中主題k的強度,θd,k表示在第d篇文檔中第k個主題的概率,Dt表示時間片t上的文檔數量。

結合表1中各年份的文檔數量及主題強度計算公式,可以計算出總文本集中的主題在各個時間片上的主題強度。三類主題在時間軸上的主題強度變化如圖1、圖2、圖3所示,研究顯示,我國高??蒲泄芾碇黝}隨高??蒲邪l展的要求發生承接和轉化。

圖1 “管理主體”類的主題強度變化

圖2 “科研主體”類的主題強度變化

圖3 “科研項載體”類的主題強度變化

由圖1可以看出,創新(Topic 3)和改革(Topic 13)的主題強度整體呈上升趨勢,說明在高??蒲泄芾眍I域,研究科研管理創新和改革的熱度持續增高;另外,受2014年“大眾創業,萬眾創新”的影響,兩個主題的強度都于2014年明顯的大幅度上升。機制(Topic 12)主題的強度值保持在一個中等水平上,波動較大且無規律,這說明管理機制一直是科研管理領域的研究主題,也是提高科研質量和促進成果轉化的重要因素?!案咝!?Topic1)的主題強度整體呈下降趨勢,結合Topic 3和Topic 13的整體上升趨勢,說明在高??蒲泄芾眍I域,對高校本身的研究逐漸轉移到高校的創新和改革領域。

在圖2中,績效(Topic 9)的主題強度呈明顯上升趨勢,且強度值始終在保持一個較高的水平上,這說明在科研管理領域,對研究人員的績效評價一直是研究熱點,且研究熱度不斷上升,這也從側面說明了科研績效評價對科研人員的重要性。激勵(Topic 7)的主題強度在波動中上升,這表明學術界在不斷地探索管理學中的激勵手段和激勵機制對科研人員的積極作用,而近幾年的主題強度不斷上升且數值較高,說明激勵手段對提高科研人員的科研效率和成果質量是具有正向作用的??蒲腥藛T(Topic 8)的主題強度波動不大,強度值也不高。三個主題的強度變化說明在高??蒲泄芾眍I域,對科研人員本身的研究一直是重點,但是研究熱度并不高,而對能夠提升科研人員水平的激勵措施和績效評價則是研究熱點。

在圖3中,經費(Topic 5)的強度值呈緩慢上升趨勢,且強度值一直保持在較高水平上,這表明科研經費一直是研究熱點,經費支持是科研活動開展的基本支撐。成果轉化(Topic 10)的強度值呈現不斷提高的上升趨勢,表明了學術界對科研成果的轉化保持著較高的熱度,而強度值從2014年陡增,也進一步說明經濟新常態下對成果轉化的高度重視和關注。Topic 2和Topic 11的強度值處于中間水平,且波動較小,說明了學術活動和項目是科研的根本,也始終是高??蒲泄芾淼臒狳c。 系統(Topic 4)和信息化(Topic 6)的主題強度變化不大且數值較低,學術界對科研項目的信息化和科研系統的關注度較低,而近年來的下降趨勢和較低的強度數值,再加上Topic 10強度值的持續走高,說明在兩方面的熱度正在逐漸冷卻,研究熱點轉移到了科研的成果轉化上。

(三)主題內容演化

主題內容的演化必然表現為同一主題的特征詞匯在時間片上的變化,而相鄰時間片中具有演化關系的主題之間也必然會在內容上表現出一定的相似性,因此可以通過計算相鄰時間片中主題內容的相似性來確定主題之間的聯系,進一步分析主題內容的演化。為了更好地展現主體內容的動態變化,對表1中各個時間窗口的文本集單獨進行主題挖掘,得到各階段的主題內容,見表3。由于每一個主題都是由若干個主題特征詞構成的詞向量,可以看成一篇文本,所以可以采用計算文本相似度的WE-cos方法[11]計算主題間的相似度。根據相似度計算的實際情況,設定當主題相似度大于0.8時,認為主體間存在演化關系,反之則認為主題間無關聯。根據演化規則繪制出主題內容演化路徑,如圖4所示。圖中橫軸代表時間窗口變化,縱軸代表主題,各時間窗口主題間的箭頭代表主題的繼承關系。

表3 2011—2020主題挖掘結果

圖4 主題內容演化路徑

結合圖4及各個主題的特征詞匯變化,對主題內容的演化做出如下分析。

1.在“管理主體”類別中,研究熱點由對高校本身的關注逐漸轉變為對科研政策及獎懲機制的研究,又進一步向機制的創新、改革方向演化。2011年主題1、主題5、主題6和主題9 都是關于管理主體類的主題。2011年的主題1逐漸演化為2012年的主題4、2013年的主題4,到2016年的主題11,最終到2020年的主題11,特征詞也經歷了管理、系統化、體系、控制、完善、機制等的演變過程;2011年主題5向下演變為了2012年的主題1、2013年的主題5,然后主題中斷,表明主題的研究熱度大幅降低,其特征詞也經歷了高校、行政、保障等的變化過程。

2.在“科研主體”的類別中,對科研人員的研究由評級指標、科研服務逐漸變為關注科研人員的情感思想、科研團隊的協同效應,又進一步演化為對科研人員的激勵和績效評價。2011年的主題8是關于考核指標內容的主題,隨著時間推移,逐漸演化為2012年的主題2、2013年的主題7,到2015年的主8和主題9,最終到2020年的主題7,主題特征詞匯也經歷了指標、控制、思想、績效等內容的演變。

3.在“科研載體”類別中,對科研項目的研究重點由經費預算和科研數據逐漸轉移到項目經費使用機制、項目科技含量,又進一步的演化為科研項目的創新、科研成果轉化等方面。2011年的主題4逐漸轉變為2012年的主題5,2013年的主題3,到2016年的主題10,最終到2020年的主題3,主題詞也經歷了數據、科技、設計、探索、創新等的演變。2013年的主題1是關于科研項目的內容,隨著時間推移逐漸轉變為2014年的主題2,2015年的主題10,一直到2020年的主題6和主題8,主題特征詞匯也經歷了申報、科學、成果、創新、轉化等的演變。

四、結論

在管理主體方面,當前對高校的研究已經有對高校本身的關注逐漸轉變為研究高??蒲泄芾頇C制的創新和改革;在科研主體方面,由評級指標、科研服務過渡為關注科研人員的情感思想、科研團隊的協同效應,當前對科研人員的激勵和績效評價則變為熱點;在科研載體方面,學術和科研項目一直是科研活動的根本,科研經費也始終貫穿著科研活動的全過程,而科研成果轉化則成為當前研究的大熱點。

在高??蒲泄芾碇?,應注重高校、科研人員和科研載體的綜合管理。在機制上注重創新性改革,提高成果轉化率在績效考核和激勵機制中的權重,要尊重科研人員的情感和實際情況,采取更加科學的績效考核,以及有針對性的激勵手段和措施,注重科研經費的精細化管控,建立起綜合的、多主體的科研管理新機制,以更好地提高高??蒲械馁|量和水平。

猜你喜歡
科研人員文檔強度
科技部等五部門聯合發文開展減輕青年科研人員負擔專項行動
科研人員揭示油桃果實表皮不長毛的奧秘
淺談Matlab與Word文檔的應用接口
科研人員破譯黑豬肉特征風味物質
有人一聲不吭向你扔了個文檔
低強度自密實混凝土在房建中的應用
輕松編輯PDF文檔
企業科研人員激勵問題及對策研究
Word文檔 高效分合有高招
計算電場強度常用的幾種方法
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合