?

基于語義相似關系的學科交叉主題識別方法

2024-02-04 09:44王衛軍寧致遠喬子越周園春
情報學報 2024年1期
關鍵詞:交叉語義聚類

王衛軍,寧致遠,董 昊,喬子越,杜 一,周園春

(1. 河南財經政法大學圖書館,鄭州 450046;2. 中國科學院計算機網絡信息中心,北京 100190;3. 中國科學院大學,北京 100049)

0 引 言

學科交叉地帶的科研活動通常被認為是科技創新的重要來源[1]。識別學科交叉地帶的科研活動,對于引導相關科學研究、促進交叉學科形成具有重要作用。近年來,深度學習技術在自然語言處理領域相關任務場景的不斷成功應用,為利用相關技術深入挖掘科技文獻內容,識別學科交叉知識、主題或方向,實現學科交叉研究的預測預警,提供了新的技術實現路徑。學科交叉研究主題的識別可通過對分布在不同學科科技文獻中的相同研究內容進行分析來實現[2]。在科學計量學中,通常會使用關鍵詞術語來分析不同學科之間的知識擴散活動,一方面,是因為關鍵詞術語作為知識的最小粒度,能夠以直接、清晰的方式代表相關概念;另一方面,關鍵詞術語可更加有效、及時地跟蹤不同學科之間的知識交流[3]。因此,研究人員會通過獲取高頻詞在不同學科的分布情況,或者利用高頻詞的共現關系等進行學科交叉主題發現研究。但是,由于基于高頻詞的跨學科分析對關鍵詞出現的頻率進行粗暴的界定,會丟失一些重要信息,并不能保證結果的準確性[4-6]。同時,上述方法在涉及學科交叉主題預測預警系統的設計時也會存在一定的不足。在科學研究中,為解決單學科的研究問題,會借用其他相關學科的方法、手段等進行相關研究,此類研究更多的是不同學科間知識的簡單移植、借用,被稱為借用研究[7-9],如生物學領域運用了物理學的技術、有機分子化學中運用了數學工具等。學科交叉研究則是在借用研究的基礎上,不同學科間的知識進一步深入擴散、融合,其具有獨特的價值和作用?;诖?,本文認為將分布在不同學科中上下文信息相近、語義相似的關鍵詞術語作為學科交叉研究的內容,更能體現出不同學科間的知識融合情況。

在對學科交叉性進行測度時,余弦相似度可被用于衡量兩門或兩門以上學科交叉融合程度或知識整合程度的指標[10];科學研究中的關鍵詞會因其所存在的上下文、作者用詞習慣等方面的不同而產生歧義,影響及阻礙學科交叉主題發現的有效性和準確性[11-13]?;诖?,本文認為不同學科的關鍵詞術語之間的語義相似關系的強弱可體現學科間的知識整合程度,將學科間語義相似的關鍵詞術語作為學科交叉知識或主題,可避免相關模型獲取的是學科間的簡單知識借用研究,同時也可降低關鍵詞術語的歧義問題對結果有效性的影響。因此,本文將研究問題定義為,如何快速發現不同學科科技文獻中具有相似語義的學科交叉研究主題;具體的關鍵技術問題為,如何獲取科技文獻及其包含的關鍵詞術語之間的語義相似關系,如何評估本文模型獲取語義相似學科交叉主題的有效性。針對上述問題,本文提出,通過無監督對比學習方法進行文本語義相似分析任務(semantic textual similarity,STS),進而提取科技文獻及其關鍵詞術語的語義相似關系。本文同時提出相應算法構建科技文獻相似研究數據集,認為利用對比學習模型在科技文獻相似研究數據集上進行STS 任務時,Spearman 相關系數越高,科技文獻及其關鍵詞術語在向量空間中的分布越趨于合理,獲取的語義相似學科交叉主題準確性越佳;即將STS 任務在科技文獻相似研究數據集上的Spearman 相關系數作為評估本文提出的學科交叉主題識別模型性能的間接指標,從而解決在學科交叉研究時難以提供標準的學科交叉主題數據集驗證模型性能的問題。學科交叉研究中,學術論文[4]、基金項目[14]等均是其重要的數據分析來源。由于學術論文、基金項目等通常包含題目、關鍵詞、摘要等信息,為了構建具有一定通用性的學科交叉主題識別模型,本文將學術論文、基金項目等具有相似組成部分的數據統一表述為科技文獻。本文的主要貢獻如下。

(1)本文提出將在科技文獻相似研究數據集上進行STS 任務時的Spearman 相關系數作為判別模型獲取科技文獻向量表示數據分布是否合理的依據,進而作為本文模型獲取語義相似學科交叉主題有效性的判別標準。該思路可有效解決學科交叉研究中難以定義標準的學科交叉研究數據集的難題。同時,本文還提出一種基于共詞理論[15]快速標注科技文獻相似研究數據集的算法。

(2)本文認為不同學科之間具有相似語義的研究主題能更好地呈現不同學科之間的知識融合交流,可避免提取出的學科交叉主題只是簡單的知識移植借用?;诖?,本文提出,利用對比學習模型完成科技文獻的語義相似分析任務,獲取科技文獻之間、關鍵詞術語之間的語義相似關系,進而將分布在不同學科中具有相似語義的學科交叉研究主題提取出來。

(3)本文模型是一種無監督的技術思路,為模型從海量科技文獻數據中挖掘學科交叉主題提供了可能,也可為學科交叉主題的識別及預測預警提供可行的技術研發思路與方案。同時,模型基于STS任務還可獲取科技文獻及其包含的關鍵詞術語的語義相似關系,進而實現關鍵詞術語的歧義問題的自動優化。

本文在第1 節對相關工作進行總結,第2 節對研究中涉及的概念及問題進行描述與定義,第3 節對本文模型及關鍵算法原理、關鍵技術等進行論述,第4 節選用實驗數據對本文模型的有效性進行驗證及分析,第5 節對研究工作進行總結。

1 相關工作

1.1 表示學習及動態詞向量相關模型

表示學習(representation learning)是指將研究對象的語義信息表示為稠密的低維實值向量,在該向量空間中,研究對象的距離越近,語義相似度越大[16]。在自然語言處理領域,將研究對象作為知識實體對其進行表示學習,可通過數值計算發現知識間新的關系、潛在及隱式知識;同時,基于向量的知識表示方法,可直接對接深度學習等模型,在鏈接預測、實體對齊、信息推薦等領域均有重要的應用場景[17]。在基于向量的知識表示方法中,Firth[18]于1957 年提出了分布式語義假設的思想,即詞的含義由其上下文的分布進行表示,其常見表示方法有點互信息、奇異值分解等。隨著深度學習模型在自然語言處理領域的不斷應用,知識表示方式又可進一步劃分為靜態詞向量和動態詞向量兩種。詞只有唯一的向量表示的模型,稱為靜態的詞向量表示方式, 如word2vec (word to vector)[19-20]、 GloVe(global vectors for word representation)[21]等。靜態詞向量無法解決詞的多義問題。詞的向量隨其出現的上下文的不同而發生變化的模型,稱為動態的詞向量表示方式,如ELMo (embeddings from lan‐guage models)[22]、BERT (bidirectional encoder rep‐resentations from transformers)[23]、GPT (generative pre-trained transformer)[24]等。動態詞向量被認為是詞的強大、靈活表示方式,如“蘋果”出現在不同文本中分別表示手機和水果時,可將其映射為不同文本環境中的向量數據,進而通過計算詞向量之間的相似度來區別語義異同。

1.2 文本語義相似度分析與對比學習模型

文本語義相似度分析是判斷一對文本的語義相似程度的自然語言處理任務。文本語義相似計算的研究是自然語言處理領域的熱點問題,其在信息檢索、信息推薦、智能問答等領域均具有極其重要的應用。文本語義相似度計算方法包括編輯距離、Jaccard 相似度、VSM (vector space model)、LSA(latent semantic analysis)、PLSA(probabilistic latent semantic analysis)、 LDA (latent Dirichlet alloca‐tion)、基于深度學習模型的方法等。目前,對比學習模型可以將語義上相近的文本分布在相對接近的語義空間內,將不相似的文本分布在相對遠離的語義空間內,從而能被較好地用于文本語義相似度分析任務。在對比學習模型中,構建樣本實例對數據集其中為語義相關的實例對,可通過對同一個文本xi進行數據增強(如刪除詞匯、重新排序、替換詞語等)實現實例對的構建。在文獻[25-26]中,研究人員發現在自然語言的表示學習中存在Anisotropy 的問題,即模型學習到的嵌入在向量空間中占據一個狹窄的圓錐,嚴重限制了向量的表現能力。為了衡量向量表示的質量,文獻[27]提出了Alignment 和Uniformity 兩個衡量向量表示質量的指標;文獻[28]提出了一個簡單的對比學習框架,該框架通過一個簡單的Dropout 數據增強方法,可以在Alignment 和Uniformity 兩個指標上表現優異,同時在句子向量表示及文本語義相似度分析任務方面取得了較好的效果。使用Alignment和Uniformity 兩個指標衡量對比學習模型中句子的向量表示質量,有助于正樣本實例在嵌入空間中保持接近,隨機實例分布在超球體上。在評價STS 任務的指標中,Reimers 等[29]通過研究證明,STS 任務采用Spearman 相關系數作為評價指標更為適合。Spearman 相關系數關注的是兩個序列的單調性是否一致。在本文中,模型訓練完成后,可對數據集中每條記錄中的每一對文本進行余弦相似度計算,然后利用所有記錄的余弦相似度數值和標簽值,計算獲取Spearman 相關系數的數值,并將該數值用于評估相關模型在STS 任務上的效果優劣。因此,本文認為對比學習模型在科技文獻相似研究數據集上進行語義相似度分析時,Spearman 相關系數越高,模型在STS 任務上的效果越佳,而依據該STS 任務形成的科技文獻及其關鍵詞術語在向量空間的分布情況會更加趨于合理,相關知識向量表達的語義信息會更為精確,最終通過聚類算法獲取的語義相似學科交叉主題的準確性也會更優。不同學科的科技文獻中具有相似的核心研究主題或內容,即具有相似語義的知識分布在不同學科的科技文獻中,是不同學科間的知識流動擴散現象。本文認為,利用STS任務獲取知識之間的語義相似關系,可為探索獲取語義相似學科交叉主題提供新的解決思路。

2 問題定義

本節對科技文獻、科技文獻的學科、科技文獻的文本等進行描述及定義,并提出問題定義。

定義1. 科技文獻。給定科技文獻數據集L=其中,Ln為數據集L中的科技文獻,包含題目、關鍵詞、摘要、學科分類、年份等信息。本文通過3.2 節提出的方法構建科技文獻相似研究數據集,定義為LS。

定義2. 科技文獻的學科??萍嘉墨I的學科定義為集合D,M為D中學科的數量, 定義D=的學科屬性可為集合D中的一個或多個元素。學科交叉研究中通常會將Ln劃分到某一學科之下,然后識別不同學科科技文獻共有的文本內容。本文設定科技文獻被劃分到某一個學科之下,并定義Ln的學科屬性為Dmn,表示Ln具有的一個學科屬性為Dm。同時,定義L中各科技文獻的學科屬性為

定義3. 科技文獻的文本??萍嘉墨ILn的文本內容通常包括題目、關鍵詞、摘要、正文等信息。其中,Ln的關鍵詞通常為3~5 個,來源于科研人員撰寫Ln時提供的描述科技文獻主題的關鍵詞術語,本文定義為關鍵詞集合不同Ln中I值可能不同。本文對科技文獻Ln中的題目和摘要進行分詞、停用詞刪除等數據預處理。將題目中包含的關鍵詞定義為題目關鍵詞集合不同Ln中Q值可能不同。在摘要中使用TF-IDF(term frequencyinverse document frequency)算法提取前20 個重要關鍵詞,并定義為摘要關鍵詞集合將Ln表示為Ln經過特定任務的表示學習模型訓練后,獲取Ln中關鍵詞的向量集合, 分別定義為和同時將L中的科技文獻的向量集合定義為本文模型中,關鍵詞采用的是動態的向量表示方式,即相同的關鍵詞出現在不同的科技文獻Ln時,其向量值是不同的。

問題定義. 本文將語義相似學科交叉主題識別問題定義為,發現具有不同學科Dm屬性的Ln之間的語義相似研究主題。

同時,將針對該問題所構建的模型稱為語義相似學科交叉主題識別模型(semantically similar inter‐disciplinary topics,SSIT),即

其中,Θ表示模型S涉及的參數。SSIT 模型的輸入為L中的Ln包含的關鍵詞數據(摘要使用TF-IDF 算法提取前20 個重要關鍵詞)以及對應的學科SSIT 模型的輸出為語義相似學科交叉主題,將其定義為ST,其包括科技文獻層面和科技文獻關鍵詞術語層面的語義相似學科交叉主題,即聚類簇中包含了多個不同學科屬性的科技文獻或關鍵詞。

3 模型及實驗方法

本節分別對SSIT 模型的實現原理、科技文獻相似研究數據集構建方法、科技文獻及關鍵詞的表示學習技術以及語義相似學科交叉主題的獲取與評價方法等進行論述。

3.1 語義相似學科交叉主題識別模型

本文構建的語義相似學科交叉主題識別模型如圖1 所示,其原理及步驟如下。

圖1 語義相似學科交叉主題識別模型

Step1.將Ln處理為的形式并輸入SSIT 模型,同時構建科技文獻相似研究數據集LS,詳見3.2 節。

Step3.為選擇合適的Encoder 部分的預訓練模型,本文選取了BERT、RoBERTa 和SimBERT 這3 種預訓練模型進行無監督對比學習的訓練,然后在LS 數據集上分別獲取Spearman 相關系數。最終,選取Spearman 相關系數最佳的預訓練模型,并將最佳的完成訓練的模型保存為EncoderBest。

Step4.將L輸入模型EncoderBest,提取科技文獻向量集合科技文獻中包含的關鍵詞向量集合

Step5. 利用DBSCAN (density-based spatial clustering of applications with noise)聚類算法,從L_V中提取科技文獻聚類簇集合Clus_L,從LK_V中提取關鍵詞聚類簇集合Clus_K。以RS(Rao-Stirling)指標評價排序各個聚類簇(聚類結果只包含1 個學科的數據時,RS 值為0,模型會將此類聚類簇剔除掉),獲取具有相似語義的學科交叉主題聚類簇集合Cross_L和Cross_K。

依據Step1~Step5,將Cross_L和Cross_K作為模型的輸出ST(語義相似學科交叉主題)。

3.2 科技文獻相似研究數據集

本文認為學科交叉研究中,具有較為相似研究的不同學科科技文獻是語義相似學科交叉研究主題識別的數據來源。通過構建科技文獻相似研究數據集,本文認為STS 任務在數據集上的Spearman 相關系數越高,科技文獻及其關鍵詞術語在向量空間中分布越合理,在此基礎上,通過聚類算法對向量數據進行聚類,其獲取的語義相似學科交叉主題的準確性也會越佳;即可采用構建科技文獻相似研究數據集間接進行模型性能的評估,以解決學科交叉研究時難以提供學科交叉研究數據集驗證模型性能的難題。共詞理論認為,同一科技文獻中不同的術語之間的關系是被作者認可和要求的,如果有足夠的作者對同一種關系認可,那么這種關系所關聯的科學領域具有一定的意義[15]?;谠摾碚?,本文提出,若不同的Ln中包含相同數量的代表性關鍵詞,則可認為不同的Ln在某種程度上具有相似的主題或語義。據此,本文提出了一種快速構建科技文獻相似研究數據集的算法。

針對數據集中相似研究數據部分的構建,本文使用結巴分詞對Ln的題目、摘要文本進行處理,并自建停用詞詞典、分詞詞典。其中,題目部分使用預處理后的全部關鍵詞摘要部分使用TFIDF 算法獲取前20 個(依據當前語料特點選定)關鍵詞將不同Ln標注為具有相似語義或主題的文本對時,需要同時滿足以下兩個條件。

C1:不同Ln的中具有相同關鍵詞的數量為大于等于TX(本文取TX=1)。

C2:不同Ln的和中具有相同關鍵詞的數量為大于等于TY(本文取TY=3)。

針對數據集中不相似研究數據的構建,4.1 節有相關描述。兩個部分的數據共同組成科技文獻相似研究數據集LS。

3.3 科技文獻及關鍵詞的表示學習

將科技文獻及關鍵詞通過表示學習方法映射到語義向量空間中合適的位置,是本文模型提取學科交叉主題的前提。學科交叉主題識別的目標是發現不同學科間具有相似語義的研究主題。從語義相似角度對文中的學科交叉主題識別進行解析,可以認為是將科技文獻映射到向量空間后,需要完成具有相似研究主題的科技文獻在向量空間中盡量接近、不相似研究主題的科技文獻則盡量遠離的任務。對比學習模型的基本思想是“正樣本盡量接近,負樣本盡量遠離”?;跓o監督對比學習可通過自動構建相似和不相似的實例訓練知識的表示學習模型,使相似的樣例投影到向量空間時盡量接近,不相似的樣例投影到向量空間時盡量遠離。文獻[28]將對比學習思想引入句子Embedding 中,在語義相似度計算的研究中取得了較好的效果?;谏鲜鲅芯抗ぷ?,本文采用無監督的對比學習方法對中文科技文獻進行文本語義相似度分析。具體思路為,對于科技文獻數據集合將N個文本經過帶Drop‐out 的Encoder 模型得到向量LV1,LV2,…,LVN;然后,讓該N個文本再次經過帶Dropout 的Encoder 模型得到向量將作為正樣本,其訓練損失函數為

其中,r的值在本文模型中取為正樣本,為負樣本。

本文模型分別選用BERT[23]、RoBERTa[30]、Sim‐BERT[31]作為對比學習模型的Encoder 部分。其中,BERT 模型是一種上下文雙向編碼模型,主要使用Transformer 模型的Encoder 部分;RoBERTa 模型是在BERT 模型基礎上進行簡單改動后構建的模型,其使用更多的訓練語料,采用動態MASK 和更大的Batch-size 參數等;SimBERT 是以BERT 模型為基礎,基于微軟的UniLM 思想[32],融檢索與生成為一體的模型。模型獲取科技文獻及其關鍵詞向量的原理如下:

(2)選用訓練完成的Encoder 部分的模型,在本文構建的LS 數據集上計算Spearman 相關系數;

(3) 本文模型對比BERT、 RoBERTa、 Sim‐BERT,選取Spearman 相關系數最佳的預訓練模型作為Encoder 部分;

(4)將L輸入訓練完成的Encoder 部分最佳預訓練模型,將模型輸出的向量數據作為科技文獻Ln的向量LVn,從模型輸出的、未進行池化操作前的向量數據中,提取科技文獻Ln包含的關鍵詞向量實現科技文獻及其關鍵詞術語到向量的映射。

上述(1)~(4)是3.1 節模型中Step2~Step4 的詳細實現過程。

3.4 學科交叉主題的獲取與評價

為從訓練獲取的科技文獻及關鍵詞向量數據中提取學科交叉主題,本文模型使用DBSCAN聚類算法對科技文獻向量和關鍵詞向量分別進行聚類,然后通過學科交叉評價指標RS 對各個聚類簇進行計量排序,提取學科交叉主題。

本文模型借鑒Stirling[33]提出的RS 指標從學科豐富性、平衡性和差異性3 個維度衡量聚類簇的學科交叉程度。Rao-Stirling 指標值越高,表明學科差異性越大,學科交叉性越強。其公式為

其中,pDi和pDj是不同學科的分布概率;dDi,Dj是不同學科之間的距離;α和β是計量參數,通常設置為1。

以關鍵詞聚類簇為例,pDi和pDj分別為某聚類簇中屬于學科Di和Dj的關鍵詞數量與聚類簇中關鍵詞總數量的比值,如果聚類簇中某學科的關鍵詞數量為0,那么其RS 值也為0,該聚類簇不具有學科交叉性質。dDi,Dj衡量的是不同學科之間的差異性。由于余弦相似度衡量的是向量間的相似性,本文借鑒文獻[34]通過余弦相似度對學科之間的差異性進行測度的方法,將學科之間的差異性定義為聚類簇中學科Di與Dj的距離dDi,Dj,計算公式為

將聚類簇中學科Di的關鍵詞向量相加,然后求均值KVDi,用于表示學科Di的知識,計算公式為

將聚類簇中學科Dj的關鍵詞向量相加,然后求均值KVDj,用于表示學科Dj的知識,計算公式為

4 實驗及分析

4.1 實驗數據

本文選用國家自然科學基金立項項目數據進行實驗分析,其包含題目、關鍵詞、摘要等信息,與本文模型所需的輸入數據具有一致性,因此,不會影響本文模型的有效性。實驗數據選取2011—2019年“F06 人工智能”“G0114 信息系統與管理”“G0414 信息資源管理”對應的項目數據(學科代碼依據2019 年公布的申請代碼數據)。其中,G0114、G0414 對應的620 項數據涉及“信息系統及其管理”“決策支持系統”“數據挖掘與商務分析”“圖書情報檔案管理”“社會與政府信息資源管理”等研究方向,本文將其學科屬性統稱為“G 信息管理”學科;F06 對應的2657 項數據涉及“人工智能基礎”“機器學習”“機器感知與模式識別”“自然語言處理”“知識表示與處理”“智能系統與應用”“認知與神經科學啟發的人工智能”等研究方向,本文將其學科屬性統稱為“F 人工智能”學科,兩個學科共涉及3277 個項目。在上述數據中,F 學科的項目偏重于人工智能技術的研究,而G 學科的項目則偏重于從管理學角度展開研究。本文獲取兩者之間的交叉融合主題,對揭示人工智能技術與信息管理研究領域的相互影響及演化具有一定的價值,在引導信息管理領域不斷融入人工智能技術、助力其科學問題逐步完善與解決方面具有積極作用。

依據3.2 節的方法獲取相似研究項目數據1603條,將其涉及的項目稱為集合SL,然后計算包含所有項目的集合L與SL 的差集NL。使用隨機函數從SL 中選取任意一項目,分別與NL 中的項目生成不相似研究數據,并隨機從中提取1068 條記錄(2×1603/3 計算結果的整數值部分);從NL 中隨機挑選兩個項目Ln組成不相似數據,并隨機從中提取1068 條記錄(2×1603/3 計算結果的整數值部分),最終形成表1 所示的數據集。數據集標簽為1 的記錄中(1603 條),每條記錄中的兩個項目均屬于F 學科的記錄為1439 條,兩個項目均屬于G 學科的記錄為97 條,兩個項目分別屬于F 學科和G 學科的記錄為67 條。由于本文模型僅在從項目及關鍵詞的向量數據中提取語義相似學科交叉研究主題時涉及項目的學科屬性,因此,可以認為數據記錄中的項目學科屬性分布情況對模型的有效性沒有影響。

表1 相似研究數據集

4.2 參數設置

本文模型采用無監督對比學習的思路,數據訓練時,在同一個mini-bach 中,同一項目與自己建立正例關系,與其他項目建立負例關系,完成模型訓練。利用訓練完成的Encoder 部分預訓練模型,在文中標注的LS 數據集上,計算Spearman 相關系數,進行Encoder 部分不同預訓練模型的評價與選取。實驗中,選取對比了BERT、RoBERTa 和SimBERT 共3種模型,每種模型分別采用4 種pooling 方式進行訓練:CLS,使用Encoder 的最后一層的[CLS]向量;Pooler,使用Pooler 對應的向量;last-avg,使用En‐coder 的最后一層的所有向量取平均;first-last-avg,使用Encoder的第一層與最后一層的所有向量取平均。

本文Encoder 部分使用的不同模型的性能如表2所示,表中數據為對比學習模型在相似研究數據集上的Spearman 相關系數值。由表2 可知,RoBERTa模型和SimBERT 模型采用的一些池化方法的Spear‐man 相關系數可達0.80 以上。因此,結合first-lastavg 方法在本文模型及數據上的良好表現,最終選取SimBERT 模型結合first-last-avg 方法完成模型訓練,參數如表3 所示。

表2 Encoder選用的預訓練模型性能對比

表3 模型中Encoder部分相關參數設置

本文實驗中,將項目數據輸入訓練完成的Sim‐BERT 模型,將經first-last-avg 池化后生成的向量數據提取出來作為項目向量從池化之前的向量數據中獲取每個項目的中每個關鍵詞包含的每個字的向量,通過向量相加求均值的方法提取關鍵詞向量實驗通過t-SNE(t-dis‐tributed stochastic neighbor embedding) 算法對數據進行降維,并獲取項目及項目包含的關鍵詞在向量空間中的分布,如圖2 所示。

圖2 項目及其關鍵詞在向量空間中的分布(彩圖請見https://qbxb.istic.ac.cn)

為提取語義相似學科交叉主題,本文模型采用DBSCAN 聚類算法對項目向量和項目關鍵詞向量分別進行聚類,參數如表4 所示。然后,使用公式(4)分別對項目和關鍵詞層面的聚類簇進行評價。同時,借鑒科學計量學領域依據年份信息劃分并進行結果分析的方法,將項目實驗數據劃分為3 個時間段:2011—2013 年、2014—2016 年、2017—2019 年。

表4 模型中聚類部分參數

4.3 實驗結果與分析

為利用時序信息分析語義相似學科交叉主題的變化,將實驗結果分為3 個時間段。以2011—2013年結果為例,F 學科和G 學科的項目中共有的關鍵詞數量為79 個。本文模型對各項目中的關鍵詞向量聚類后獲取67 條結果,表5 顯示了部分具有代表性的學科交叉主題。表5 中每一行為一個聚類簇,即語義相似學科交叉主題,表中的“RS”列表示RS 指標對各個聚類簇進行學科交叉性測度后的數值,“項目”列表示聚類簇中的關鍵詞涉及的項目數量。表6 是對項目向量進行聚類后,獲取的項目粒度的聚類結果。圖3 為項目中的關鍵詞向量聚類后,獲取的67 條聚類簇(語義相似學科交叉主題)中涉及的所有關鍵詞向量降維后的可視化呈現??梢园l現,語義較為相近的聚類簇在空間中也會較為接近。此方法可在一定程度上輔助相關人員獲取更為宏觀層面的語義相似學科交叉研究主題。

表5 2011—2013年關鍵詞層面的學科交叉主題

表6 2011—2013年項目層面的學科交叉主題

圖3 2011—2013年學科交叉主題(關鍵詞)分布

本文對2011—2013 年、2014—2016 年、2017—2019 年3 個時間段的語義相似學科交叉主題(關鍵詞聚類結果、項目聚類結果) 做進一步解讀。

由于本文模型是將語義相似的科技文獻或關鍵詞術語聚類為同一個簇,相關聚類結果中的科技文獻或關鍵詞術語代表的含義較為一致。因此,在提取某聚類簇的主題標識時,直接通過人工方式獲取能代表該聚類簇的主題。以2011—2013 年為例,關鍵詞層面的語義相似學科交叉主題包括群體行為、超圖模型、鏈接分析、語義分析、可視化、概念空間、Web 服務、人工神經網絡、協同過濾、自動談判、演化模型、情境感知、關聯分析、屬性約簡、信息系統、領域本體、動態聯盟、知識組織、社區發現、視覺及情感感知、知識表示、傳感器網絡、本體映射、文本挖掘、知識地圖、網絡輿情、多模態信息、隱私保護、多目標優化、概念漂移、用戶行為模型、知識服務、信息抽取、Petri 網、知識庫、核函數、Agent、物聯網、描述邏輯、推薦系統、組合云服務、云計算、多示例多標記學習、個性化信息推薦、字典學習、高維數據降維、集成學習、社會網絡、語義Web、知識發現、復雜網絡、本體、分類算法、遷移學習、聚類算法、支持向量機、數據挖掘與分析、粗糙集、稀疏表示等。但存在一些關鍵詞術語表達的含義較為籠統的問題,如“優化”“認知”“知識”“協同”等,無法較好地表達學科之間的交叉主題。另外,本文模型由于詞的語義來自其上下文,少數學科交叉主題會存在不準確的問題,如表5 中序號47 的結果等。本文認為上述從關鍵詞層面呈現學科交叉研究主題時存在的問題,并不影響模型思路的有效性。項目層面的語義相似學科交叉主題包括數據流挖掘、社會網絡用戶行為研究、機器學習中的高維數據聚類等。從項目層面獲取學科交叉主題時,不同學科間非常相似的研究較少,并不能較好地反映兩個學科間的學科交叉研究主題。

為更好地呈現各種語義相似學科交叉主題,本文將關鍵詞層面的語義相似學科交叉主題中的關鍵詞向量降維到二維空間進行可視化呈現。其中,2011—2013 年的結果見圖3,2014—2016 年的結果如圖4 所示,2017—2019 年的結果如圖5 所示。從上述可視化結果中可以發現,一些語義上較為接近的學科交叉主題在向量空間中會分布在相對較為接近的位置,這為快速獲取較為宏觀的學科交叉方向提供了幫助。對結果進行進一步解析,發現在關鍵詞層面,2011—2019 年的3 個時間段中,機器學習相關技術(核函數、多示例多標記學習、高維數據降維、集成學習、分類算法、遷移學習、聚類算法、多模態信息、多目標優化、支持向量機、深度學習、機器學習等)、用戶行為分析(群體行為、用戶行為模型、隱私保護、情境感知、用戶信任問題、視覺及情感感知等)、信息服務(信息系統、Web 服務等)、信息管理、信息推薦、社會網絡科學相關研究、云計算、語義本體、文本知識挖掘、輿情監控等,在兩個學科的研究中一直受到較多共同關注。其中,2014—2016 年,在已有學科交叉研究方向的基礎上,出現了人機交互、醫療健康(臨床決策支持系統、健康管理) 等新的研究方向;2017—2019 年,依舊在人機交互、醫療健康(臨床決策支持、PM2.5空氣污染、食品質量安全)方向給予關注,同時金融風險識別與防范(欺詐識別、欺詐與反欺詐、互聯網金融、P2P 借貸)方向上的研究也逐漸受到關注。在項目層面,2011—2013 年(見表6,共3 個聚類結果)的相關學科交叉研究有數據流挖掘、社會網絡用戶行為研究、機器學習中的高維數據聚類問題等,2014—2016 年(如表7 所示,共7 個聚類結果)的相關學科交叉研究有社會網絡影響力問題、社交網絡個性化推薦、數據流挖掘相關問題、社會化媒體數據管理與分析相關問題、微博輿情監測與跟蹤、社交網絡社區發現相關問題、社會網絡及用戶行為相關問題研究等,2017—2019 年(如表8 所示,共4 個聚類結果)的相關學科交叉研究有社會網絡中主體對象的行為分析、用戶情感分析、云服務中的定價問題、金融領域個人信用風險評價相關問題等。在3 個時間段中,社會網絡及用戶相關研究一直是兩個學科之間交叉的重要研究地帶。

表7 2014—2016年項目層面的學科交叉主題

表8 2017—2019年項目層面的學科交叉主題

圖4 2014—2016年學科交叉主題(關鍵詞)分布

圖5 2017—2019年學科交叉主題(關鍵詞)分布

分析語義相似學科交叉主題在不同時間段的分布情況,可為研判學科交叉研究發展方向提供幫助。從上述結果可知,兩個學科之間的交叉研究主題如機器學習、用戶行為、社會網絡科學等,是兩個學科之間持續關注的熱點問題,此類問題與近年來兩個學科的交叉研究情況基本保持一致,其作為兩個學科在較長時間持續關注的研究方向,具有形成相關交叉學科的潛力。人機交互、醫療健康、金融風險識別與防范等方向上新出現的學科交叉研究主題,與近年來人工智能技術的興起密不可分,基本反映了信息管理學科的研究急需融入更多的有效技術,以實現有效解決相應科學問題的需求。這些新出現的研究方向基本與現有的重要學科交叉研究相一致,也需要在未來的項目資助中予以關注及引導。

4.4 模型評價

通過對相關結果進行解析,可認為本文模型可以較好地捕獲不同學科之間的語義相似學科交叉研究主題,具有應用于學科交叉主題預測預警系統研發的可行性。本文模型的優勢:①相同的關鍵詞術語出現的上下文環境差異較大時,會因語義不同而被區分開,本文認為此類研究更多的是知識(關鍵詞術語)在不同學科的移植,還未進行不同學科知識的深入滲透與融合。例如,“數據挖掘”是一個較為寬泛的概念,只有當其關聯的兩個不同學科具有較為相近的上下文時,將相應項目聚類到同一學科交叉主題中(同一聚類簇)才更為合理和有效。②本文模型在實現語義相似學科交叉主題發現的同時,對關鍵詞術語的同義現象也有較好的鑒別能力,如表5 中序號24 的結果難以通過編輯距離方式獲取,但是本文模型能將其列為兩個學科之間的情感與感知方面的交叉研究方向。③對本文模型獲取的關鍵詞向量進行降維后,獲取了如圖3~圖5 所示的結果,可以發現,一些相關的聚類結果會分布在較為靠近的向量空間,這可為研判較為宏觀的學科交叉方向提供幫助。

同時,本文模型的一些不足需要在后續研究中予以關注:①本文模型提取的一些學科交叉主題聚類結果存在一定的誤差,雖然在整體上不會影響模型思路的有效性,但需要在后續的研究中對此類問題進行完善及解決。例如,對于表5 中序號47 的結果,本文模型未能較好地獲取關鍵詞“服務組合”的語義信息。②從模型結果可知,相比于項目層面,模型在關鍵詞層面獲取的學科交叉研究主題更能反映出合理的、細化的學科交叉主題或研究方向,但一些關鍵詞術語表達的含義較為籠統,如“優化”“認知”“知識”等,會影響相關人員研判交叉主題的有效性,需要在后續研究中從規范關鍵詞術語方面展開研究。

總體來看,本文模型的不足可在后續的研究中通過優化模型進行完善,并不影響模型思路的合理性及有效性。同時,本文模型揭示的兩個學科的學科交叉研究主題與現有及未來的學科交叉研究方向與發展趨勢較為一致,因此,可認為模型獲取的最終結果科學有效。在模型應用方面,本文模型提取及呈現學科交叉主題的方式可為學科交叉預測預警系統的研發提供技術思路。模型借助RS 指標對相關結果進行排序的方法,也可為系統研發中分析與評價相關研究主題提供參考。本文現有研究中,主要關注科技文獻及關鍵詞語義相似關系的表示學習,以及如何評價模型獲取語義相似學科交叉主題的有效性等問題的解決,現有模型也主要關注兩個學科之間的語義相似學科交叉主題識別的應用場景,后續研究需要關注模型在更大數據量、更多學科場景下的學科交叉主題識別驗證研究。

5 總結與展望

本文提出了一種語義相似學科交叉主題識別模型,并通過相關實驗證明了模型的有效性。實驗結果表明,通過本文提出的語義相似學科交叉主題識別模型獲取的主題,基本上與兩個學科的特點相一致,即人工智能學科為信息管理學科提供技術支撐,信息管理學科的一些科學問題為人工智能技術的應用落地提供了更加豐富的應用場景。本文實驗雖然存在少數結果不準確的問題,但認為可在后續研究中通過對模型的進一步完善予以解決。同時,結合目前的研究情況,本文認為需要在后續研究中對以下問題進行深入關注,以更好地優化現有的研究工作:①在大規模的、多學科領域的科技文獻數據上進行模型有效性的證明實驗,以探索模型揭示更為有意義和價值的學科交叉融合主題的能力。為了便于驗證模型的有效性,本文選取了較為熟悉的2 個學科進行驗證,但最終仍需要在相關學科領域專家的指導下,在更多的、不同的多個學科之間檢驗模型的有效性和應用價值。②科技文獻主題詞的規范以及代表性關鍵詞術語的抽取問題?,F有模型選取的是基金項目申請人員通過系統輔助選取或自己填寫的關鍵詞,基于此類關鍵詞的數據挖掘雖然可有效減輕模型識別學科交叉融合主題時的復雜性,但是也為后續的結果解讀帶來一定的困擾。構建規范的主題詞進行研究,會面臨大規模的、復雜的科技文獻數據處理帶來的各種挑戰。因此,如何基于文本機器學習技術有效識別能代表科技文獻有效研究內容的關鍵詞或主題詞依舊是學科交叉融合研究的重要問題。③針對科研領域的中文預訓練模型的訓練??茖W研究中的科技文獻有其自身的用詞、語法等特點,因此,需要收集大量不同學科科技文獻數據訓練模型,進而提升模型的有效性,實現學科交叉主題識別的準確性。④數據可視化方法的探索。本文現有的研究工作主要通過簡單的數據降維等方法實現學科交叉主題的呈現,在有效呈現學科交叉主題方面還存在一定不足。在后續的研究中,除了關注學科交叉主題發現方法的研究,還需要探索適合當前任務的、能有效傳達視覺效果的學科交叉主題可視化呈現功能,助力學科交叉主題預測預警平臺的界面友好性。

猜你喜歡
交叉語義聚類
語言與語義
“六法”巧解分式方程
基于DBSACN聚類算法的XML文檔聚類
基于高斯混合聚類的陣列干涉SAR三維成像
連一連
“上”與“下”語義的不對稱性及其認知闡釋
基于Fast-ICA的Wigner-Ville分布交叉項消除方法
一種層次初始的聚類個數自適應的聚類方法研究
認知范疇模糊與語義模糊
雙線性時頻分布交叉項提取及損傷識別應用
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合