?

基于領域本體的科技資源聚類方法研究

2021-01-09 06:39葛胤池張輝宋文燕王軒
數據與計算發展前沿 2020年5期

葛胤池,張輝,宋文燕,王軒

1. 北京航空航天大學計算機學院,北京 100191

2. 北京航空航天大學經濟管理學院,北京 100191

引 言

科學技術是第一生產力,而科技資源是推動科學研究和技術創新的重要組成部分。隨著科技服務等新型服務業的興起,對科技資源進行科學有效的管理提出了更高的要求[1]??萍假Y源有多種分類方法,從資源形態上包含人力資源、生物種質資源、科研儀器設備、科學數據等幾大類,而按教育部學科門類劃分,可分為13 個學科門類110 個一級學科??萍假Y源具有地理分布、結構復雜、特征眾多、數量巨大且變化頻繁的特點,并根據科技資源全生命周期管理的需要隨時會有新增、變化、消耗及銷除等情況??萍假Y源集成是將分散的、相關的、相似的科技資源整合為有信息組織形態的一體,提高科技資源共享效率,促進協同創新和提高企業競爭力的方法。[2]科技資源集成圍繞完成某一項目或任務集成所需要的科技資源成套組合,形成科技資源池,提供整體解決方案??萍假Y源的分散性、異構性會阻礙其有效的集成與共享,因此我們需要對科技資源進行聚類以提高集成效率。

物以類聚,聚類就是指將數據劃分成有意義或有用的組(簇)的方法,組內元素盡量相似,不同組的元素盡量不相似。在科技資源集成中,對科技資源進行聚類形成資源包后,后續可以通過一定的規則進行集成組合,為不同用戶提供個性化的科技服務。在聚類時,需要對科技資源集合進行數據預處理,選取數據的屬性和維度。由于科技資源的分散性和異構性,其維度即屬性數目將會非常高,容易陷入維度災難。傳統的聚類算法應對高維數據時往往表現較差。為此先對高維數據進行降維處理再進行聚類[3]。目前常見的降維方法有:主成分分析(PCA)[4-5]、Kohonen 自組織特征映射(SOFM)[6]以及多維縮放(MDS)等算法。此類算法一般需要預先確定數據的維數以及屬性信息,無法適用于科技資源多源異構、變化頻繁的情況。同時對于高維度、海量的數據使用此類算法時需要大量的計算資源。

為此本文設計了一種基于領域本體的科技資源信息降維和聚類方法。該算法相比傳統聚類分析的方法有以下優點:(1)利用領域本體語義關系以適應多源異構的科技資源數據;(2)適用于海量高維科技資源數據。

1 背景

1.1 科技資源整合與共享的意義

在信息時代,科技資源作為一種重要的信息資源和戰略資源,對一個國家的科技發展和進步具有非常重要的意義。我國經過長時間的科技創新發展,已經產生了大量的科技資源,而這些科技資源既是我國科技創新的重要成果也是支撐我國新一輪科技創新活動的重要保證。能否充分有效地利用這些科技資源,對于我國的科技創新與發展而言至關重要[7]。

世界各國特別是歐美等發達國家都在積極推動科技資源整合與共享工作,來促進科技創新與經濟發展。如美國通過立法與專項資金支持的方式來積極推動科技資源共享,建設數據共享平臺;歐盟也通過建設覆蓋整個歐洲地區的科技資源共享平臺的方式推動科技資源共享[8]。

近年來,隨著國家對科技資源的重視以及投入的增加,我國已經在科技資源整合與共享方面取得了明顯的成效。但從總體上看,我國科技資源的整合及共享服務體系依然處于初級階段,與發達國家相比仍然存在較大差距。為此,我們必須不斷加大科技資源共享力度,解決當前科技資源遇到的問題,從而推動創新型國家建設[9]。

1.2 科技資源的特征

科技資源作為國家戰略資源,具有稀缺性和增值性資源普遍共有的特性,同時科技資源還具有地域分布、差異性、異構型等特點??萍假Y源的特征主要包括:

(1)稀缺性

科技資源作為國家科技創新發展與進步的重要資源,相對于科技資源日益增長的需求而言總是稀缺的??萍假Y源的稀缺性主要體現在兩方面:科技資源總產出相對不足;科技資源利用率較低。

(2)分布的差異性

科技資源的分布受到區域的經濟與科技發展狀況的影響,不同地區的性質各異、層次不同、各具特色的經濟發展模式與科技發展政策會導致區域科技資源分布的差異性[10]。另外,各種差異性受到地域差別的影響,不同的地域具有不同的特色資源。

(3)增值性

科技資源能為科技活動提供支持,同時科技活動對科技資源進行深層次的挖掘與使用,可以實現價值的轉換與增加。通過科技資源開發,既可以轉化為新的科技價值,還可以轉化為社會價值、經濟價值等。

(4)異構性

科技資源包含范圍比較廣,包括了人力資源、生物種質資源、科研儀器設備、科學數據等。其中人才、儀器、信息等資源結構性質各異,使用方式和評價指標等也有極大的區別。如何將這些分散的、多樣的、異構的科技資源與海量個性化的需求相匹配,是提高科技資源服務質量的關鍵問題。

1.3 科技資源共享面臨的挑戰

在不斷推動科技創新發展過程中,通過政府財政專項資助和科研計劃等方式的支持,我國的科技資源越來越豐富,科技資源建設取得了較大的發展。但是我國的科技服務與共享體系依然不夠完善,導致科技資源并沒有得到充分的利用[11-12]。我國在科技資源共享過程中存在科技資源建設重復多但同時利用率低,科技文獻資源質量不高,科技資源管理人才隊伍建設不足等問題[13]。

同時在科技資源服務建設過程中,因為科技資源的異構型和分布上的差異性等,科技資源及其信息往往具有分散、封閉、異構和孤立等特點。如何將分散在不同地理位置、不同部門的,具有不同屬性的異構異質異種科技資源匹配多用戶的個性化需求,成為推動科技資源共享與服務的一個關鍵問題。例如,科研工作者想要完成某項科研課題,為此需要獲取特定種類的資源,則可以通過檢索科技資源集成產生的多源資源服務包來確定可用的資源范圍,并結合具體業務需求、預算、地理位置等進行組合和篩選實現效益最優的個性化科技服務。

許多學者對多源異構資源的集成進行了研究。在科技資源領域中,于陽對江蘇省科技資源信息使用Hadoop 大數據平臺實現了不同來源的科技數據合并與存儲[14];李宗俊等提出了利用科技資源池作為虛擬化容器進行資源集成的方法[15];宮萍等提出通過建立統一的適用于多源異構科技資源的元數據格式規范來構建基于語義本體的科技資源集成建??蚣躘2]。此外,針對類似應用情景的其他領域資源集成的研究中,湯華茂通過構建制造資源的分布式語義描述模型實現了異構制造資源的虛擬化描述[16];程臻利用本體建模的方式用統一描述框架描述了異構云制造資源并建立起虛擬資源本體層次模型[17]。

以上研究雖然大都能夠實現異構資源的整合,但并未提出實現個性化資源服務的完整方法。為此本文提出了一個適用于多源異構科技資源聚類的方法,通過聚類的方式將海量的、異構異質的科技資源有效地集成起來,以形成科技資源(服務池)供后續的檢索和優化配置。

2 基于領域本體的科技資源聚類方法

來自不同領域的科技資源往往具有不同的描述方法及元數據標準,這便是其異構性所在。為了盡可能多和完整地保留各個領域科技資源信息的完整性,本方法對相關科技資源領域構建概念領域本體樹,并將每一個科技資源的元數據信息根據概念集合進行向量化表示。據此得到的科技資源向量雖保有足夠的信息,但向量的維數隨著領域范圍的擴大、異構性的增強而逐漸增多,容易陷入維度災難。因此本文在進行聚類前,使用PCA 方法對稀疏語義關系矩陣進行降維處理以得到屬性較少的科技資源向量,以避免聚類出現效率低、效果差的問題。

本方法主要分為三部分,如圖1 所示:構建領域本體樹及語義關系,以計算不同概念之間語義距離;根據語義距離構建科技資源向量空間;對科技資源向量進行聚類。

2.1 領域本體語義關系定義與構建

領域本體是對特定領域之中概念及其相互之間關系進行形式化表達的領域知識庫,可以在宏觀上反映出領域知識的梗概全貌,并可以為特定領域信息的檢索、分類提供有力的支持[18]。

在本文中,定義本體結構G=(V,E),其中為概念集合,每個概念作為樹中的一個節點;為概念間的語義關系,作為邊集。本體中的概念間關系可分為上下位關系和相關概念的其他關系,其中上下位關系構成了本體的樹形結構,稱為本體的層次樹,相關概念的其他關系構成本體結構中的非上下位關系[19]。如圖2。

圖1 方法流程Fig.1 Method flow

本體結構中,概念間的語義關系包含概念間語義相似度和概念間語義相關度。概念間語義相似度主要度量了本體中的上下位關系,概念間的相關度主要度量本體中概念間特有的關系[20]。

圖2 本體領域樹示意圖Fig.2 An ontology domain tree

2.1.1 領域本體語義關系定義

本小節對領域本體結構中語義關系的相關概念進行定義。

定義一:語義距離。設Ni、Nj為本體領域樹中任意兩個概念節點,語義距離d(Ni,Nj)表示從Ni到Nj所經過的路徑長度。

定義二:語義重合度。設R為本體層次樹的根。NS(Ni)是從Ni出發,向上直到根R所經過的概念節點集合。Ni、Nj語義重合度表示為:

定義三:節點層次。Level(Ni)表示節點Ni在本體領域樹中所處的層次。

定義四:概念節點Ni、Nj的相似度。定義為:

定義五:概念節點Ni、Nj的語義相關度。定義 為:

其中ShortestP(Ni,Nj)為Ni、Nj間的最短距離。語義相關度主要用于表示領域本體樹中具有非上下關系的節點間的相關程度。

2.1.2 領域本體語義關系構建

領域本體結構中概念間的語義關系應包含兩種關系:本體中的上下位關系和本體中定義的其他關系。因此定義概念間語義關系R(Ni,Nj)為:

由式(4)可以得到本體概念集合中的所有概念間語義關系,并可以表示出本體的語義關系矩陣Sm×m:

其中sij(0 ≤i,j≤m)表示概念Ni與Nj之間的語義關系,即sij=R(Ni,Nj)。易知S為對稱矩陣,即sij=sji。

2.2 科技資源向量空間表示

每一個科技資源都可以根據領域本體樹中的概念集合唯一表示為詞袋(Bag of words, BOW)向量形式,即:

其中,0 ≤i≤k,k為科技資源集合中的資源總數。

對于異構異質異種的科技資源集合,由于概念領域的較大差異,其向量表示會呈現出極其稀疏的特性。且構建的領域本體樹概念數目越大、覆蓋領域越廣,這種現象也越嚴重,將會增加分析和計算的難度和成本[21]。

為了降低高維數據的計算分析難度,本文采用主成分分析的方法對語義關系矩陣進行降維。主成分分析方法是將多個具有相關性的要素轉化成幾個不相關的綜合指標的分析與統計方法,可以在保證主要信息少量丟失的前提下,對高維數據進行降維處理,把一些作用較低或不相關的指標省去,起到簡化研究和提高計算效率的作用。

經過主成分分析后,本體概念集合將保留n個主要概念,且n<

每個科技資源在降維后的語義關系矩陣S′下對應的向量形式表示為:

2.3 科技資源聚類

聚類分析用于將數據劃分成有意義或有用的組(簇)。在本文中,對科技資源進行聚類形成許多資源包,以供后續通過一定的規則進行集成組合,為不同用戶提供個性化的科技服務,提高檢索查詢效率。

本文采用經典的K均值聚類算法。K均值聚類算法可以描述為:首先選擇K個初始質心,每個點被指派到最近的質心,而指派到一個質心的點集為一個簇。然后以每個簇的均值替換更新每個簇的質心,重復這個過程,直到簇不發生變化或質心不發生變化即收斂[22]。其時間復雜度為O(I×K×k×n),其中I為收斂所需迭代次數,K為聚類簇數,k為點數,n為屬性數量。當K顯著小于k時,K均值算法的計算時間可視為與線性相關。算法流程如表1所示。

本文使用科技資源向量間的歐式距離度量點間距離,基于肘部法則(Elbow Method)來選擇合適的K值。肘部法則是一種K均值聚類簇數的選擇方法,它通過尋找畸變程度得到大幅改善的K值來確定聚類簇數。

表1 聚類算法Table 1 Clustering algorithm

續表

3 實驗分析

為了驗證本文設計的聚類方法,使用“中國科技資源共享網”(https://www.escience.org.cn)中的部分水生生物種質數據作為科技資源數據集進行實驗。該數據集包含國家水生生物種質資源庫提供的3 606個與水生生物相關的資源的名稱、描述等資源元數據信息。

3.1 水生生物種質資源本體樹構建

為了應用本文的方法,首先需要建立水生資源數據的領域本體樹。本文設計的領域本體樹主要針對水生資源數據標題、描述以及關鍵詞中出現的詞匯用手動建立。本體樹含有27 個概念及個體,如圖3 所示。

將此領域樹通過2.1 節描述的方法建立降維矩陣,將27 個概念組成的高維向量轉換為3 個主要概念組成的向量。通過分析降維矩陣可知,對每個主要概念貢獻最大的前5 個主要概念如表2 所示。

通過這些信息可知:主要概念1 側重于分子和細胞工具相關資源;主要概念2 側重于斑馬魚資源;主要概念3 側重于水生生物。

表2 貢獻前5 的主要概念Table 2 Top 5 main contributing concepts

圖3 領域本體樹Fig.3 Domain ontology tree

3.2 水生生物種質資源向量表示

科技資源相關描述主要由標題與詳細描述兩部分文本組成。為了將描述轉換為向量,首先分別把標題和詳細描述分別轉換為與概念同維度的27 維向量。具體方法為:如概念出現在文本中則設置為1,否則設置為0。之后將標題向量、詳細描述向量和關鍵詞向量疊加形成科技資源數據描述向量。

以水生生物資源數據的一個資源為例,其標題為“工具質粒 (pT2(kop:Cre-UTRnos3, CMV:EGFP))”, 描述為“由國家斑馬魚資源庫收集、保藏,用于科學研究目的的工具質粒。DNA 資源,經由每年不少于一次轉化、質粒提取、驗證工作維護。資源常年以DNA 樣品方式保藏和分享。資源類型為工具質粒?!标P鍵詞為“斑馬魚;工具質粒;DNA”。轉換后向量中非0 值以及對應概念如表3 所示。

其中向量下標為9 的“質?!比≈禐?,因為概念出現在標題、描述和關鍵詞中;下標為17 的斑馬魚取值為2,因為概念同時出現在描述和關鍵詞中。

表3 科技資源向量實例Table 3 Technology resource vector example

通過以上方法對水生生物種質資源數據中3 606個樣例進行向量化,并通過2.2 節描述的方法進行降維得到3 維空間中的點集。

3.3 水生生物種質資源聚類

對3.2 節降維后的結果使用K均值算法對科技資源進行聚類。根據肘部法則進行K值的選取,根據圖4 聚類簇數量與誤差平方和(Sum of the Squared Error, SSE)關系圖,本例中K值選取為6,即聚類簇數為6。聚類結果如圖5 和表4 所示。

圖4 聚類簇數量誤差平方和(SSE)關系圖Fig.4 Relationship between the number of clusters and SSE

由聚類結果可知,本文提出的聚類方法將2 606條水生資源數據聚成了6 類,且聚類結果具有明顯的語義意義,與數據提供機構給出的主題分類(圖6,來自“中國科技資源共享網”)能夠較好地吻合,其準確率為99.6%。相關科研工作者提出科技資源需求時,可以通過檢索條件檢索到相關的資源包并進行優化配置實現個性化服務。

圖5 科技資源聚類向量空間Fig.5 Technology resource clustering vector space

圖6 國家水生生物種質資源庫主題分類Fig.6 Theme classification of NABRC

綜上,本文使用“中國科技資源共享網”(https://www.escience.org.cn)中水生生物種質資源驗證了本文討論的科技資源聚類方法,可以看到通過領域本體樹對科技資源向量進行降維后依然保持了良好的原始數據特征,并取得了良好的聚類結果。這驗證了本方法在高維數據集上應用的有效性。

表4 科技資源聚類結果Table 4 Technology resource clustering results

4 結論與展望

本文提出了一種基于領域本體概念樹的科技資源向量化方法,給出了本體概念語義關系矩陣的構造方法和向量空間的構造方法,并利用該向量空間進行了聚類處理分析,目前在一般規模的真實數據集上得到了較好的聚類結果。證明通過本體概念語義關系降維后的向量在簡化計算的同時,依然可以保留足夠的科技資源特征信息。本方法具有針對多源異構的高維科技資源數據的處理能力,為領域廣、數量大的異構科技資源集合進行聚類分析和個性化服務共享提供了技術支持。

通過本方法產生合適的科技資源聚類后,可以在由每個聚類中心組成的新向量集合中進行查詢條件最近鄰檢索,并對檢索結果對應的聚類包通過一定的規則進行選擇集成組合,可以達到為不同用戶提供個性化資源服務的目的。如何對資源包進行選擇和最優化組合配置將是科技資源集成的另一個研究重點。

本文提出的異構數據聚類方法依賴于基于領域本體的數據預處理過程,目前對大規模構建領域本體仍然是一個困難的工作。本文未來將研究利用深度學習和知識圖譜的技術自動構建大規模的本體領域網絡以適應海量的、覆蓋眾多領域的科技資源數據集。

本文的另一個未來工作方向是改進聚類方法的靈活性和計算效率,以具備較強的領域適應性和規模適應性。

致 謝

感謝國家水生生物種質資源庫于中國科技資源共享網公開發布共享的科學數據資源。

利益沖突聲明

所有作者聲明不存在利益沖突關系。

91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合