?

基于雙曲空間圖嵌入的科研熱點預測

2022-12-02 05:28戴筠
大數據 2022年6期
關鍵詞:歐氏雙曲神經網絡

戴筠

上海大學,上海 200041

0 引言

科研熱點是指在某個時間段里許多研究者在探討的學問或專題,它承載著科學研究各個領域的最新研究成果,對科學研究的發展具有指導意義[1]。傳統的科研熱點預測,是相關領域高級專業人員通過科技論文查閱與市場調研來確定的??萍颊撐陌l表數量日益增長,使專業人員快速了解研究內容、跟進研究熱點變得越來越困難。

隨著大數據時代的到來和深度學習的崛起[1-3],數據挖掘和機器學習算法已經被廣泛應用到科研熱點預測中。傳統的機器學習主要從兩方面對科研熱點進行預測:一方面是基于論文文本內容的主題模型建模,包括考慮摘要和全文的主題模型,通過算法將論文的文字設計成一個詞袋模型,通過對模型的統計分析,結合與時間相關的信息,得到出現頻率顯著增高的詞[4-6];另一方面是通過論文被引用數量的變化來預測科研熱點[7-10],即挖掘被引頻次顯著增加的論文,那些被引頻次居高不下甚至不斷增加的論文的研究內容,通常就是這些研究領域的熱點。還有一種未被廣泛使用的方法[11],即通過分析論文關鍵詞來預測未來可能會被廣泛使用的詞,這些詞往往代表了科研熱點。這種方法相比于前兩種方法,優點在于能更好地避免全文和引文中的噪聲,因為這些關鍵詞由作者提供,能更好地反映論文的主題。

本文從論文關鍵詞中尋找科研熱點,研究思路是構建一個關鍵詞網絡,網絡的節點為論文的關鍵詞,當兩個關鍵詞出現在一個句子中時,這兩個關鍵詞之間就形成一個鏈路,即網絡的邊。連接某個關鍵詞節點網絡的邊數量越多,這個關鍵詞就越有可能是未來的一個科研熱點。本文的研究目的是預測哪些關鍵詞節點會有較多的網絡邊?,F有網絡邊預測算法雖然被廣泛應用于社交和物流等網絡中,但它們并不能在關鍵詞網絡中得到好的效果[12],主要原因是關鍵詞網絡中的關鍵詞具有明顯的長尾效應[13],即有大量的關鍵詞只有很少的邊,但同時又有少量的關鍵詞有大量的邊。另外,現有的這些算法只能關注到出現頻率高的關鍵詞,而完全忽略那些目前出現頻率低但在未來頻率顯著增高的關鍵詞,也就是這些算法只能關注到近期的科研熱點,而無法預測未來的科研熱點。

本文提出雙曲空間關鍵詞圖嵌入(Poincaré keywords graph embedding,PKGM)算法來預測科研熱點。與傳統的歐氏空間相比,雙曲空間能更好地處理具有長尾效應的數據。雙曲空間以指數形式進行建模,可以有足夠的空間來表示罕見的數據點。雙曲空間可以消除隨機噪聲對這些數據點的干擾,更好地處理長尾效應的數據。PKGM算法在雙曲空間中進行圖嵌入,而不在歐氏空間中進行圖嵌入。首先構造一個關鍵詞網絡,然后將此網絡嵌入雙曲空間。即使兩個關鍵詞在原網絡中沒有邊連接,如果在雙曲空間中的距離非常近,就會認為這兩個關鍵詞之間未來會有一條邊。對這些邊的尋找可以預測未來出現頻率高的關鍵詞,從而找到科研熱點。將PKGM算法在一個真實的數據集上進行驗證,構建的關鍵詞網絡包括9 966個關鍵詞節點和18 976條網絡的邊。實驗發現,PKGM算法比7個基準算法有更好的表現,包括歐氏空間中的最佳算法。

1 相關工作

本節通過兩部分來回顧相關工作,分別是圖嵌入算法和雙曲空間嵌入算法。

圖嵌入算法已在很多圖結構中獲得應用,并且取得較好的效果。一方面工作是通過圖嵌入進行無監督學習,在低維空間還原高維空間的相似性[11,14-16]。例如,DeepWalk通過在網絡中隨機游走獲得低維空間的圖節點特征向量[17]。大規模信息網絡嵌入(large-scale information network embedding, LINE)采用二階相似性,利用神經網絡和深度學習對圖的離散結構進行分析[18]。另一方面,有監督學習也在圖嵌入網絡中被廣泛應用。例如,圖神經網絡通過圖卷積網絡完成圖結構的分類和回歸任務[5,19-23],還通過圖注意力機制進行圖嵌入,從而能動態地對圖的邊設置權重[24-25]。雖然這些算法都能夠獲得較好的結果,但它們無法在雙曲空間中進行嵌入。

雙曲空間嵌入算法是最近機器學習領域中的一個新熱點算法[26-31]。它的思想是使用雙曲空間代替歐氏空間,從而能更好地對長尾效應數據進行建模。雙曲空間嵌入(Poincare embedding)是這方面的先驅工作,它通過將已有的數據映射到雙曲空間,并且在雙曲空間中找到一個潛在的層次結構來建模數據[32]。PoincareGlo Ve[26]用雙曲空間嵌入算法對文本數據進行建模,從而獲得文本的詞向量表示。雙曲圖卷積神經網絡(hyperbolic graph convolutional neural network,HGCN)算法是另一個后續工作[12],它通過應用基于圖網絡的有監督學習模型來學習邊的連接和點的分類。HGCN算法還指出,并不是所有圖都適合在雙曲空間中建模,只有雙曲曲率較小的圖才更適合在雙曲空間建模。與這些工作不同的是,本文首次將雙曲空間嵌入算法應用到論文關鍵詞網絡中,解決了歐氏空間算法中關鍵詞存在長尾效應問題。

2 方法

本節首先給出提出的PKGM算法框架,然后描述關鍵詞網絡的構建,最后詳細介紹PKGM算法。

2.1 算法框架

首先對文本數據進行預處理,構建一個關鍵詞網絡,其次通過對數映射將關鍵詞連接嵌入雙曲空間,然后利用龐加萊球(Poincare sphere)模型在雙曲空間中計算兩個關鍵詞節點的距離,通過指數映射計算歐氏空間中新關鍵詞概率,最后對新科研熱點進行預測??蒲袩狳c預測算法框架如圖1所示。

圖1 科研熱點預測算法框架

2.2 構建關鍵詞網絡

利用給定的關鍵詞表,以關鍵詞為節點,出現在同一個句子中的兩個關鍵詞之間形成一個鏈路,構成關鍵詞網絡。這個網絡的權重為鏈路出現的頻率。傳統的方法會對這個網絡直接建模,然而這個關鍵詞網絡具有長尾效應,即大量的以此關鍵詞為節點的鏈路出現頻率非常低,導致構建此網絡時,模型僅關注出現頻率高的關鍵詞。與此相對的是,未來科研熱點預測要捕獲的關鍵詞往往是更加新的詞,與這些詞相關的鏈路出現頻率往往很低,且不能被傳統模型捕捉到,導致傳統模型的算法效果比較差。究其原因,是傳統模型采用歐氏空間來建模,而歐氏空間不能對長尾效應數據進行有效的建模。因此,本文提出用雙曲空間來解決這個問題。

2.3 雙曲空間關鍵詞圖嵌入算法

本文用雙曲空間對圖中的節點進行建模,任意兩個點的相似性和距離會用它們在雙曲空間中的點嵌入進行計算,而不是傳統的歐氏空間中的點嵌入。雙曲空間有一些基本的空間模型,本文采用的是龐加萊球模型[32]。龐加萊球模型是一種更易于建模的多維空間模型,相比于歐氏空間模型,它常常僅需要少量的維度就能建模更復雜的數據。具體地說,所有在雙曲空間的點被定義在一個d維度的單元球內,,其中是歐幾里得范數,d是龐加萊球的維度,x是龐加萊球模型空間中的一點。

給定龐加萊球中的任意兩點,PKGM算法計算它們在球內的距離,如式(1)所示:

隨著x越來越接近龐加萊球的邊緣,x和y之間的距離會趨向無限遠,這樣龐加萊球模型就能夠建模復雜層次結構的數據,并能夠對具有長尾效應的數據進行建模。相比于歐氏空間,龐加萊球空間具有更小的擾動性。

定義gxB是黎曼空間中測度張量,可以被用來計算龐加萊空間中的梯度,這個張量可以通過歐氏空間的張量簡單表示為,其中是縮放參數,用來進行歐氏空間的梯度和龐加萊空間梯度的映射。gxE=Id是對應的歐氏空間張量,也就是歐氏空間的點乘。

許多神經網絡無法被應用到龐加萊空間中。為了解決這個問題,切空間被應用到龐加萊空間中,即通過對數和指數轉換將龐加萊空間中的向量映射到歐氏空間。為了達到這個目的,PKGM算法通過對數映射和指數映射進行雙曲空間和歐氏空間之間的轉換。對數映射logx(Bd→TxBd)被用來將x從龐加萊球映射到切空間的對應切向量,指數映射expx(TxBd→Bd)被用來將切空間的切向量映射到龐加萊球中的點x。

給定一個雙曲空間Bd和切空間TxBd,對數映射如式(2)所示,指數映射如式(3)所示:

其中,x∈Bd和都是龐加萊球中的點,是切空間中對應x的切向量,定義了從y映射到切空間中的x,⊕代表莫比烏斯加法(歐氏空間中的向量加法)。

龐加萊球中兩個點的歐氏空間PKGM算法如式(4)所示:

計算雙曲空間中一個向量的線性變化,如式(5)所示:

其中,O是龐加萊球的原點,W和b是神經網絡中的權重。

根據這些定義,圖中兩個點u和v在雙曲空間中存在邊的概率如式(6)所示:

其中,是點u在雙曲空間中的點嵌入,dB(·,·)是對應的龐加萊球,r,t>0是對應的超參數。

至此,可以用梯度下降法對圖中每個點的點嵌入進行迭代優化,使圖中存在邊的兩個點的概率最高,而圖中不存在邊的兩個點的概率最低。在這個過程中,雙曲空間可以使點嵌入的效果更好。算法優化結束后,可以根據圖中未連接成邊的點的距離判斷可能出現的新科研熱點,即距離越近的兩個點之間的邊越有可能是潛在的科研熱點。

PKGM算法使用了如下的超參數:學習速率為1×10-5,降維維度d=16,r=2。這些超參數都是基于驗證集合選取的。PKGM算法流程如算法1所示,第1行對龐加萊球模型中的點進行初始化,第2~6行求解龐加萊球中的點嵌入,其中第3行隨機采樣一條邊進行優化,第4~5行對這條邊的概率進行最大化。

算法1PKGM算法

輸入:圖G(V,E)

龐加萊球的維度:d

輸出:圖G中每一個點在龐加萊球模型中的點嵌入

1. 初始化:隨機初始化圖G中每個點在龐加萊球模型中的點嵌入

2. while 損失函數并不收斂

3. 隨機采樣圖中一條邊(u,v)

4. 根據式(1)計算兩點在雙曲空間中的距離

5. 根據式(6)優化u和v在雙曲空間中的點嵌入,使它們的距離減小

6. end while

3 實驗

3.1 數據集和評測指標

本文采用專用實體識別工具PubTator[33]從生物醫學論文數據庫PubMed中獲得了1940年以來所有被PubTator處理過的科技論文摘要和關鍵詞。不是所有論文都包含關鍵詞信息,采用PubTator對論文進行處理,獲得專用實體,以這些實體為關鍵詞信息,共獲得33 548 974篇論文。PubTator為每一篇論文標注出了多個關鍵詞,平均每篇論文12個關鍵詞,分別描述論文的類別、研究方法、研究方向、研究成果等。利用這些關鍵詞組成一個關鍵詞表,對所有論文的句子進行遍歷。若一個句子中有兩個關鍵詞,這兩個關鍵詞之間就形成一個鏈路,即構成關鍵詞網絡的邊。構建關鍵詞網絡的算法流程如圖2所示。具體的是在33 548 974篇論文中,除去重復關鍵詞后,剩余392 522 996個關鍵詞,隨機抽取了10 000個關鍵詞構建網絡。在此網絡中有34個節點由于與最大子圖不聯通被去除,最終獲得了一個有9 966個關鍵詞節點和18 976條鏈路的關鍵詞網絡。

圖2 構建關鍵詞網絡的算法流程

如前所述,通過對關鍵詞網絡邊的研究預測不同關鍵詞之間是否存在邊,就能夠預測未來的科研熱點。具體地說,本文研究就變為一個對網絡邊進行預測的研究,即預測未來可能出現的網絡邊[30]。實驗將整個數據分成測試集、訓練集和驗證集,并且根據訓練集大小,分為實驗1(85%訓練集)和實驗2(60%訓練集)。數據集的統計信息見表1。

表1 數據集的統計信息

實驗選取7個基準算法來比較PKGM算法的效果,具體如下。

● Euclidean算法:歐氏空間嵌入算法是傳統的數據降維算法,它將數據降維到歐氏空間進行后續的預測,本文用L2損失函數對歐氏空間進行降維。

● MLP算法:多層感知機(multilayer perceptron,MLP)算法利用多層神經網絡對目標函數進行非線性逼近。

● GCN算法:圖卷積網絡(graph convolutional network,GCN)算法額外考慮了數據中的圖結構,同時通過對圖和點向量進行降維來獲得點的特征向量,從而進行連接預測。

● GAT算法:圖注意力網絡(graph attention network,GAT)算法通過注意力機制對圖和點向量進行降維,從而進行連接預測。

● HNN算法:雙曲神經網絡(hyperbolic neural network,HNN)算法是在雙曲空間中實現的神經網絡算法,此算法比起傳統的歐氏空間神經網絡算法能更好地對長尾效應數據進行建模。

● HGCN算法:HGCN算法通過增加曲率參數被推廣到雙曲空間,這個算法在節點分類和邊的連接預測上比GCN算法的效果更好。

● HGNN算法:雙曲圖神經網絡(hyperbolic graph neural network,HGNN)算法以非卷積的形式對圖結構進行建模。

上述算法中的Euclidean算法、MLP算法、GCN算法和GAT算法是歐氏空間嵌入算法,其余算法及PKGM算法是雙曲空間嵌入算法。

實驗將接受者操作特征曲線下面積(area under the receiver operating characteristic curve,AUROC)和平均精度(average precision,AP)作為算法的評價指標[11]。AUROC和AP在最佳情況下趨近于1.0,而在隨機的預測下趨近于0.5。AUROC和AP越高,說明算法對網絡邊的預測越準確。

3.2 關鍵詞網絡特性驗證

在檢驗算法的有效性前,先對本文的假設關鍵詞網絡存在長尾效應進行驗證。關鍵詞數量與論文數量如圖3所示,從圖3中可以計算得到90%以上的關鍵詞出現的論文篇數小于13,這樣可以判斷關鍵詞網絡存在明顯的長尾效應。而這個長尾效應往往不能被傳統模型所處理[13],這也為本文提出的雙曲空間建模提供了實驗基礎。

圖3 關鍵詞數量與論文數量

3.3 雙曲空間嵌入算法與歐氏空間嵌入算法比較

本文用關鍵詞網絡中對連接的預測進行科研熱點預測的驗證。雙曲空間嵌入算法與歐氏空間嵌入算法對比實驗結果見表2,可以看到雙曲空間嵌入要顯著好于歐氏空間嵌入。比如實驗1將85%數據作為訓練集時,雙曲空間嵌入算法獲得了0.8822的AUROC和0.8906的AP,而基準算法中效果最好的歐氏空間嵌入算法也只有0.8180的AUROC和0.8389的AP?;趫D神經網絡的GCN算法和GAT算法的效果則更差,要比雙曲空間嵌入算法至少降低13.5%。在實驗2使用更少的數據集作為訓練集時,雙曲空間嵌入算法也同樣獲得了很大的提升,比如雙曲空間嵌入算法獲得了0.8751的AUROC和0.8857的AP,而基準算法中效果最好的歐氏空間嵌入算法也只有0.8062的AUROC和0.8276的AP。由此可見,雙曲空間嵌入算法要比歐氏空間中所有的基準算法都要好,并且效果非常明顯,AUROC至少上升7.3%,AP增加5.8%以上。同時,還可以看到基于嵌入的算法要優于基于圖神經網絡的算法,這也進一步驗證了嵌入算法的有效性。

3.4 雙曲空間嵌入算法與雙曲空間圖神經網絡算法比較

雙曲空間嵌入算法與雙曲空間圖神經網絡算法對比實驗結果見表3,可以發現雙曲空間嵌入算法依然好于所有的雙曲空間圖神經網絡算法。如使用85%訓練集時,雙曲空間嵌入算法獲得了0.8822的AUROC和0.8906的AP,而雙曲空間圖神經網絡算法中最好的HGNN算法的AUROC和AP分別為0.7865和0.8264。也就是在實驗評價指標AUROC和AP上,雙曲空間嵌入算法比雙曲空間圖神經網絡算法分別提升至少10.8%和7.2%。在較小的60%訓練集上的實驗也有相同的結論。同時還發現,雖然雙曲圖神經網絡算法不如雙曲空間嵌入算法效果好,但仍然好于歐氏空間嵌入算法,具體內容見表2。

表2 雙曲空間嵌入算法與歐氏空間嵌入算法對比實驗結果

表3 雙曲空間嵌入算法與雙曲空間圖神經網絡算法對比實驗結果

上述實驗結果表明,在科研熱點預測上,PKGM算法整體上要好于歐氏空間算法,因為關鍵詞網絡的長尾效應更適合用雙曲空間建模。PKGM算法解決了關鍵詞網絡的長尾效應問題,不但能夠關注到近期的熱點話題,還能預測到未來的科研熱點。

3.5 算法性能分析

關鍵詞網絡具有長尾效應,因此它不能被應用到歐氏空間中,并且有更復雜且不直觀的數學模型,但是其在雙曲空間算法中所用的時間復雜度和空間復雜度并不比歐氏空間算法大。實驗觀察到雙曲空間算法的運行速度與歐氏空間嵌入算法相近,因為它們的復雜度主要取決于網絡中邊的數量。更值得注意的是,雙曲空間嵌入算法的空間復雜度要遠小于歐氏空間嵌入算法,實驗中算法的超參數和維度是通過實驗選定的。

PKGM算法效果與學習速率超參數的關系如圖4所示,可以看到PKGM算法對學習速率這個超參數非常穩定,學習速率超參數為0.005~0.350,AUROC和AP基本不變,這充分證明了PKGM算法的魯棒性。

圖4 PKGM算法效果與學習速率超參數的關系

PKGM算法效果和雙曲空間維度的關系如圖5所示,可以看到隨著雙曲空間維度的增加,AUROC和AP也在增加。從圖5可以發現曲線斜率起初比較大,也就是AUROC和AP值變化較快,當維度為16時,曲線斜率變小,AUROC和AP數值變化變緩。綜合考慮算法空間復雜度等方面因素,PKGM算法將16作為雙曲空間的維度,而歐氏空間維度為200。雙曲空間能夠通過更好地利用空間的位置節省維度,在較小的維度中嵌入更多的信息,繼而有效地模擬長尾效應中的罕見詞??臻g復雜度的減少,有助于在有限的空間資源內計算和存儲更多的論文數據,更能適應雙曲空間對科研熱點預測。

圖5 PKGM算法效果與雙曲空間維度的關系

4 結束語

本文提出了一種新的PKGM算法來預測科研熱點。首先,利用論文關鍵詞來構建一個關鍵詞網絡,然后將這個網絡圖嵌入雙曲空間,通過計算雙曲空間中兩個節點的距離來判別兩個節點之間存在邊的概率,從而預測出未來科研熱點。實驗發現,PKGM算法比7種基準方法效果有顯著提高,與效果最好的歐氏空間嵌入算法相比,有7.3%的AUROC和5.8%的AP提升;與雙曲空間圖神經網絡算法相比,有10.8%的AUROC和7.2%的AP提升。其主要原因是雙曲空間以指數形式進行建模,可以把數據點更均勻地分布于低維空間,有足夠的空間來表示罕見的數據點。對于出現次數很多的數據點,指數運算的逆運算即對數運算對次數的降低就較大;而對于出現次數很少的數據點,指數運算的逆運算即對數運算對次數的降低就較小。這樣就可以大大縮小數據點出現次數的差距,利用均勻的空間來表示出現次數多和出現次數少的數據點,這些空間可以抵消隨機噪聲對這些數據點的干擾,能更好地處理長尾效應的數據。

未來有3個研究方向:在關鍵詞網絡中加入文本信息,通過共同訓練獲得更高質量的節點表示;在關鍵詞網絡中加入作者、期刊名等數據,構建異質網絡以獲得更豐富的圖表示;在關鍵詞網絡中加入時序信息,通過不同時間點關鍵詞的差異獲得更精準的關鍵詞網絡。

猜你喜歡
歐氏雙曲神經網絡
漸近歐氏流形上帶有阻尼和位勢項的波動方程的生命跨度估計
雙曲分裂四元數表示矩陣的棣莫弗定理
一類雙曲平均曲率流的對稱與整體解
本刊2022年第62卷第2期勘誤表
中國科學技術館之“雙曲隧道”
雙曲型交換四元數的極表示
神經網絡抑制無線通信干擾探究
基于神經網絡的中小學生情感分析
基于神經網絡的拉矯機控制模型建立
基于支持向量機回歸和RBF神經網絡的PID整定
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合