?

一種融合深度學習與協同過濾的學術論文推薦方法

2021-09-15 10:50
科技經濟導刊 2021年24期
關鍵詞:學術論文相似性矩陣

祝 婷

(西安工業大學圖書館,陜西 西安 710021)

學術論文是科研人員在學術研究過程中的重要知識源,然而隨著大數據時代的到來,學術論文數量急劇增長,用戶在論文數據庫中檢索論文時,往往會出現信息過載的問題。如何幫助用戶從海量論文中獲取所需論文,為用戶提供推薦服務,對輔助科學研究具有重要意義。常見的學術論文推薦方法包括基于內容的推薦方法、基于關聯規則的推薦方法、協同過濾推薦方法以及混合推薦方法,其中協同過濾推薦方法是使用最為廣泛且成功的一種推薦方法。除了利用用戶對論文的評分計算相似性外,論文本身的語義特征也是不可忽略的重要因素,深度學習技術可以深層次的挖掘論文的隱式特征,因此,將深度學習技術與協同過濾推薦方法相融合已成為新的研究趨勢。本文首先對學術論文推薦現狀和存在的不足進行了概述,然后介紹了深度學習和協同過濾技術,最后在此基礎上提出了一種融合深度學習與協同過濾的學術論文推薦方法,以期為用戶提供更為準確的學術論文推薦服務。

1.學術論文推薦概述

1.1 學術論文推薦現狀

傳統的學術論文推薦方法通常包含基于內容的學術論文推薦、基于關聯規則的學術論文推薦、協同過濾學術論文推薦以及混合學術論文推薦等?;趦热莸膶W術論文推薦是通過計算用戶和學術論文的向量空間模型,然后比較兩者之間的相似性,將與用戶相似性較高的學術論文推薦給用戶;基于關聯規則的學術論文推薦是根據數據挖掘算法獲取用戶瀏覽論文數據庫生成強關聯規則,用戶在檢索、瀏覽或下載論文時與強關聯規則進行匹配,將匹配的學術論文推薦給用戶;協同過濾學術論文推薦是通過用戶-論文評分矩陣計算用戶之間的相似性,生成目標用戶的近鄰用戶,將近鄰用戶感興趣的學術論文推薦給目標用戶;混合學術論文推薦方法是為了克服以上推薦方法的缺點,融合其優點,將多種推薦方法相結合形成新的混合推薦方法,與單一推薦方法相比具有更好的推薦效果。

1.2 學術論文推薦存在的不足

基于協同過濾的學術論文推薦未與深度學習技術進行相融合。利用協同過濾技術進行學術論文推薦時,主要是依據用戶對學術論文的評分進行推薦,這種推薦方法雖然可以滿足用戶的基本需求,但是沒有對學術論文的語義特征進行分析,致使學術論文推薦的準確度不高,推薦效果不夠顯著。實際上,除了獲取評分數據之外,分析論文本身的語義特征對于學術論文推薦也是至關重要的,論文的語義特征反映了一篇論文的核心內容,而用戶是否對某篇論文感興趣,本質上也是根據論文的核心內容進行判斷。常見的學術論文特征提取方法為一種淺層學習方法,該方法無法深層次挖掘學術論文的隱式特征,在一定程度上也限制了推薦的準確性。因此,目前傳統的協同過濾論文推薦方法在根據用戶評分數據進行推薦時,尚未考慮到深層次的學術論文隱式特征,致使推薦服務不能真正發揮作用,進一步影響用戶體驗。

2.相關理論

2.1 深度學習技術

深度學習作為機器學習研究領域的一個重要方向,已成為人工智能和大數據發展的熱潮,目前已廣泛應用于自然語言處理、圖像處理、語音識別、機器翻譯等領域[1]。它將低層特征通過組合形成更稠密的高層抽象表示,進而實現對數據的復雜特征表示,在這個過程中,避免了傳統的機器學習方法中人工構建特征帶來的一些問題。隨著大數據時代的發展,用戶面對的數據更多的是多源異構、復雜多樣、無規律的數據,傳統的淺層學習方法無法處理這些數據,這種場景下,深度學習方法便顯得尤為重要。常見的深度學習方法包括自編碼器、受限玻爾茲曼機、卷積神經網絡、循環神經網絡、深度信念網絡等。

2.2 協同過濾技術

協同過濾是目前應用最為廣泛的一種個性化推薦方法,它的核心思想是相似的用戶具有相同的興趣愛好。協同過濾推薦方法分為基于用戶的協同過濾推薦方法和基于項目的協同過濾推薦方法[2]?;谟脩舻膮f同過濾推薦是指在用戶-項目評分矩陣中計算用戶間的相似性,獲得目標用戶的近鄰用戶,然后使用近鄰用戶的評分來預測目標用戶對未評分項目的評分,最后根據預測評分的大小對其推薦?;陧椖康膮f同過濾推薦方法是指在用戶-項目評分矩陣中計算項目間的相似性,根據項目相似性預測用戶對未評分項目的評分,將預測評分較高的項目推薦給用戶。

3.融合深度學習與協同過濾的學術論文推薦

本文在協同過濾推薦的過程中引入論文內容信息,提出一種融合深度學習與協同過濾的學術論文推薦方法。首先,在論文數據庫中獲取論文數據,如題名、摘要、關鍵詞等,將其向量化表示作為深度學習模型的輸入,輸出論文的隱式特征表示,在此基礎上計算論文間的相似性s1;然后,獲取用戶行為數據產生用戶-論文評分矩陣,通過該矩陣計算論文間的相似性s2;最后,結合以上兩種相似性生成最終的論文相似性,根據其相似性大小對用戶進行推薦。整個學術論文推薦流程如圖1 所示。

圖1 學術論文推薦流程圖

3.1 基于深度學習的學術論文特征表示

利用深度學習技術進行學術論文特征表示主要分為以下三個步驟:

3.1.1 數據預處理

首先從論文數據庫中爬取論文數據,如題名、摘要、關鍵詞等,對其進行合并操作;然后對合并后的文本進行分詞及去停用詞,并且規范文本為統一長度,小于統一長度使用0 進行填充,大于統一長度進行截斷;最后計算文本中每個詞的TF*IDF 值,對其進行排序,選取前n 個詞組成詞匯庫,將每個文本即論文轉化為這些詞的集合。

3.1.2 向量化表示

由于深度學習模型無法直接處理詞或文本,本文使用斯坦福大學已經訓練好的語料庫GloVe(6B,400K個詞匯,包含50、100、200、300d 維的向量表示)來對本文的詞進行向量表示,最終可將論文表示為,其中pi 表示論文,表示論文中第n 個詞,⊕表示拼接操作。

3.1.3 論文隱式特征表示

將第二步生成的向量作為深度學習模型(可選擇卷積神經網絡)的輸入,首先通過卷積層進行特征提取,可表示為,其中*代表卷積操作,Kj為卷積核,bj為偏置項,f 表示激活函數;然后通過池化層進行維度降低,可表示為;最后通過全連接層匯總組合特征信息,可表示為Z=Z1⊕Z2⊕ …⊕Zn。因此,論文的隱式特征最終表示為y=f(W*Z+b),其中W 為全連接層的權值矩陣,b 為偏置項。

3.2 基于協同過濾的學術論文特征表示

協同過濾論文推薦方法是根據用戶對學術論文的評分對其進行特征表示。評分一般分為顯示評分與隱式評分,顯示評分是指用戶對論文進行主動打分,分值一般為0-5,分值越高表明用戶對論文的感興趣程度越高,反之感興趣程度越低,0 表示用戶沒有對該論文進行評分。隱式評分是將用戶在論文數據庫中檢索、瀏覽、下載論文時的行為數據進行轉換形成的評分數值。例如用戶瀏覽一篇論文的時間越長代表對其越感興趣,對應評分數值越高。無論是顯示評分還是隱式評分,最終可將每個用戶對論文數據庫中每篇論文的評分表示為用戶-論文評分矩陣,某篇論文獲得每個用戶的評分即評分矩陣的列向量則為該論文的特征表示。

3.3 融合深度學習與協同過濾的論文相似性計算

獲得學術論文的特征向量表示之后,接下來需要計算學術論文間的相似性。常見的相似性算法包括相關相似性、余弦相似性以及修正的余弦相似性[3]。在基于深度學習的學術論文特征表示和基于協同過濾的學術論文特征表示的基礎上,使用相似性算法分別計算論文間的相似性,將其表示為s1 和s2,然后加權兩者生成最終的論文相似性s=a*s1+(1-a)*s2,(0<a< 1)。

3.4 學術論文推薦

根據加權后的論文相似性數值生成論文相似性矩陣,選取與目標論文較為相似的前k 篇論文作為近鄰論文,其集合可表示為nei,則用戶i 對論文j 的預測評分可表示為

4.結語

大數據時代背景下學術論文數量急劇增長,為用戶提供更精準的論文推薦服務是未來研究發展趨勢。本文將深度學習技術與協同過濾推薦相融合,在協同過濾推薦過程中計算論文相似性時,引入基于深度學習的論文相似性,通過加權兩種相似性對用戶產生推薦。

猜你喜歡
學術論文相似性矩陣
本期主要學術論文英文題目及摘要
學術論文征集啟示
學術論文征集啟事
淺析當代中西方繪畫的相似性
多項式理論在矩陣求逆中的應用
12個毫無違和感的奇妙動物組合
基于隱喻相似性研究[血]的慣用句
矩陣
矩陣
矩陣
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合