?

基于深度學習挖掘用戶搜索主題研究

2021-01-19 02:26
計算機技術與發展 2021年1期
關鍵詞:類別文檔個性化

宋 毅

(哈爾濱華德學院 數據科學與人工智能學院,黑龍江 哈爾濱 150025)

0 引 言

用戶搜索主題模型更新和學習研究工作,用戶搜索主題并非一成不變,有相關實驗證明,用戶搜索主題隨時間變化符合一定規律,基本規律是先快后慢,先多后少,逐漸遺忘。面對興趣遺忘過程,如果興趣模型不進行更新,將會出現用戶搜索主題漂移現象:搜索引擎使用的數據操作簡單,一般而言,只需要增、刪、改、查幾個功能,而且數據都有特定的格式,可以針對這些應用設計出簡單高效的應用程序。而一般的數據庫系統則支持大而全的功能[1-3],同時損失了速度和空間。最后,搜索引擎面臨大量的用戶檢索需求,搜索引擎在檢索程序的設計上要分秒必爭,將大運算量工作在索引建立時完成,使檢索運算盡量少。一般的數據庫系統很難承受如此大量的用戶請求,而且在檢索響應時間和檢索并發度上都不及專門設計的索引系統。大型的商業搜索引擎索引都是億級甚至百億級的網頁數量,面對如此海量數據[4],使得數據庫系統很難有效的管理。個性化、智能化的檢索系統在獲取用戶興趣時,其目的是提取真實準確的用戶興趣,同時盡量減少用戶的參與程度。不同的用戶由于不同的偏好,可能需要不同的相關搜索結果。個性化的基本構成是模型表示和存儲用戶興趣偏好的算法[5]。個性化搜索引擎以用戶需求為前提,分析用戶上網特征,例如,鼠標滾動次數、拖動滾動條次數、網頁瀏覽時間、保存、打印和收藏等行為。個性化服務通過收集和分析用戶信息來學習用戶的興趣偏好,從而實現主動推薦的目的。個性化服務技術能充分提高搜索的服務質量,從而吸引更多的訪問用戶。個性化服務實現信息找人、按需服務、信息推送和減輕用戶負擔。個性化搜索服務首先需要建立對用戶的描述,當用戶的興趣、偏好和訪問模式等用戶信息可以很好地被系統理解的時候,才可能實現理想的個性化服務。根據用戶搜索歷史構建用戶模型,發現用戶興趣偏好,即用戶興趣偏好挖掘,也就成為了個性化服務的核心和關鍵技術。對個性化服務系統來說,最重要的是用戶的參與,為了跟蹤用戶的興趣與行為,有必要建立用戶模型。文中用戶模型特點:(1)可以通過搜索歷史構建,不需要用戶主動提交信息,減小用戶額外負擔,方便用戶;(2)用戶模型進行個性化查詢擴展,通過分類詞典自動抽取特征詞進行擴展,不但可以識別普通用戶興趣類別偏好,對于查詢屬于兼類的用戶興趣類別偏好能夠有效識別,解決查詢類別歧義問題;(3)用戶興趣模型能夠根據用戶搜索歷史發現用戶興趣,通過性能評價發現用戶興趣模型可以有效識別用戶興趣類別偏好,為個性化搜索機制提供了良好的條件。而且通過發現用戶興趣,對于分類的網站,實現個性化用戶產品推薦、社交網絡挖掘、個性化搜索排序等應用。

1 用戶搜索主題存儲模型

不同的信息檢索模型都需要對Term的權重進行估計。影響權重的因素包括:(1)Term頻率(term frequency,TF);(2)文檔頻率(document frequency,DF)或反文檔頻率(inverse document frequency,IDF);(3)文檔長度。TF是在一篇文檔中Term出現的頻率;文檔頻率是文檔集中包含該Term的文檔個數;IDF可以根據log(N/df)計算,其中N為文檔集中的文檔個數[6-7]??梢赃@樣理解這三個因素,Term在一篇文檔出現的次數越多,這個Term就越重要,這也就是TF的作用;一個Term在某篇文檔中出現的次數越多,在其他文檔中出現的越少,這個Term的區分度越大,在這個文檔中也越重要,這也就是IDF的作用;長文檔和短文檔都包含了相關內容,但由于長文檔還會含有不相關內容,應把短文檔排在前面,這也就是文檔長度的作用。

為了精確地表示用戶搜索主題,文本用特征向量去表示微博信息;文本特征向量由特征詞和對應的權重組成,表示該詞在文檔中的重要程度。詞的特征越重要,權重越高。目前,很多研究學者通過TF-IDF表示詞的特征權重。而且TF-IDF使用很多,如式(1)所示。

(1)

TF-IDF算法考慮了特征詞在收集的全部文檔中的關系,沒有考慮特征詞在每個興趣類別文檔中的分布情況。所以權重對精確度有一些影響。

目前,特征詞權重[8]算法有一些成熟的計算方法。但是這些算法仍然有缺點和不足之處。許多國內外研究人員已經進行了相關研究,而且有些研究人員提出了合理的先進算法。

特征詞通過該詞所在的文檔和詞的頻率來計算,如式(2)所示。

(2)

算法:計算微博特征詞權重。

步驟1:統計在這段時間興趣類別里的所有內容的微博數量N。

步驟2:首先找到特征詞集合t={t1,t2,…,tm},然后這個t被用作用戶搜索主題類別向量的候選集合。

步驟3:計算特征詞ti在第i篇文檔ni中的出現頻率。

步驟4:采用TF-IDF-MI方法計算特征詞在候選特征詞的權重,如式(3)所示。

wi=TFi*IDFi

(3)

用戶搜索主題模型不僅要記錄興趣內容,而且需要記錄其他信息。例如興趣更新或者次數的創造和興趣權重。為了提供個性化服務,如何存儲用戶搜索主題模型很重要。用戶搜索主題模型(包括長期興趣模型、短期興趣模型和混合優劃模型)使用向量空間模型VSM表示。向量空間模型利用n維向量特征{(c1,w1),(c2,w2),(c3,w3)}來表示。每個特征向量維度表示用戶的一個興趣類別和興趣類別的擴展興趣。VSM不僅能反映用戶搜索主題在各個類別的興趣度,而且也能通過計算向量來提供個性化推薦服務[6-7]。因此,文中用戶搜索主題模型的邏輯結構如圖1所示。

圖中根節點是用戶,第二層是用戶搜索主題類別。為了更好地表示用戶搜索主題變化,該文采用了兩個用戶搜索主題樹模型,分別表示短期用戶搜索主題模型和長期用戶搜索主題模型。最后,通過短期用戶搜索主題和長期用戶搜索主題來分析用戶的最終興趣類別。實際生活中用戶搜索主題常常隨時間變化。用戶搜索主題類別也會有一些變化。隨著時間變化用戶搜索主題被認為是用戶搜索主題漂移。因此,興趣模型應該包括用戶搜索主題偏移的解決策略。兩個用戶搜索主題漂移模型經常被使用:第一個是用滑動時間窗口模型表示用戶搜索主題模型。該方法非常注重用戶實時時間,忽略了性能的持久性。第二個方法是使用遺忘函數策略,忽略了發現新的用戶搜索主題[9-11]。該文指出現有用戶搜索主題模型用戶搜索主題漂移和用戶搜索主題更新的不足之處,然后提出改進的用戶搜索主題模型策略。首先采用用戶搜索主題向量模型提出模型算法,然后分析當前用戶的用戶搜索主題漂移策略,最后改進用戶搜索主題模型的這些缺點。

圖1 用戶主題模型構建

人的記憶力遵循自然遺忘的規律[12-16]。意味著人的記憶力隨著時間的流失會逐漸減弱。筆者認為用戶搜索主題也遵循像用戶搜索主題遺忘規律一樣的規律。也就意味著用戶搜索主題隨著時間推移逐漸減弱。而且遺忘規律是先快后慢原則。通常用戶最新更新的興趣類別屬于短期用戶搜索主題。對于用戶搜索主題類別還沒有更新的屬于長期用戶搜索主題??梢宰屗ダ系挠脩羲阉髦黝}對象過濾。因此,該文在用戶搜索主題模型中介紹了遺忘因子的概念。當用戶搜索主題模型更新時,用戶不僅僅在用戶搜索主題模型中添加最新的用戶搜索主題類別,而且也調整了現有的用戶搜索主題類別的權重。也意味著確定用戶搜索主題類別特征詞權重通過遺忘因子和逐漸消失的那些老的舊的不再使用的特征詞。

2 查詢擴展

語義知識辭典擴展方法大多在某一具體領域的知識辭典中應用,將查詢串與分類字典里每一項進行匹配,并進行相應的特征項的權值求和計算,權值和最大的一類就是與查詢串最相關的一類。這種方法可以較快地定位到相關類,但是分類字典里計算特征項的權值是以單個單詞為單位,而每個單詞可能同屬多個類,導致最相關類別判定錯誤,影響下步檢索結果的準確度。

擴展中詞典方法采用搜狗詞庫作為詞典。搜狗拼音輸入法可以覆蓋幾乎所有的中文詞匯,所以文中詞典使用搜狗細胞詞庫。搜狗細胞詞庫11 016個詞條,包括8個大類,49個小類。例如,體育健身:足球、籃球、健身、田徑等。每個小類下包含詞庫,例如籃球(23個詞條)、籃球明星(718詞條)、NBA球隊名(57詞條)、籃球術語(228詞條)、籃球詞匯大全(2 384詞條)、NBA球員名字(75詞條)、NBA(43詞條)和體育類專用(621詞條)等。用戶輸入的查詢首先對詞典進行掃描,在詞典中進行最長匹配查找過程,即輸入查詢序列,查找序列在詞典中所有最長的匹配詞條。如果有和查詢串匹配的詞,將其加入擴展詞庫。例如,輸入查詢為蘋果,文中擴展為:蘋果手機、蘋果11,如圖2所示。

圖2 基于詞典擴展樣例

通過研究發現,存在用戶查詢是不同類別的現象,單獨根據用戶查詢很難分清用戶感興趣的類別,所以該文將查詢進行個性化查詢擴展,通過查詢擴展技術,將與“蘋果”相關的兩類查詢,依據用戶搜索主題興趣相關度都擴展進來,然后再進行實驗。經過查詢擴展前后實驗對比,擴展后有效改進了歧義類別的興趣查詢的識別問題。查詢擴展庫樣例如表1所示。

表1 查詢擴展庫樣例

通過查詢擴展,查詢相關和相似的都加入查詢擴展庫,為下一步用戶興趣模型識別用戶興趣兼類類別提供基礎,有效改進了用戶搜索主題的整體性能。

3 實驗結果

采用分類技術對用戶的興趣進行挖掘,相比于用關鍵詞匹配方式,達到了模糊識別主題的效果,取得了較好的興趣挖掘結果。該文通過爬蟲爬取實驗數據,在分類過程完成之后,需要對分類效果進行評估。平均準確率和平均召回率都達到96%以上,分類效果比較理想,分類實驗結果計算文本的類別,然后通過查詢和文檔關系以及文檔類別將用戶查詢映射到類別體系,進而識別用戶興趣類別偏好。

興趣通過爬蟲爬取,采用微博數據。采用5 260條微博最近一段時間的,4 230有用的微博日志抽取和分析在挖掘之前,然后分別通過微博日志文本處理。首先,抽取15天的用戶數據作為短期用戶搜索主題,然后抽取30天用戶數據作為長期數據。然后,使用抽取的數據去更新短期用戶搜索主題模型,每隔15天。長期興趣模型每隔30天更新一次。實驗分別在每個時間點完成。最終,長期用戶搜索主題模型和短期用戶搜索主題模型分別計算它們所占的比例。文中采用各種測試結合,短期用戶搜索主題模型和長期用戶搜索主題模型,短期興趣一般有10天,長期興趣有30天;綜合興趣顯示如圖3所示。

圖3 興趣綜合曲線

在實驗中,模型參數選擇如下:a=0.6,b=0.4,hlper=25,hlcur=10。使用爬蟲爬取微博數據測試效率,提出改進算法,滑動時間窗口模型、遺忘策略興趣模型。確定興趣模型比例和優化混合性啟蒙關系;關鍵搜索性能是每次的100倍。第15個結果用戶搜索主題類別;最后興趣比例被計算。測試結果如圖4所示。

圖4 興趣度曲線

每個用戶總體興趣是個恒定常數。人的精力是有限的,用戶興趣類別偏好也是有限的,如果對某些類興趣度高,對其他類興趣度必然降低,文中關注用戶感興趣的類別。用戶整體興趣滿足固定常數,也就是隨著更新學習,用戶某些興趣可能由高到低遞減變化,而有些類別興趣由低到高遞增變化,但是用戶在整個類別偏好體系中興趣度總和是個恒定常數,用戶興趣能夠反映用戶主題偏好。然而現有大部分個性化搜索引擎沒有識別用戶長期興趣和短期興趣。當用戶更關心短期用戶搜索主題模型時,滑動窗口策略優于遺忘策略模型;因為滑動窗口模型對于長期用戶搜索主題模型是最差的。不僅僅開發長期和短期混合策略,而且也改變用戶搜索主題模型調整時間和興趣模型。這興趣模型影響更實際的用戶搜索主題。

4 結束語

首先闡述了用戶搜索主題更新學習意義和現有方法,基本的用戶搜索主題更新學習方法包括時間窗機制、遺忘因子更新學習和最近最少使用算法等。文中分為短期用戶搜索主題更新學習和長期用戶搜索主題更新學習。其中短期興趣學習方法采用遺忘因子進行更新學習,長期興趣更新學習方法采用最近最少使用算法進行更新學習。用戶搜索主題模型通過更新學習,能夠更好地動態識別用戶搜索主題。首先介紹了個性化搜索研究相關技術、個性化搜索關鍵技術,以及個性化搜索中用戶興趣偏好學習獲取方法,基于搜索日志分析,從實驗分析中可以看出用戶查詢滿足一定規律性。引入查詢擴展技術進行個性化查詢擴展,通過查詢擴展形成擴展詞庫,采用基于詞典查詢擴展方法進行查詢擴展。通過查詢擴展技術,解決了用戶查詢串短、用戶查詢歧義等問題。同時將查詢擴展技術應用在用戶興趣模型中,能夠有效識別用戶興趣類別屬于兼類的查詢,例如用戶輸入“蘋果”,事先并不知道用戶對電子產品的“蘋果”感興趣,還是對水果類別的“蘋果”感興趣,但是通過查詢擴展技術,將電子和水果類別相關的查詢信息擴展,能夠清晰識別用戶查詢的意圖。因此,查詢擴展技術為用戶興趣模型識別兼類興趣打下良好基礎。然后研究了用戶搜索主題模型的評價方法,包括相對誤差分析方法、傳統的準確率方法。相對誤差值越小、查詢串分類準確率越高,說明用戶搜索主題模型識別用戶搜索主題類別越準確。相應地給出實驗分析,具體評價了用戶搜索主題模型的性能。挖掘用戶興趣主題搜索研究工作一直有學者研究。尤其是用戶興趣模型的建立工作。對于實驗數據稀疏問題,最佳解決辦法是和大型互聯網公司合作,互聯網公司提供真實數據進行科研。也有研究學者開發了元搜索系統,掛在搜索系統上來獲取用戶上網習慣。通過服務器管理用戶日志,然后通過日志進行分析用戶偏好類別,也是可行的研究方法。

總之,機遇深度學習挖掘用戶搜索主題能夠有效地為不同用戶提供個性化服務,用戶不再為面對浩如煙海的信息如何進行選擇而愁眉不展。隨著時代發展,手機、平板上網用戶增多,個性化服務可以由互聯網向手機上網用戶研究應用轉變,這將是未來的研究工作熱點問題。

猜你喜歡
類別文檔個性化
淺談Matlab與Word文檔的應用接口
為小學英語個性化合作學習單做加法
有人一聲不吭向你扔了個文檔
輕松編輯PDF文檔
一起去圖書館吧
簡析基于概率預測的網絡數學模型建構
Word文檔 高效分合有高招
同桌寶貝
選相紙 打照片
校本課程開發的個性化問題探討
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合