?

基于個性化推薦的移動新媒體資訊云平臺方案探討

2021-09-08 10:10吳俊華
電視技術 2021年7期
關鍵詞:搜索引擎檢索對象

吳俊華

(桐鄉市傳媒中心,浙江 桐鄉 314500)

0 引 言

隨著信息技術及互聯網的飛速發展,新媒體資訊需求不斷提升,很多用戶不僅要瀏覽資訊,還希望平臺能直接推薦資訊。如何收集這些信息,如何快速有效地將用戶真實需要的信息展示出來,是目前搜索引擎和爬蟲收集系統迫切需要解決的問題。這需要構建一個實時、精準、全方位的新媒體資訊平臺。

移動新媒體正以越來越快的速度增長,用戶對個性化推薦的需求比以往任何時候都大。隨著移動互聯網的興起,越來越多的用戶接入互聯網,可以收集到大量的信息。對于新媒體資訊的推薦,可以通過在新媒體對象到達時通知用戶來完成初步推薦。通知服務的運行機制為:對于傳入的新聞資訊對象,手動將相應的描述附加到媒體對象,如頻道、標題和作者,用戶需要在新媒體平臺指定自己的喜好,系統將用戶的喜好與媒體對象的描述進行比較,如果匹配,系統會將匹配的媒體對象發送給感興趣的用戶[1]。

本文以新媒體內容資訊推薦為例,探討個性化推薦和云計算如何應用于新媒體資訊。

1 技術實現方案

本文提供一種通過訂閱關鍵詞實現針對移動互聯網用戶的個性化的搜索結果推薦系統和方法。用戶可在輸入框中輸入任意關鍵詞或選擇系統計算出的指定時段最熱門關鍵詞,系統將使用智能分詞系統分析用戶輸入的關鍵詞并使用搜索引擎去源信息索引庫中進行搜索,結合用戶所關注的語義標簽特征或領域,按照時間順序進行倒序排列展示,并將結果以多種方式下發給用戶,真正實現個性化搜索結果精準推薦[2]。

系統主要包括內容采集模塊、關鍵詞訂制管理模塊、搜索引擎模塊、排名策略管理模塊、Wap頁面模塊以及發送模塊。

1.1 內容采集模塊

通過爬蟲服務器從互聯網Web網站爬取相關資源內容。爬蟲服務器定時循環工作,保持內容不斷更新。

1.2 關鍵詞訂制管理模塊

關鍵詞訂制管理模塊的主要功能為:設置搜索關鍵詞,設定關注欄目,設置搜索結果發送頻率,設定用戶所關注的情感、情景及風格特征等。用戶根據自己的需求設置信息發送頻率,并將發送手機號碼、搜索關鍵詞及發送頻次記錄到搜索需求表中[3]。

1.3 搜索引擎模塊

系統檢索搜索需求表,根據用戶訂制的關鍵詞,定期從通過網絡爬蟲采集的原始內容庫中,通過搜索引擎檢索出用戶所需要的內容。搜索引擎由一個中心節點及數十個檢索節點組成,每個節點負責檢索不同的分特征內容。

搜索引擎接收到搜索任務后,中心節點按照檢索節點語義標簽分類表,將需檢索的關鍵詞分發給各檢索節點,完成內容檢索,之后中心對檢索結果根據語義標簽進行合并,得到最新的搜索結果。例如,用戶設定了關鍵詞“運動”,系統根據發送頻率定期觸發搜索引擎,檢索出“運動”相關類型的音樂,并將搜索結果傳給排名策略模塊。

1.4 排名策略管理模塊

系統通過搜索引擎搜到關于該關鍵詞的最新內容后,排名策略管理模塊根據用戶的個人信息判斷用戶的偏好,對搜索結果根據排名策略重新進行排序,將用戶關注度高的信息內容排在前面。例如,用戶設定的關鍵詞是“運動”,通過對用戶的識別,對用戶身份、年齡進行判斷,主動給用戶展示用戶需要的資訊,引導用戶瀏覽網站上的內容[4]。

1.5 Wap頁面模塊

系統獲得搜索結果和排名策略后,調用Wap頁面管理模板,自動將搜索結果依據排名策略組合生成Wap頁面,并保存到Wap網站服務器上;將該關鍵詞搜索結果的Wap頁面URL鏈接、標題欄、手機號碼等信息在Wap Push發送表中插入一條新的記錄。

1.6 發送模塊

發送模塊自動輪詢Push發送表,若發現有新的未發送記錄,則立即將搜索結果通過Push的方式發送到用戶的手機上;發送成功后,修改為已發送狀態。

2 個性化推薦系統

2.1 推薦架構

移動新媒體資訊推薦系統(MRS)是一個提供基于新聞資訊數據分組和用戶興趣的推薦服務平臺。MRS數據庫中的新聞對象以及傳入的新聞對象都是媒體推薦的候選對象。該系統由7個功能塊組成,即track選擇器、特征提取器、分類器、配置文件管理器、推薦模塊、接口以及數據庫。當一個新的媒體對象被插入到MRS的數據庫時,會經過軌道選擇器和特征提取器兩個功能塊。根據提取的特征,分類器功能塊將傳入的媒體對象正確分配到某個媒體組[5]。

2.2 推薦機制

基于內容的協同過濾方法,目的是推薦用戶最近感興趣的內容組的媒體對象。為了捕捉用戶最近的興趣,系統分析最近的交易訪問歷史。在以下示例中,為簡單起見,本系統僅使用最近的5個事務。

每筆交易都分配了不同的權重,其中最新的交易權重最高。此外,交易中包含更多訪問媒體對象的內容組比同一交易中的其他組具有更高的權重。內容組Gi的權重GWi計算如下:

式中:TWj是交易Tj的權重;n是用于分析的最新交易數;MOj,i是交易Tj中屬于內容組Gi的媒體對象數量。

這些權重將記錄在用戶的偏好表中。在計算每個內容組的權重后,MRS對所有內容組進行排名。權重較大的內容組具有較高的推薦優先級。為了避免向用戶推薦大量的媒體對象,MRS限制了推薦的媒體對象的數量。根據GWi將推薦來自內容組的不同數量的媒體對象。每個內容組的媒體對象Ri的數量決定如下:

式中:N是推薦列表中媒體對象的數量;GWi是目標群體的權重;M是MRS中內容組的總數。

對于內容組Gi,選擇用戶尚未訪問的最新Ri媒體對象。在推薦列表中,媒體對象將按照相應的組權重降序排列。在同一個內容組中,會優先推薦最新的媒體對象。

3 網頁爬取

系統通過爬蟲技術主動對已發現網頁進行內容檢索。該技術類似谷歌、百度等搜索引擎采用的爬蟲技術,可高效檢索網站所有頁面,不留死角,同時通過自動化智能填表、模擬Https客戶端等技術實現對論壇、Https類網站的相關媒體信息抓取。網絡爬蟲系統主要是從網絡上抓取各種類型的網頁,包括靜態或動態、結構化或非結構化的網頁,并提供過濾、更新及噪音去重等功能。

4 云平臺部署

云平臺部署包括服務器、網絡設備、存儲設備以及管理設備等部分,存儲網、虛擬網及管理網相互獨立。

服務器上安裝虛擬化軟件XenServer,虛擬化管理軟件采用XenCenter,網絡部署架構如圖1所示。

圖1 云平臺部署架構

數據庫服務用于承載音樂智能搜索系統部署的硬件環境,具備用戶信息存儲、計費結帳、信息交互及數據容災等核心功能。

數據庫服務器配置3臺小型機,采用異地容災機制,確保平臺可靠穩定。

生產庫存儲采用磁盤陣列和FC網絡,保證關鍵事務型業務的數據庫讀寫性能和高性能數據分析。

Oracle數據庫軟件為用戶系統數據庫應用部署包括小型機資源池組成的生產庫,向下傳輸到FC交換機并進一步進行備份存儲和生產存儲。

私有云主要實現數據倉庫及其他非生產數據庫建設、完成與生產數據庫數據交互等功能。涉及1套私有云組件、5臺物理存儲設備以及1套三級等保測評服務。

5 結 語

移動互聯網搜索并不是搜索結果越多越好,而是需在有限的屏幕內展現用戶想要的部分內容,注重使用簡約化和查詢實效性。移動互聯網搜索可通過個性化的垂直搜索或通過設定個性化搜索標簽,設定搜索范圍,提供更為準確的搜索結果。

本文以新媒體信息的資訊推薦為例,提出了基于云計算和搜索技術的媒體內容推薦系統的設計與實現,基于用戶的協同過濾推薦算法,為大數據背景下的媒體內容的設計提供了參考。

猜你喜歡
搜索引擎檢索對象
涉稅刑事訴訟中的舉證責任——以納稅人舉證責任為考察對象
攻略對象的心思好難猜
基于熵的快速掃描法的FNEA初始對象的生成方法
專利檢索中“語義”的表現
區間對象族的可鎮定性分析
網絡搜索引擎亟待規范
基于Nutch的醫療搜索引擎的研究與開發
基于Lucene搜索引擎的研究
國際標準檢索
國際標準檢索
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合