?

基于內容過濾的個性化農業信息推薦模型研究

2015-10-28 13:46張啟宇等
湖北農業科學 2015年16期
關鍵詞:個性化服務

張啟宇等

摘要:針對農業信息化綜合服務平臺信息過載問題,構建了個性化農業信息推薦模型,重點研究了用戶類別興趣向量、用戶特征詞喜好向量和文檔特征向量,建立了農業專業詞典和中英文停用詞典;采用遺忘函數按時間對特征詞的權重進行更新,并對用戶類別興趣進行更新,實現用戶模型的更新;采用余弦相似度進行推薦度計算,提出了個性化服務推薦算法;通過對推薦信息的URL參數統計獲知推薦效果,進一步對個性化推薦模型進行修正。結果表明,該模型可根據用戶興趣制定推薦,為用戶提供有價值的信息,滿足用戶個性化需求。

關鍵詞:內容過濾;個性化服務;農業信息;信息推薦

中圖分類號:S126;TP391.3 文獻標識碼:A 文章編號:0439-8114(2015)16-4052-05

DOI:10.14088/j.cnki.issn0439-8114.2015.16.057

Study on Personalization Recommendation Model of Agricultural Information

Based on Content Filtering

ZHANG Qi-yu1,GUO Cheng-kun2,SONG Yao2,CHEN Ying-yi2,WANG Lei3

(1.Yantai Academy, China Agriculture University, Yantai 264670, Shandong, China;

2. College of Information and Electrical Engineering, China Agricultural University, Beijing 100083, China;.

3.Institute of Information Technology, Shandong Academy of Agricultural Sciences, Jinan 250100,China)

Abstract: The personalization recommendation model of agricultural information was constructed in view of information overload on agricultural information service platform. The model focused on three vectors including user category interest vector,user feature words preferences vector and document feature vector,established agricultural professional dictionary and English-Chinese disable dictionary;And then, using forgotten function the model updated weights of feature words, interest items of the user category and user model by time. The last,the model calculated recommended degrees by the cosine similarity,and proposed personalized service recommendation algorithm. Through the URL parameter statistics of recommended information,this model can inform recommendation effect and further correct the model. The results showed that the model can formulate recommendations based on user interest,provide valuable information, and meet the peisonalized needs of users.

Key words: content filtering; personalized service; agricultural information; information recommendation

隨著互聯網和農業信息化的迅速發展,農業網站建設進入了快速發展期。大量的農業技術、供求信息、市場信息、政策法規和農業新聞等信息資源分布在農業網站中,然而由于互聯網信息資源具有信息異質、異構、分散、重復現象嚴重的特點,缺少統一的形式化表達,形成各種各樣的“信息孤島”,很難對農業信息資源進行整合和利用[1]。對農民而言,不會使用搜索引擎,不知道使用什么關鍵詞進行搜索。為此,打造了農業信息化綜合服務平臺,農業信息化綜合服務平臺包括農業服務信息搜索引擎系統(針對涉農科技信息、市場行情、市場供求等信息進行定時、定向地自動獲取、清洗和分類)、信息展示系統(搜索引擎獲取的信息分類顯示)、農業專家系統、農業論壇系統(用戶提出各種農業問題,由農業專家或其他用戶回答,支持短信智能問答)、個性化服務系統(根據用戶的興趣愛好進行信息主動推薦)等。隨著信息的不斷增長,用戶很容易被淹沒在信息海洋當中[2],因此個性化服務系統是農業信息化綜合服務平臺的重要組成部分,可以提取及分析用戶個性信息,根據用戶興趣制定推薦,為用戶提供有價值的信息,滿足用戶個性化需求[3]。

個性化服務系統根據其所采用的推薦技術可分為基于規則的系統和信息過濾系統。信息過濾系統又可分為基于內容過濾的系統和協作過濾系統[4]。目前對于基于內容過濾的個性化服務推薦模型的研究主要在搜索引擎[5]、數字圖書館[6-8]、虛擬研究環境[9]、博物館[10]等領域,對農業領域的研究很少。本研究對基于內容過濾的個性化服務推薦模型進行了研究,提出了適合農業信息化綜合服務平臺的可更新的個性化服務推薦模型。endprint

1 用戶興趣模型

1.1 用戶興趣的獲取

個性化服務推薦模型建立的第一步是建立用戶興趣模型。建立用戶興趣模型首先要獲取用戶興趣,用戶模型中興趣的獲取主要有用戶顯式反饋和用戶隱式反饋兩種[4]。用戶顯式反饋是指用戶回答系統提出的問題,直接參與建模過程,一般通過填表的方式來完成,其優點是獲取的信息比較具體、全面、客觀,可靠性較高,缺點是靈活性差,浪費用戶的時間;用戶隱式反饋是指系統在觀察用戶行為的基礎上通過推理來獲取用戶興趣知識,可以減少用戶不必要的負擔。

根據農業信息化綜合服務平臺的特點,用戶興趣獲取的信息包括用戶注冊時的興趣愛好、瀏覽的信息頁面、信息查詢的關鍵詞、論壇中發布及回復的帖子、短信提問的問題。

1.2 用戶興趣模型的表示

楊艷等[5]提出的將興趣粒度表示法和向量空間模型表示法結合起來的顯隱式結合用戶模型,在用戶興趣愛好固定的情況下取得了比較好的效果。但用戶的興趣愛好不是一成不變的,本研究借鑒了該模型的思想,根據農業信息化綜合服務平臺的特點,構造可更新用戶興趣類別的用戶興趣模型。

農業信息化綜合服務平臺中的信息是分類顯示的,因此把用戶的興趣愛好表現在信息的類別上。把用戶的每一個感興趣的類別和對該類別感興趣的程度用一個向量表示,稱為類別興趣向量,定義為CI=<(C1,W1),(C2,W2),…,(Cm,Wm)>其中m為用戶感興趣的類別個數,Cj為第j個類別,Wj為對應的權重,并且■Wj=1。

在用戶注冊時,系統要求用戶選擇自己感興趣的類別,并給出喜好程度的度量,以此建立喜好向量i=(i1,i2,…,im),m為用戶感興趣的類別個數,ij=∈[1,5],為用戶對類別j喜好程度的度量,值越大,表示喜好程度越高。對向量i進行規范化處理:Wj=ij/■ij。

每一個感興趣的類別用n個特征詞表示,稱為特征詞喜好向量,定義為Tk=<(t1,w1k),(t2,w2k),…,(tn,wnk)>,k∈[1,m],m為用戶感興趣的類別個數,n為特征詞的個數,tj為第j個特征詞,wjk為tj在類別Cj的權重,并且■wjk=1。

把用戶類別喜好向量和用戶特征詞喜好向量綜合起來可以構成用戶興趣喜好向量,定義為UI=<(C1,W1,T1),(C2,W2,T2),…,(Cm,Wm,Tm)>,其中m為用戶感興趣的類別個數,Cj為第j個類別,wj為對應的權重,并且■Wj=1,Tj為特征詞喜好向量,j∈[1,m]。

2 用戶興趣模型的實現

目前,在信息處理方向上,文本的表示主要采用向量空間模型[11]。用空間向量模型表示文本,首先要對文本進行分詞,進行特征選擇和權重計算,最后形成一個N維空間向量[12]。

2.1 特征詞權重的計算

權重的計算有多種方法,主要有布爾函數、頻度函數、開根號函數、對數函數、熵函數及TF*IDF函數等,TF*IDF函數因其算法相對簡單、有較高的準確率和召回率,一直受到相關研究人員和眾多應用領域的青睞[13]。Salton在1973年提出的TF*IDF啟發式權重算法計算公式[14]為:

W(fi,d)=TF(fi,d)×DIF(fi)=N(fid)×log(N(fi)/N)(1)

其中,W(fi,d)是特征詞fi在文本d中的權重,N(fi)是出現特征詞fi的文本數,N是總文本數,N(fid)是文本d中出現fi的次數。

施聰鶯等[12]對“考慮類間類內差異的TF*IDF”、“TF*IWF*IWF”、“引入方差的TF*IWF*IWF”及“TF*IDF頻率”算法進行測試,“引入方差的TF*IWF*IWF”無論是在開放測試還是在封閉測試中,F1測試值都非常高,反映了方差在抑制干擾方面的作用。本研究采用陳克利等[13]提出的“引入方差的TF*IWF*IWF”權重算法進行計算。

特征詞在類別中的權重計算公式:

wij=■×(log(N(ti)/N))2×■ (2)

特征詞在文檔中的權重計算公式:

wid=■×(log(N(ti)/N))2×■ (3)

其中,Pij=Tij/Lj,Lj是類別Cj含有的所有特征詞的次數之和,Tij是特征詞ti在類別Cj出現的次數;Pid=Tid/Ld,Ld是文檔d含有的所有特征詞的次數之和,Tid是特征詞ti在文檔d 出現的次數;■i=■Pij/m,其中m為類別數;a為正整數;N(ti)是全部文檔中出現特征詞ti的次數,N是全部文檔所有特征詞出現次數之和。這里a的取值為3。

借鑒劉華等[14]對不同特征詞進行加權的思路,標題中的特征詞加權底數為2,查詢的特征詞加權底數為3,正文中的特征詞數按200字分級,每增加一級,在原來系數上相應加1。重新修訂公式(2)和(3)中Tij與Tid的計算:

Tid=∑Tic+(3+?姿)∑Tis+(2+?姿)∑Tit (4)

Tij=■Tid (5)

其中,∑Tic表示特征詞在正文中的計數,∑Tit表示特征詞在標題中的計數,∑Tis表示特征詞在查詢中的計數,λ=Tic\200(“\”表示整除)。

心理學研究認為,人的記憶會隨著時間的延續而逐漸遺忘,當環境或場合的改變使得記憶中的某些信息長期不被利用時,這些信息會逐漸被遺忘。根據心理學的記憶遺忘理論,可以認為用戶興趣的改變就是一種記憶遺忘現象[16]。目前對遺忘機制的研究是把時間對興趣的影響通過遺忘函數或遺忘因子來表示出來,并更新用戶的興趣。遺忘函數或遺忘因子有著不同的公式表示,有指數函數[16-21]、線性函數[22-26]、菲波拉契數列[27]、冪函數[28]、對數函數[29]、分段函數[30]、非線性函數[31-33]等。于洪等[28]用ZGrapher工具對艾賓浩斯遺忘曲線進行擬合,得到符合遺忘曲線的數學函數:endprint

Y=0.318×X-0.125(X>0) (6)

南智敏[30]對艾賓浩斯遺忘曲線擬合出分段函數,其中n為自然數:

g(n)=1,n=00.337,n=10.29-0.006n,2≤n≤60.264 32-0.001 72n,6≤n≤31(7)

百度百科的“遺忘曲線”詞條[34]給出了艾賓浩斯記憶遺忘一般規律,得出初次記憶后經過了X小時,記憶率Y近似地滿足:

Y=1-0.56×X0.06 (8)

對公式(6)~(8)進行運算,公式(7)最符合艾賓浩斯遺忘曲線,但公式(7)缺少31 d以后的表示。31 d以后的記憶趨于穩定,所以把31 d以后設置為固定值0.211,修改后的公式為公式(9):

g(n)=1,n=00.337,n=10.29-0.006n,2≤n≤60.264 32-0.001 72n,6≤n≤310.211,n>31(9)

但興趣的改變和遺忘不能完全一樣,因此把日期的天數換成日期的區間,以保證興趣的穩定性,修改后的公式為公式(10):

g(n)=1,0≤n≤t0.337,t≤n≤2t0.29-0.006n,2t≤n≤6t0.264 32-0.001 72n,6t≤n≤31t0.211,n>31t(10)

其中,t為正整數。

采用公式(10)對特征詞在類別和文檔中的權重進行動態更新。特征詞的權重按照公式(2)和(3)進行特征詞加權修訂后和公式(10)之乘積進行計算。文檔中的權重也要計算,因為文檔越新,對用戶的價值越大,公式(10)對類別和文檔進行計算時,t可以取不同的值。

2.2 特征向量的構造

特征向量的構造過程如下:

1)分析服務器日志,去掉與日志無關的信息,如請求失敗信息、頁面圖片請求等等,把用戶有效的訪問信息保存到數據庫中[4]。

2)獲取用戶瀏覽的新聞資訊頁面、論壇中發布及回復的帖子、便民服務的關鍵詞、短信提問的問題,進行中文分詞,去除停用詞。對于中文分詞采用IK Analyzer 2012。IK Analyzer是一個開源的、基于Java語言開發的輕量級中文分詞工具包。在2012版本中,支持通過配置IK Analyzer.cfg.xml文件來擴充專有詞典和停止詞典,詞典的格式為無BOM的UTF-8編碼的中文文本文件[35]。農業專業詞典可以借助網絡上的詞庫構建,搜狗輸入法[36]、百度輸入法[37]、QQ輸入法[38]等輸入法提供了眾多的詞庫供用戶下載使用。從“農林牧漁”類挑選詞庫,整理農業專業詞典。停止詞典在文獻[39]和[40]的基礎上構建。

3)對每一個類別計算特征詞在類別和文檔中的權重,構造用戶特征詞喜好向量Tk和文檔特征向量Dh。Tk=(w1k,w2k,…,wnk),k∈[1,m],m為用戶感興趣的類別個數,n為類別中特征詞的個數;Dh=(w1h,w2h,…,wsh),h∈[1,b],b為該類別下的文檔個數,s為文檔中特征詞的個數。

特征向量的構造如圖1所示。

2.3 用戶類別喜好向量的更新

當用戶訪問系統一段時間后,用戶興趣發生變化時,再使用用戶注冊時的初始用戶類別喜好向量進行計算就會出現偏差,因此要進行用戶類別喜好向量更新。更新策略為:統計用戶點擊不同類別文檔的點擊次數,按照公式(8)進行衰減,計算出最終的點擊值。利用不同類別的點擊值,重新構造喜好向量i=(i1,i2,…,im),m為現在用戶感興趣的類別個數。對向量進行規范化處理:wj=ij/■ij,得到新的類別喜好權重。

2.4 相似度的計算

用戶特征詞喜好和文檔特征表示采用向量方式,因此可以把資源對用戶的推薦度計算轉換為向量間的余弦相似度的計算[10]。由于余弦相似度的計算要求兩個向量維數相同,因此向量Tk和Dh要進行維數的統一,即存在于Tk而不存在于Dh的特征詞補充到Dh中,其權重為0;存在于Dh而不存在于Tk的特征詞補充到Tk中,其權重為0。即Tk=(w1k,w2k,…,wSk),Dh=(w1h,w2h,…,wSh),S為維數統一后的特征詞個數,滿足max(n,s)Sm+n。余弦相似度計算公式為:

sim(Tk,Dh)=(■w2ck×w2ch)/(■)×(■) (11)

3 個性化服務推薦算法及反饋

3.1 個性化服務推薦算法

個性化服務推薦算法流程圖如圖2所示。

3.2 反饋

為了判斷用戶是否瀏覽推薦的信息,對推薦信息的URL添加一個參數,設置為用戶注冊的用戶名。當用戶點擊推薦的信息,服務器會進行統計。通過統計信息,可以獲知每一次推薦的效果。

4 小結

對基于內容過濾的個性化服務模型進行了研究,針對農業信息化綜合服務平臺的目的與意義,提出了農業信息個性化推薦模型,采用用戶顯式反饋和用戶隱式反饋兩種方法相結合獲得用戶興趣。利用特征詞權重和構造特征向量將文本分詞,為了讓個性化推薦更準確,采用遺忘函數按時間對特征詞的權重進行更新,并對用戶類別興趣進行更新。通過對推薦信息的URL參數統計獲知推薦效果,進一步對個性化推薦模型進行修正,為用戶提供更好的個性化服務。但這個反饋需要對大量統計數據進行挖掘分析,是一項長期的工作。

參考文獻:

[1] 胡宜敏.農業垂直搜索引擎語義化若干問題的研究與實現[D].合肥:中國科學技術大學,2012.

[2] 潘拓宇,朱珍民.一種改進的基于協同過濾的個性化推薦算法[J].微計算機信息(管控一體化),2010,26(12-3):228-229,121.

[3] 李 寧,王子磊,吳 剛,等.個性化影片推薦系統中用戶模型研究[J].計算機應用與軟件,2010,27(12):51-54.endprint

[4] 曾 春,邢春曉,周立柱.個性化服務技術綜述[J].軟件學報,2002,13(10):1952-1961.

[5] 楊 艷,邱艷麗.新的基于日志分析的用戶個性化模型[J].計算機科學與探索,2012,6(4):333-342.

[6] 余 俠,朱 林.根據用戶反饋建立和更新數字圖書館用戶興趣模型[J].情報雜志,2004(11):21-22.

[7] 張 帆,楊炳儒.基于文本過濾的數字圖書館個性化服務技術[J].計算機工程與應用,2006(31):206-208.

[8] 趙銀春,付關友,朱征宇.基于Web瀏覽內容和行為相結合的用戶興趣挖掘[J].計算機工程,2005,31(12):93-94,198.

[9] 李 永,徐德智,張 勇,等.VRE中基于內容過濾的論文推薦算法[J].計算機應用研究,2007,24(9):58-60,89.

[10] 周珊丹,周興社,王海鵬,等.智能博物館環境下的個性化推薦算法[J].計算機工程與應用,2010,46(19):224-226.

[11] 趙豐年,劉 林,商建云.基于概念的文本過濾模型[J].計算機工程與應用,2006,42(4):186-188.

[12] 施聰鶯,徐朝軍,楊曉江.TFIDF算法研究綜述[J].計算機應用,2009,29(6):167-170,180.

[13] 陳克利,宗成慶,王 霞.基于大規模真實文本的平衡語料分析與文本分類方法[A].孫茂松,陳群秀.語言計算與基于內容的文本處理——全國第七屆計算語言學聯合學術會議論文集[C].北京:清華大學出版社,2003.

[14] 劉 華,張 普.面向詞典編纂的詞匯聚類研究[A].2004年辭書與數字化研討會論文集[C].上海:上海辭書出版社,2004.

[15] 顏端武.面向知識服務的智能推薦系統研究[D].南京:南京理工大學,2007.

[16] 蔣 萍,崔志明.智能搜索引擎中用戶興趣模型分析與研究[J].微電子學與計算機,2004,21(11):24-26.

[17] ZHANG Y C, LIU Y Z. A collaborative filtering algorithm based on time period partition[A].In:Proceeding of the 3rd international symposium on intelligent information technology and security informatics[C].USA:IEEE,2010.

[18] 張紅衛.基于科技文獻的時序主題鏈構建方法研究[D].遼寧大連:大連理工大學,2013.

[19] 鄧 娟,陳西曲.基于用戶興趣變化的協同過濾推薦算法[J].武漢工業學院學報,2013,32(4):48-51.

[20] 鄧 攀,鐘 將.基于推薦的抗攻擊電子商務信任模型[J].計算機應用,2013,33(12):3490-3493,3502.

[21] 李克潮,梁正友.適應用戶興趣變化的指數遺忘協同過濾算法[J].計算機工程與應用,2011,47(13):154-156.

[22] 石 晶,龔震宇,裘杭萍,等.基于用戶興趣模型的智能信息檢索系統技術與實現[J].情報學報,2003,22(3):282-286.

[23] 宋麗哲,牛振東,余正濤,等.一種基于混合模型的用戶興趣漂移方法[J].計算機工程,2006,32(1):4-6,89.

[24] 李 寧,王子磊,吳 剛,等.個性化影片推薦系統中用戶模型研究[J].計算機應用與軟件,2010,27(12):51-53.

[25] 邢春曉,高鳳榮,戰思南,等.適應用戶興趣變化的協同過濾推薦算法[J].計算機研究與發展,2007,44(2):296-301.

[26] 鄭充林.協同過濾的服裝推薦算法的改進研究[D].上海:東華大學,2013.

[27] 張守志,許 彥.一個個性化服務系統的設計與實現[J].小型微型計算機系統,2003,24(12):2155-2158.

[28] 于 洪,李轉運.基于遺忘曲線的協同過濾推薦算法[J].南京大學學報(自然科學),2010,46(5):520-527.

[29] 朱 祎,和 莉,王小軍.基于關聯反饋技術的用戶興趣模型的建立與自適應更新[J].金陵科技學院學報,2011,27(4):35-39.

[30] 南智敏.基于網頁興趣度的用戶興趣模型體系研究[D].上海:復旦大學,2012.

[31] 申倩倩.基于本體和情境感知的信息個性化服務關鍵技術研究[D].西安:西安工程大學,2011.

[32] 李志浩,聶文匯,成 鵬,等.基于分頁緩存模型的用戶興趣跟蹤方法[J].計算機工程與科學,2012,34(10):32-37.

[33] 鄭先榮,湯澤瀅,曹先彬.適應用戶興趣變化的非線性逐步遺忘協同過濾算法[J].計算機輔助工程,2007,16(2):69-73.

[34] 遺忘曲線[EB/OL].http://baike.baidu.com/link?url=V3FKH3Uhy

yA_I4qK7-cgYuoy7-Rsy_y1PwE1_CXFLFeBcArJ3StBEgSh9Ezg

Bqr9,2014-03-04/2014-04-20.

[35] IKAnalyzer中文分詞器V2012使用手冊[EB/OL].http://code.google.com/p/ik-analyzer/downloads/detail name AD%E6%96%87%E5%88%86%E8%AF%8D%E5%99%A8V2012%E4%BD%BF%E7%94%A8%E6%89%8B%E5%86%8C.pdf&can=2&q=,2012-03-07/2014-04-20.

[36] 搜狗細胞詞庫_詞庫下載_詞典_輸入法字典[EB/OL].http://pinyin.sogou.com/dict/.

[37] 百度輸入法-詞庫首頁[EB/OL].http://shurufa.baidu.com/dict-list.html.

[38] QQ輸入法分類詞庫[EB/OL].http://dict.py.qq.com/.

[39] 張啟宇.基于貝葉斯算法的垃圾郵件過濾系統的研究與設計[D].山東曲阜:曲阜師范大學,2006.

[40] 應曉敏.面向Internet個性化服務的用戶建模技術研究[D].長沙:國防科學技術大學,2003.endprint

猜你喜歡
個性化服務
基于RSS技術的圖書館登陸系統研究
互聯網思維下數字圖書館個性化服務建設研究
需求理論在高校圖書館就業服務中的應用研究
對知識經濟時代高校圖書館個性化服務的相關思考
基于顧客滿意的個性化餐飲服務研究
淺談酒店個性化服務
Web挖掘技術在高職院校數字圖書館個性化服務中的應用研究
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合