?

基于云計算技術的圖書館薦購系統設計

2023-02-08 06:06朱錳鋼
關鍵詞:檢索詞匯圖書

朱錳鋼,張 馳,張 縣

(1.西安文理學院 圖書館,西安 710065;2.西北政法大學 圖書館,西安 710122;3.西安歐亞學院 圖書館,西安 710065)

圖書館作為知識的海洋,是為用戶提供圖書借閱和學術支持等服務的重要場所.在傳統圖書館管理模式中,圖書處于被動借閱地位,通常由用戶的學習需求和興趣偏好所決定,存在圖書資源利用率低、查找困難與拓展性差等弊端.[1]因此,為避免圖書管理員選購圖書的盲目性,帶動用戶參與圖書館資源建設的積極性,以及提升圖書館的整體服務水平,圖書館薦購系統越來越受到業界的高度關注[2-3].通過該系統用戶可以向圖書館推薦購買自己所需圖書,從而最大化滿足用戶對圖書館的個性化服務需求,對促進圖書館的集約化和數字化發展具有重大意義[4].

當前已有很多相關學者對此類系統的設計展開一系列研究,例如李澎林等人和張晗等人,分別利用數據挖掘與用戶畫像完成系統設計[5-6].這兩種系統的薦購界面比較友好,能滿足不同用戶的圖書薦購需求,但系統面臨的數據稀疏性問題影響了圖書推薦質量,且在面對超大數據集時,系統的存儲容量和計算能力受硬件限制較大.

云計算技術作為一個新型的計算機科學領域,因具有虛擬化的特性,能夠將計算機資源邏輯抽象成資源池,實現信息整合、資源共享和按需服務等功能,且硬件成本和維護費用較低,能有效擴展圖書館的發展空間和完善圖書館的數字化服務功能.因此,本文設計基于云計算技術的圖書館薦購系統.

1 圖書館薦購系統設計

1.1 系統總體結構

設計基于云計算技術的圖書館薦購系統,將云計算技術作為核心,使用戶能通過客戶端和移動終端等設備接入Web云,達到圖書館信息實時雙向傳遞的目的.該系統總體結構用圖1描述.

圖1 圖書館薦購系統總體結構

(1)數據源層包含大量圖書館累積的數據,由圖書書名、圖書摘要等圖書數據,以及檢索記錄、瀏覽數據等用戶信息兩部分構成,由于這些數據以不同的形式存儲于各個機器中,因此需要對其進行整合,并將用戶及圖書特征從中提取出來.

(2)云計算平臺層包含數據預處理、分布式Hadoop計算、分布式存儲和管理模塊四部分.依次通過數據預處理的數據抽取、清洗、轉換、映射以及集成過程處理數據源層的圖書館數據,以消除其內噪聲;分布式Hadoop計算是該層的核心,依據應用需求,選用適當的分析調度形式劃分預處理后圖書館數據的計算串行任務,使其變為能夠并行的子任務,并分配到各個slave Task Tracker節點上執行;分布式存儲利用分布式文件系統HDFS分塊存儲經過計算的圖書館數據,以便于業務應用層的調用;管理模塊由資源、備份和安全管理等部分組成,負責為該層提供相應的管理服務.

(3)業務應用層主要由圖書薦購、云/Web圖書檢索和圖書推薦引擎組等模塊構成.依據云計算平臺層存儲的圖書館數據,圖書薦購模塊采用圖書館薦購流程,向用戶提供圖書薦購服務;通過云圖書檢索模塊可以查詢電子圖書、高校館藏和公共館藏等云端圖書館藏信息,使用戶詳細了解所需圖書的獲取途徑;Web圖書檢索模塊內嵌Google圖書API和豆瓣等功能,用戶利用該模塊能夠瀏覽圖書封面與目錄等詳情,從而判斷是否薦購此圖書;圖書推薦引擎組模塊的推薦引擎,運用基于文本語義和用戶偏好的圖書推薦算法,向用戶推薦感興趣的同類型圖書;此外系統評估模塊可以實現系統精準度、多樣性和穩定性等方面的評估,以滿足圖書用戶的個性化薦購需求.

(4)用戶交互層是連接用戶和系統的橋梁,通過液晶顯示模塊可以將薦購等操作界面和查詢及推薦等結果展示給用戶,系統管理員利用該界面可以查看與設置圖書推薦引擎組參數,并實現整個系統的運行管理.

1.2 系統硬件設計

1.2.1 圖書推薦的圖書推薦引擎結構

用于向用戶提供圖書推薦服務的圖書推薦引擎組模塊中,單個推薦引擎結構用圖2描述.該模塊由特征向量采集、特征-圖書初始推薦以及推薦處理3個單元組成.采用提取裝置從用戶行為數據庫中獲取用戶行為特征,并使用轉換裝置將其變為相應的特征向量[7-8],其與從用戶屬性數據庫內直接獲取的用戶屬性特征共同構成特征向量數據庫,在此基礎上特征-圖書初始推薦單元,運用基于文本語義和用戶偏好的圖書推薦算法獲取圖書初始推薦結果,利用推薦處理單元的過濾器對圖書初始推薦結果進行篩選,同時排序器依據用戶反饋機制收集的用戶反饋信息排列篩選結果,將其經過推薦解釋單元的數據解析后,通過用戶交互層的液晶顯示模塊可視化展示圖書最終推薦結果.

圖2 圖書推薦引擎結構圖

1.2.2 圖書館信息展示的液晶顯示模塊結構

系統用戶交互層中,具有圖書館信息展示功能的液晶顯示模塊具體結構用圖3描述.該模塊選用的顯示器型號為YD-502彩色液晶VRAM型,其容量和點陣數分別為64k×8、320×240,并且能夠顯示8種顏色,是因為顯示器上任意點都包含紅(R)、綠(G)和藍(B)3種顏色,同時無法調整灰度.DC/DC轉換器可生成液晶需要的各類驅動電壓[9];DC/AC逆變器負責冷陰極背光燈的控制;液晶驅動電路通過分時技術可以并行完成數據的顯示和寫入操作[10],從而達到實時更新畫面的目的.

圖3 液晶顯示模塊結構圖

1.3 系統軟件設計

1.3.1 圖書館薦購流程

系統業務應用層中的圖書薦購模塊,通過圖4所示流程實現圖書館薦購.用戶登錄圖書館薦購系統后,輸入薦購圖書信息,若能夠在云端檢索到該圖書,并且未被薦購,則通過Web圖書檢索功能瀏覽該圖書詳情,以快速確認是否薦購該圖書,確認后判斷該圖書所屬分類已薦購總金額和圖書館年度已薦購總金額等是否超出既定標準[11-12],在未超標的情況下即可成功薦購.如果用戶在云端未能檢索到所需圖書,或者用戶瀏覽圖書詳情后拒絕薦購,則向用戶推薦感興趣的圖書,例如同類型、同作者等;如果推薦的圖書被拒絕薦購,則重新推薦;針對完成薦購的圖書不能重復操作,僅能添加關注.

圖4 圖書館薦購流程圖

1.3.2 基于文本語義和用戶偏好的圖書推薦算法

系統業務應用層中圖書推薦引擎組模塊,使用文本語義結合用戶偏好的方法完成圖書推薦.利用TF-IDF算法提取圖書書名、圖書摘要和圖書目錄三種文本信息中的關鍵詞,以消除文本內低信息量詞匯對圖書推薦結果的影響[13-14].通過公式(1)描述TF-IDF算法的形式:

(1)

式中:圖書文檔用d描述,其總數和其內詞匯分別用N、t描述,d內t的呈現頻率用ntd描述,圖書文本Di在d內出現的總次數用Nd描述,存在詞匯t的圖書文檔總數用Dt描述,詞匯t的詞頻和逆文本頻率分別用TF(t,d)、IDF(t)描述.當某些詞匯只呈現于單個圖書文檔中時,詞匯的TF-IDF值等于0,為防止此種情況發生,將拉普拉斯平滑添加到IDF(t)的分母部分,可得到公式(2)所示的TF-IDF形式:

(2)

通過上式求出圖書文本Di中每個詞匯t的TF-IDF值后,各圖書文本的關鍵詞即為依據TF-IDF值排列的前n個詞匯.引入向量空間模型將上述提取的圖書文本關鍵詞轉化為向量形式,進而計算圖書文本相似度.假設D={D1,D2,…,Dn}表示數量為n的圖書文本集,提取其關鍵詞后所得共有的m個詞匯集合用W={w1,w2,…,wm}描述,則依據向量空間模型能獲得公式(3)所示的詞匯-文本矩陣Q,用以描述每個圖書文本數據:

(3)

式中:圖書文本Di中詞匯t的權值用矩陣內各元素qij描述,其通常為t在Di中的TF-IDF值,該值與t在Di中的重要度具有正比關系,此時Q內行號為i的向量qi則代表圖書文本Di,使用公式(4)描述qi的形式:

(4)

式中:j的取值介于[1,m]范圍內.

通過公式(5)求解圖書文本向量的余弦值,便能獲得圖書文本Di和Dj之間的語義相似度:

(5)

式中:向量內積和范式分別用“·”、‖·‖描述.

設u代表某個圖書用戶,其檢索記錄中的圖書編號列表用Lu={l1,l2,…,lm}描述,該用戶的興趣偏好集合用X={x1,x2,…,x2n}描述,其為用戶最近檢索的2n本圖書.假設圖書文本庫全集用B={b1,b2,…,bk}描述,其相應的文本向量用P={p1,p2,…,pk}描述,集合X中各圖書相應的文本向量用Pu={p1,p2,…,p2n}描述,且滿足Pu?P.通過公式(5)求出Pu中某圖書Di和全集B中不考慮Lu的圖書之間的文本相似度,獲得與Di相似度最高的圖書sDi,處理完Pu內全部圖書后,獲得用戶近鄰集和相應的圖書文本相似度集,分別用{sD1,sD2,…,sD2n}、{sim1,sim2,…,sim2n}描述.依據圖書文本相似度集的降序形式排序用戶近鄰集,用戶u的圖書推薦結果即為排序靠前的n本圖書.

2 結果分析

以某大型圖書館作為實驗對象,所需數據源為其內圖書數據和用戶信息,該圖書館館藏書籍共計81 267本,注冊用戶為8 129人,使用本文系統完成該圖書館的薦購服務,以驗證所設計系統的薦購性能.

該系統每日會獲取到超過1 800萬條的數據信息,為保證系統進行圖書館薦購所需數據源的實時性,比較不同圖書用戶數量下,系統每秒產生數據量和每秒消費數據量,具體用圖5描述.分析圖5可以發現,系統每秒產生數據量和圖書用戶數量具有正比關系,且呈線性增長趨勢,系統每秒消費數據量與系統每秒產生數據量變化趨勢一致,但始終保持最高.因此表明,本文系統能夠及時處理產生的數據,并且處理能力不受圖書用戶數量的影響,滿足圖書館薦購所需數據源的實時性需求.

圖5 每秒產生數據量和每秒消費數據量對比

兩個圖書用戶A和B的薦購圖書名稱分別為《魚翅與花椒》、《Go程序設計語言》,兩種圖書的作者編號分別為F2380以及F3617,在系統云圖書檢索模塊未找到以上圖書的情況下,系統針對圖書用戶需求產生的前10條推薦結果用表1描述.分析表1可以看出,兩個圖書用戶的薦購圖書類型分別為美食和編程,使用本文系統產生的前10條推薦結果類型與圖書用戶薦購圖書類型完全相同,且排在靠前位置的均為同一作者所著圖書.因此可得,本文系統針對不同圖書用戶均具有較理想的圖書推薦性能,符合圖書用戶的個性化需求.

表1 部分圖書推薦結果記錄

本文系統的Web圖書檢索模塊,可以為圖書用戶提供薦購圖書詳情瀏覽功能,相應界面用圖6描述.從圖6可以看出,本文系統的Web圖書檢索模塊支持圖書精確檢索和按類型檢索兩種方式,并且圖書信息十分豐富,包含圖書編號、作者、封面以及簡介等詳情,同時具備薦購和添加關注的功能.因此表明,本文系統的Web圖書檢索模塊,能為用戶確認是否薦購所瀏覽圖書提供有效參考.

圖6 薦購圖書詳情瀏覽界面

統計分析某日上午8~9時,本文系統獲取的前8條圖書薦購記錄,具體用表2描述.分析表2可以看出,當圖書處于未薦購狀態,且相應金額未超標時,用戶可以成功薦購所需圖書,否則圖書薦購失敗,滿足系統設定的約束條件.因此表明,本文系統具有較優異的圖書館薦購效果,可以避免圖書重復薦購和薦購金額超標的情況.

表2 某日上午部分圖書薦購記錄

3 結語

圖書館是收集、整合圖書資源,并為用戶提供借閱和參考服務的重要機構,其持續擴張的海量數據信息與云計算技術的大量資源集群特點相吻合,因此本文設計基于云計算技術的圖書館薦購系統.該系統對持續增長的海量數據具有較好的處理能力,能有效保證圖書館薦購所需數據源的實時性,并且針對不同圖書用戶的推薦效果均較為理想.此外,在為用戶確認是否進行圖書薦購提供可靠依據的同時,還可以避免圖書重復薦購和薦購金額超標的情況.

猜你喜歡
檢索詞匯圖書
本刊可直接用縮寫的常用詞匯
一些常用詞匯可直接用縮寫
圖書推薦
本刊可直接用縮寫的常用詞匯
歡迎來到圖書借閱角
班里有個圖書角
專利檢索中“語義”的表現
本刊一些常用詞匯可直接用縮寫
國際標準檢索
國際標準檢索
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合