?

基于數據挖掘的高校圖書館圖書推薦系統探究

2021-04-04 10:07張希平
信息記錄材料 2021年10期
關鍵詞:項集數據挖掘圖書

張希平,姜 華

(1普洱學院 云南 普洱 665000)

(2云南省寄生蟲病防治所 云南 普洱 665000)

1 引言

目前,高校圖書館的信息化建設正在迅速發展,但仍然存在高校圖書借閱率不高、閑置書籍較多、教師和學生進行信息和文獻檢索的過程中比較耗費時間等現象。因此,補充目前高校圖書館已有的借閱服務,增加個性化推薦內容,能夠讓用戶在進行信息檢索時,不僅能夠看到精確查找的內容,也能夠通過系統的篩選和聯想,發現另一些館藏有用的信息,從而實現更加高效的檢索。在相應算法的支持下,對于用戶的瀏覽記錄進行抓取和分析,從而形成個性化的報告,能夠推送相同或者相似類別的內容,使圖書館系統的推薦功能更加具有實用性。因此,對用戶的瀏覽記錄及信息進行收集分析、對館藏文獻和資源進行挖掘,并用算法使他們產生關聯性,就能夠更好地實現圖書館資源的利用。

2 高校圖書館系統存在的問題

2.1 高校圖書館系統結構設計不合理

目前,高校圖書館系統還存在一定問題,比如圖書館系統的設計布局比較混亂,在學生或教師進行信息檢索過程中,可能會出現檢索速度慢、檢索出的數據較少、相關性不強等問題。這些問題會直接影響到學生和教師使用圖書館網站進行圖書查找的體驗,同時,如果在系統中查找圖書和文獻反而耗費時間較長且效果不佳,那么圖書館的圖書管理系統也就失去了其實際應用性。

2.2 高校圖書館個性化服務程度不高

目前,高校圖書館系統大多使用的是匯文文獻信息服務系統,能夠為教師和學生提供一定程度的推薦服務,系統也具備數據挖掘的工具,能夠采用算法為讀者推送相關的專題和全文鏈接等等,還能夠利用數據分析及相關算法,對目前系統中的數據進行簡單統計。但是其數據挖掘和統計分析仍處于比較淺層次的階段,在圖書館系統中的應用,在現實使用和讀者體驗中仍然不是很明顯,并且對信息檢索能力的提升也不顯著。數據挖掘在這個系統中體現的價值并不大,目前的圖書館系統還沒有集成數據分析的功能。

3 圖書推薦系統在圖書館系統中的應用

3.1 個性化推薦系統在圖書館系統中的運用

圖書館系統是結合互聯網上的資源、高校內部學生與教師的信息、館藏圖書以及數據等為教師和學生提供多元化服務的系統,因此圖書館系統主要是以資源整合和讀者服務為主的,能夠向全校師生提供更加方便的圖書館借閱歸還服務,使教師和學生在查找圖書和文獻的過程能夠更加方便、快捷。因此,將個性化推薦系統引入圖書館系統,能夠使讀者在檢索的過程中更加精確和快捷,在輸入相關的關鍵詞后,個性化推薦系統就能夠根據關鍵詞本身、搜索結果的點擊量、借閱率以及相關文獻的點擊量等進行推薦。這個服務系統能夠在較短的時間內,對大量數據進行挖掘并結合算法進行計算,起到幫助讀者檢索篩選的作用。

3.2 圖書館系統中個性化推薦系統的設計

3.2.1 對圖書館館藏文獻及瀏覽數據進行歸類

首先,需要對圖書館數據庫中的數據進行分類,同時還需要分析教師和學生的訪問數據,對其偏好度和相關信息的關聯性進行分析,其中包括用戶瀏覽時間以及具體瀏覽的內容等。對圖書館館藏文獻進行分類,能夠更加明確在檢索過程中,用戶更偏向哪一類文獻的檢索和閱讀,在推送的時候可以按照大類進行推送。而瀏覽時間、頻率以及相關文獻的數據,就能夠通過個人的行為推斷出某些數據的相關性。在分析數據的過程中,應當設定條件值,在分析過程中,少于條件值的數據不具備參考意義,可以進行剔除。另外,對于網頁的瀏覽時間,也需要進行篩選,少于設定時間的瀏覽數據也無參考價值。在提取數據時,一般使用的公式如下:

pref={(f-fmin)(t-tmin)/[(fmax-fmin)(tmax-tmin)]}

其中,pref表示用戶對于某篇文獻的偏好程度,f表示瀏覽次數,t表示瀏覽時間,max和min表示最大值和最小值。在對用戶的瀏覽數據進行分析后,就能夠較為科學地判斷出用戶對某篇文獻或者某一類文獻的偏好程度,從而有針對性地進行推送[1]。

3.2.2 結合用戶偏好以及數據相關度進行分析

除了可以對某個用戶對某篇或某類文獻的偏好程度、對用戶瀏覽數據進行分析,還能夠得出文獻的相關性。在用戶進行文獻瀏覽的過程中,往往不只需要查閱其中一篇,而是對相關性較強的內容都進行閱讀,從而得到用戶想要的信息。因此,用戶的瀏覽日志從某種意義上來說,也能夠提取出文獻的相關性。在實際分析過程中,可以將用戶的瀏覽時間、瀏覽的具體文章以及用戶名用序列表示,對重復序列進行篩選后,就可以結合用戶偏好值進行分析。此處可以采用Apriori技術進行文獻之間的關聯性分析,從而能夠給用戶進行更加精準的推送。高校圖書館往往積累了大量的資源,每天在資源的更新和用戶數據檢索的過程中也積累了很多數據,用戶在很難再檢索的時候很快獲得所需的信息。數據挖掘就是結合圖書館自身的數據庫與用戶的瀏覽信息進行關聯性規則的挖掘和分類,從而能夠為讀者提供更加精準的個性化推薦服務,最終提高用戶的信息檢索效率,滿足其在數據檢索和信息查找中的需求,提高高校圖書館系統的高效性和便捷性[2]。

4 基于數據挖掘的高校圖書館中圖書推薦系統的具體設計

4.1 對高校圖書館圖書推薦系統中的數據進行分類

數據分類是在數據挖掘中十分重要的一部分,能夠將圖書館中圖書、文獻等按照其特點歸結到分類組中。在分類過程中,除了按照傳統分類方式,按照學科、學段等方式進行分類之外,還可以借助對圖書的題名進行關鍵詞分析,通過D3.js可視化組件可以對用戶的閱讀偏好進行調查分析,從而依照多種分類方式對數據進行分類。決策樹(decision tree)就是一個很好的分類算法,通過ID系列規則,能夠將決策樹及其每個分支節點都進行分類和輸出,轉換規則也相對簡單,ID3算法和C4.5算法就能夠完成。決策樹中主要包含數據訓練集、決策樹分類算法、評估模式與預測、測試集與類別未知的數以及預測結果等部分?;蛘呖梢曰诰嚯x進行分類,將每一個類別都使用一個數值向量來表示,就能夠通過相似性實現分類的結果,在計算中主要表現為距離越遠,相似性越小。

4.2 應用關聯規則對高校圖書館借閱數據進行分析[3]

應用關聯規則進行挖掘能夠發現數據庫中各個項集之間的關聯關系,因此能夠解決很多問題。關聯規則中一般存在兩個閾值:minsup即最小支持度,minconf即最小置信度,分別反映一組物品需要滿足的最低程度以及關聯規則最低的可靠度。而在實際應用中,可以基于處理的變量的分類、規則中數據的抽象層次、規則中涉及的數據維度等分為布爾型和數值型;單層關聯和多層關聯;單維關聯和多維關聯等多種關聯規則。應用關聯規則進行算法挖掘一共有兩個步驟,第1步主要是根據minsup在短時間內找出數據集D中所有的頻繁項目集,這一步所耗費的時間是衡量關聯規則算法效率的關鍵標準;第2步則是由頻繁項目集與minconf產生的強關聯規則的探查。因此,關聯規則主要是由指定的minsup與minconf與算法進行交互,通過規則在數據中進行挖掘,最終對挖掘結果進行解釋的一種挖掘模型,能夠將數據庫與用戶所產生的瀏覽數據進行有機聯系,從而實現對于用戶的個性化推薦,提高用戶的檢索體驗和檢索效率。

4.3 在圖書推薦系統中采用Apriori算法

Apriori算法主要是為了解決關聯規則問題提出的算法,主要目的是挖掘頻繁項集思想,在處理數據的過程中,主要分為頻繁項目集的產生和關聯規則產生兩步。Apriori算法主要使用層次順序搜索,篩選相應的候選項集,然后掃描數據庫,使用subset函數找出所有候選的子集,對每一項進行支持計數。從第一個形成頻繁的“1-項集(L1)”進行標記,用“1-項集(L1)”找出頻繁“2-項集(L2)”,再用“2-項集(L2)”找出頻繁“3-項集(L3)”以此類推,直到最終在圖書館數據庫中找出能夠滿足最小支持度的項集L。為了提高計算機運行的效率,同時減少算法在數據庫中掃描的次數,可以對Apriori算法進行改進,比如基于Partition進行數據劃分,這種算法的主要原理是,在第1次掃描數據庫之前,將數據庫分成許多小段,這其中的每一段都可以裝入內存,在第2次掃描時則是合并每個分段,驗證候選集是否都是頻繁項集。還可以基于散列利用DHP算法進行優化,這種算法則是通過在第1次掃描數據庫產生頻繁項集時,增加桶的集數,這樣就能夠在第2次產生候選項集時盡快進行排除,從而大大壓縮了排除候選項集的時間。除此之外,還有采樣方法,犧牲了一些精準度,但能夠很大程度上提升篩選和推薦的有效性,適用于數據挖掘數量較大,但對精確度要求并不高的情況。

5 結語

目前,高校的圖書管理系統中仍存在很多問題,會對用戶的使帶來一定程度上的不便,不能夠很好地體現高校圖書館系統的優越之處。因此,需要對目前的高校圖書館系統進行改良,主要是基于數據挖掘加入個性化推薦系統,從而能夠在教師和學生查找文獻和圖書的過程中,能夠智能化地進行聯想和連接,節省教師和學生篩選查找的時間,從而提高學習和科研效率。

猜你喜歡
項集數據挖掘圖書
探討人工智能與數據挖掘發展趨勢
圖書推薦
歡迎來到圖書借閱角
不確定數據的約束頻繁閉項集挖掘算法
班里有個圖書角
基于并行計算的大數據挖掘在電網中的應用
一種基于Hadoop的大數據挖掘云服務及應用
基于GPGPU的離散數據挖掘研究
一種新的改進Apriori算法*
分布式數據庫的精簡頻繁模式集及其挖掘算法*
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合