?

基于數據挖掘技術的圖書館借閱量估計模型

2020-06-15 06:42楊英
現代電子技術 2020年7期
關鍵詞:RBF神經網絡蟻群算法數據挖掘技術

楊英

摘 ?要: 當前圖書館借閱量估計模型存在誤差大等難題,為了提高圖書館借閱量估計的準確性,提出基于數據挖掘技術的圖書館借閱量估計模型。首先,對當前圖書館借閱量估計模型的國內外研究進展進行分析,并提取圖書館借閱量的數據;然后,采用RBF神經網絡對圖書館借閱量數據進行學習,建立圖書館借閱量估計模型,并采用蟻群算法優化RBF神經網絡的權值、閾值;最后,與其他圖書館借閱量估計模型進行對比實驗。結果表明,所提模型可以獲得高精度的圖書館借閱量估計結果,降低了圖書館借閱量估計誤差,驗證了所提圖書館借閱量估計模型的有效性和優越性。

關鍵詞: 估計模型; 借閱量歷史數據; 數據挖掘技術; 蟻群算法; 圖書館管理; RBF神經網絡

中圖分類號: TN911.1?34; TP181 ? ? ? ? ? ? ? ? ? 文獻標識碼: A ? ? ? ? ? ? ? ? ? ?文章編號: 1004?373X(2020)07?0099?04

Library lending volume estimation model based on data mining technology

YANG Ying

(Langfang Normal University, Langfang 065000, China)

Abstract: Since big errors occur in the application of the current estimation models of library lending volume, an estimation model based on data mining technology is proposed to improve the estimation accuracy of library lending volume. Firstly, the research progress for the current library lending volume estimation models at home and abroad are analyzed, the data of library lending volume is extracted, and then the RBF neural network is used to learn the data of library lending volume for the establishment of the estimation model of library lending volume. In addition, the ant colony algorithm is used to optimize the weight and threshold of the RBF neural network. A contrast experiment was performed to compare the model proposed in this paper with other estimation models of library lending volume. The results show that the proposed model can obtain high?precision estimation results of library lending volume and reduce the estimation error of library lending volume, which verifies the effectiveness and superiority of the proposed model.

Keywords: estimation model; historical lending data; data mining technology; ant colony algorithm; library management; RBF neural network

0 ?引 ?言

高校圖書館作為高校第二課堂,為高校教師和學生的課題研究提供了相應資料[1]。圖書館借閱量可體現高校師生規模、館藏數量、管理質量等各項指標,還可體現圖書館文獻利用情況。借閱量是評價圖書館業務的重要指標,評估圖書館借閱量對提升圖書館管理和服務質量具有指導意義[2]。圖書館借閱量作為非線性問題,受時間、館藏數量和書本質量等各種因素影響,具有較大的估計難度。準確估計圖書館借閱量可為圖書館人員和設備管理等資源建設提供配備標準,實現圖書館的科學高效管理和監控[3]。

目前,我國應用于圖書館借閱量的估計模型主要有回歸分析模型和灰色模型,以上兩種模型均為基于線性時間序列的估計模型,而圖書館借閱量作為一種受多種因素影響的非線性動力學過程[4],線性估計模型無法準確估計其內在運行規律,估計精準度較低。神經網絡模型作為一種非線性估計模型,具有較強的非線性逼近能力,且魯棒性較好,被廣泛應用于非線性估計領域。比較常用的神經網絡有BP神經網絡和RBF神經網,RBF神經網絡具有結構簡單、運算速度快的優勢[5],但采用RBF神經網絡實施非線性估計時,容易受輸出權重、單元中心等參數影響。

為了提高圖書館借閱量估計的準確性,本文提出基于數據挖掘技術的圖書館借閱量估計模型,選取并行處理能力較強的蟻群算法優化RBF神經網絡,有效避免了RBF神經網絡在估計過程中過早收斂,有效提升了圖書館借閱量估計精準度。

1 ?數據挖掘技術的圖書館借閱量估計模型

1.1 ?RBF神經網絡

RBF神經網絡[6]通過輸入數據利用隱含層轉換至高維空間中,令線性不可分問題從低維空間轉換至高維空間內并變為可分問題,RBF神經網絡中徑向基函數的公式為:

[hi=exp-x-ci2σ2i] (1)

式中[σi]與[ci]分別表示RBF神經網絡隱單元節點寬度以及第[i]個RBF神經網絡隱單元節點中心。

神經網絡中權值、閾值的取值直接影響RBF神經網絡性能[7],因此需尋找最優權值、閾值,獲取最準確的RBF神經網絡估計結果。

蟻群算法為基于大自然中生物界的新仿生類算法。該算法源于螞蟻行為特性,通過蟻群算法的搜索機制獲取組合優化問題的解。蟻群算法已應用于分配問題、調度問題等問題中,并取得了良好的尋優結果。利用蟻群算法優化RBF神經網絡,尋找最優參數,有效提升了RBF神經網絡對圖書館借閱量的估計精準性。

1.2 ?蟻群算法

1.2.1 ?初始化蟻群位置和信息素

用[N]表示蟻群規模,將蟻群位置初始化[8],依據RBF神經網絡參數范圍可得螞蟻[i]的初始信息素如下:

[Δτi=exp-fxi] (2)

通過式(2)可知,信息素濃度在[fxi≥0]且接近無限大時趨于0,為提升估計精準性,需修正螞蟻的適應度值[fxi],螞蟻適應度值修正公式如下:

[fxi=fxiavg,? ?avg>avg0fxi,? ?other ] (3)

式中:[fxi]表示修正前的適應度值;[fxi]表示修正后的適應度值;[avg]表示修正前適應度值的平均值。

1.2.2 ?路徑選擇規則

螞蟻一次搜索結束后,依據選擇規則選擇下次搜索路徑[9],隨機選取蟻群中數量為[k]的螞蟻,從已選取的螞蟻中抽取信息素濃度最大的個體并設置為轉移目標[Xobj]。轉移目標公式如下:

[Xobj=Xj,? ?τXi

式中[Xbest]為上次迭代中獲取的最優解。

當信息素濃度加大時,吸引螞蟻的程度隨之增大,因此,蟻群獲取最優解的概率越大,螞蟻依據式(5)聚集至目標位置:

[Xi=1-λXi+λXobj] (5)

搜索過程結束后,獲取上次迭代中最優解的螞蟻,繼續在鄰域中細致搜索,獲取全局最優解公式如下:

[Xbest=X′i,? ? fX′i

1.3 ?蟻群算法優化RBF神經網絡權值和閾值

蟻群算法優化RBF神經網絡的主要步驟為劃分權值、閾值的定義域[10],將整體神經網絡分為數量為[n]的均勻子區域,子區域邊界點即為備選權值。初始計算時,各邊界點信息素中的元素相同,螞蟻需穿過各權值的子區域,且每個子區域僅可穿過一次,穿過子區域的過程中需要記錄相應標號,以上標號表示子區域組合作為神經網絡的一組權值和閾值,依據輸出樣本獲取誤差值,并再次更新信息素[11]。

蟻群算法具有啟發式搜索特點,通過蟻群算法優化RBF神經網絡,可避免RBF神經網絡尋找最優參數的過程中出現“過擬合”等現象。設神經網絡中含有參數的數量為[m],以上參數代表RBF神經網絡的權值和閾值。設RBF神經網絡的一組參數為[Pi],且滿足[1≤i≤m]。隨機選取數量為[N]的非零值組成的集合[IPi]。

令每只螞蟻在集合[IPi]內以及全部集合內選取一個權值以及一組神經網絡權值。設螞蟻數量為[h],集合[IPi]內第[j]個元素的信息素含量為[τjIPi]。不同螞蟻搜索過程中互不干擾。集合[IPi]為螞蟻出發點,依據各節點信息量以及轉移狀態概率選取相應元素。當神經網絡中所有元素均被螞蟻選擇后,符合食物源,調節集合內各元素信息量[12]。重復迭代以上過程,直至到達指定迭代次數或神經網絡中進化趨勢極小。

蟻群算法優化神經網絡權值和閾值的具體步驟如下:

1) 依據1.2.1節內容初始化蟻群位置和信息素,設時間為[t],[t]時刻循環次數設置為0,用[Ncmax]表示最大循環次數,設置集合中各元素的信息量為[τjIPj=C],滿足[ΔτjIPj=C],令所有螞蟻集合于蟻穴中。

2) 令所有螞蟻從蟻穴出發,依據1.2.2節路徑選擇規則決定螞蟻行動路徑,螞蟻[K]在集合[IPi]中計算狀態轉移概率,計算公式如下:

[PrτkjIPi=τkjIPig=1NτgIPi,? ?k=1,2,…,h] (7)

3) 重復步驟2),直至全部螞蟻到達目的節點(食物源)。

4) [t←t+m];[Nc←Nc+1],依據螞蟻所選擇權值計算神經網絡的輸出值和誤差[13],并統計目前最優解。單位時間經過數量為[m]時,螞蟻從蟻穴抵達目標節點,神經網絡中各節點信息素更新公式如下:

[τjIPit+m=1-ρτjIPjt+ΔτjIPj] (8)

式中[ρ]為信息素揮發系數。

[ΔτjIPj=k=1hΔτkjIPj] (9)

式中:[ΔτkjIPj=Qek,若第k只螞蟻在本次循環中選擇元素PjIPj0, other]

求解[ek]的公式如下:

[ek=O-Oq] (10)

式中[O]與[Oq]分別為RBF神經網絡實際輸出以及RBF神經網絡期望輸出。通過以上公式可知,相應的信息素隨著誤差[ek]值的變小而增多。

5) 當循環次數[Nc≥Ncmax]或全部螞蟻均可收斂至第一條路徑時[14],計算結束,輸出最優權值、閾值,否則,跳轉至步驟2)。

1.4 ?圖書館借閱量估計實現

采用蟻群算法優化RBF神經網絡,實現圖書館借閱量估計流程圖如圖1所示。

1) 收集圖書館借閱量原始數據,為提升估計準確性以及通用性,收集原始數據包括借閱者性別、年級、專業、借閱書籍類別等[15]。

2) 原始數據歸一化處理。為提升蟻群算法優化神經網絡的運算速度和估計精度,采用歸一化處理收集的原始數據公式如下:

[x′i=xi-xminxmax-xmin] (11)

式中:[xmax]表示原始借閱量的最大值;[xmin]表示原始借閱量最小值。

3) 將歸一化處理后的數據輸入RBF神經網絡中,利用蟻群算法重復迭代優化RBF神經網絡的權值、閾值,直至獲取RBF神經網絡最優權值、閾值組合。

4) 將待估計圖書館借閱量樣本輸入到具有最佳權值、閾值組合的優化后RBF神經網絡中,依據待估計樣本獲取RBF神經網絡中的最優權值、閾值。計算權值、閾值誤差并更新,直至獲取最精準的圖書館借閱量估計結果。

2 ?驗證性實驗

為檢測本文模型估計圖書館借閱量的有效性,將某高校圖書館作為實驗對象,通過Microsoft Visual C++ 6.0軟件編程本文模型。利用該高校借閱系統調取圖書館借閱量原始數據,收集2017年1月1日—12月31日間實際借閱數據,收集數據包括借閱者姓名、年齡、性別、專業、借閱書籍等數據。采用本文模型,利用收集的原始數據估計該高校2018年全年圖書館借閱量,如圖2所示。

將采用本文模型估計的2018年該校圖書館借閱量與該校2018年實際圖書館借閱量對比,檢測本文模型估計的準確性,估計誤差結果如圖3所示。通過圖3實驗結果可以看出,本文模型可有效估計該圖書館2018年各月份借閱量,且估計誤差均在2.5%以下,說明該模型是一種有效的圖書館借閱量估計模型。

為檢測本文模型估計圖書館內不同類別圖書借閱量情況,采用本文模型估計2018年該校圖書館中各類圖書的借閱量情況,估計結果如表1所示。通過表1統計結果可以看出,采用本文模型可準確估計該校圖書館內不同類別圖書借閱量,且估計各類圖書借閱量準確率較高,估計誤差均在2.5%以內。

為進一步檢測本文模型的估計性能,采用本文模型估計2018年不同類別讀者在該校圖書館的借閱量,估計結果如圖4所示。圖4實驗結果表明,本科生在該校圖書館借閱量中占比最高,而教職工和研究生在2018年該校圖書館總借閱量中占比居中,分別為25%以及14%,預科生在該校圖書館借閱量中占比最小,這是因為該校本科生人數較多,而預科生人數較少,本文模型估計圖書館借閱量結果與該校實際借閱情況相符。通過圖4估計結果可以看出,采用本文模型可準確估計不同類別借閱者圖書借閱量,實用性較強。

采用本文模型估計2018年該校本科各年級不同性別學生借閱圖書情況,并與2018年實際各年級不同性別借閱量對比,對比結果如表2所示。通過表2實驗結果可知,采用本文模型可準確估計該校本科各年級不同性別借閱量情況,且估計誤差較低。分析表2中結果可得,2014級以及2018級學生借閱量明顯低于2015、2016、2017年級學生借閱量,這是因為2014級學生僅2018年上半年在校,而2018級學生9月份開學后入校,以上兩個年級2018年在校時間較短,因此借閱量明顯低于2015、2016、2017年級;該校本科各年級女性借閱量明顯高于男性借閱量,這與女同學在學習中付出精力普遍高于男同學有關,與實際情況相符。本文模型估計各年級不同性別學生借閱量誤差較低,再次驗證了本文模型估計的精準性。

3 ?結 ?語

本文提出基于數據挖掘技術的圖書館借閱量估計模型,有效解決了圖書館借閱量非線性高維問題,且解決了神經網絡容易收斂于局部極值問題,利用蟻群算法搜索RBF神經網絡最優參數,獲取最精準的圖書館借閱量估計結果。通過某高校圖書館借閱估計情況驗證該模型估計圖書館借閱量的精準性,該模型不僅可估計圖書館總借閱量,還可估計不同類別圖書、不同類別借閱者以及各年級學生的借閱量,具有較強的實用性,為圖書館的科學高效管理提供了有效依據。

參考文獻

[1] 汪志莉,李欣,于亞秀.高校圖書館館藏利用現狀及對策數據評估:以華東師范大學圖書館為例[J].圖書館論壇,2017,37(3):116?122.

[2] 吳佳慧.高校圖書館館際借閱服務影響效應的實證測度:基于南京部分高校圖書館的調查數據[J].圖書館,2018(11):103?109.

[3] 謝蓉,劉煒.數字學術與公眾科學:數字圖書館新生態:第十三屆數字圖書館前沿問題研討班會議綜述和思考[J].大學圖書館學報,2017,35(1):6?10.

[4] 孟猛,朱慶華,袁勤儉,等.數字圖書館信息安全風險組合評估研究:基于非線性規劃法[J].情報雜志,2017,36(6):128?133.

[5] 夏爽,李麗宏.基于PSO?RBF神經網絡在溫室溫度預測中的應用[J].計算機工程與設計,2017,38(3):744?748.

[6] 姜雪瑩,蘇成利,施惠元,等.采用多變量RBF神經網絡的非線性內部迭代預測控制[J].應用科學學報,2018,36(4):136?148.

[7] 孫堂樂,李國輝.EEMD與RBF神經網絡的太陽黑子月均值預測[J].計算機工程與應用,2017,53(24):252?256.

[8] 柯余洋,楊訓政,熊焰,等.基于遞歸神經網絡和蟻群優化算法的發電環保調度[J].信息與控制,2017,46(4):415?421.

[9] 張立毅,肖超,費騰.基于細菌覓食的改進蟻群算法[J].計算機工程與科學,2018,40(10):170?177.

[10] 李昊,戴天虹,高麗娜.基于改進蟻群算法的WSN路由協議的研究[J].控制工程,2017,24(11):2201?2205.

[11] 陳睿,趙志剛,張雁茹,等.基于改進粒子群蟻群算法的多目標雙邊匹配問題[J].計算機工程與設計,2017,38(1):220?225.

[12] 趙章明,馮徑,施恩,等.帶啟發信息的蟻群神經網絡訓練算法[J].計算機科學,2017,44(11):284?288.

[13] 魏鵬,羅紅波,趙康,等.基于蟻群算法的運動時間優化算法研究[J].四川大學學報(自然科學版),2018,55(6):45?53.

[14] 許凱波,魯海燕,程畢蕓,等.求解TSP的改進信息素二次更新與局部優化蟻群算法[J].計算機應用,2017,37(6):1686?1691.

[15] 關芳,張寧,林強.新媒體視閾下高校圖書館用戶的個人信息管理影響因素研究[J].情報科學,2018,36(3):39?45.

猜你喜歡
RBF神經網絡蟻群算法數據挖掘技術
基于Web的數據挖掘技術與相關研究
云計算中虛擬機放置多目標優化
基于蟻群算法的一種無人機二維航跡規劃方法研究
無線Mesh網絡發展
基于RBF神經網絡的PID自校正控制研究
基于RBF神經網絡的一回路核動力裝置典型故障診斷
一種多項目調度的改進蟻群算法研究
RBF神經網絡在創業板新股定價問題上的研究
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合