?

基于數據挖掘的中小學圖書館管理分析

2016-09-06 10:43龍懿田馨代倩
中國教育技術裝備 2016年13期
關鍵詞:主城區借書類別

◆龍懿 田馨 代倩

基于數據挖掘的中小學圖書館管理分析

◆龍懿田馨代倩

近年來,各地中小學圖書館信息化管理發展迅速?;诮逃畔⒒尘?,使用數據挖掘方法,采用聚類分析、關聯規則兩種算法對真實數據進行探索,從而為圖書館管理提供科學依據、為資源的有效配置提供借鑒。

數據挖掘;中小學圖書館;圖書館信息化

10.3969/j.issn.1671-489X.2016.13.076

1 前言

數據挖掘也稱數據庫中的知識發現(KDD,Knowledge Discovery in Database)[1],于1989年被正式提出,之后伴隨著信息化的迅速發展,數據挖掘作為一門綜合學科的技術知識,也獲得快速發展。簡單地說,數據挖掘就是通過對數據的各種分析,得出有用的信息。然而它又不同于傳統的統計分析。傳統的統計分析是對數據進行帶有某種目的的處理分析,數據挖掘是對數據進行綜合處理,發現其中未知的、隱含的知識。這是一種新的分析處理手段,也是目前大數據處理中流行的分析方法,結果往往會超出傳統認知,從而發現新的知識。其經典案例有通過對美國超市銷售數據的分析,發現每周五晚上買啤酒的男士通常會購買尿不濕這一現象,之后營銷學和市場學再對這一結果進行原因分析和營銷戰略分析。這種分析方式在信息化迅速發展的背景下,應用領域廣泛,零售業、金融業、醫療教育行業等。

目前,國內外已經有大量的文獻研究將數據挖掘技術應用于圖書管理,其中大多數以某個學校、某個圖書館或者某個連鎖書店為分析對象,還有一些研究立足于圖書閱讀與學生綜合素質之間的關聯分析。本文以一個省級圖書管理平臺為分析對象,采用數據挖掘中的聚類分析和關聯規則兩種算法對平臺數據進行分析,發現其中未知的隱含信息,力求從更好地服務讀者、更方便地管理圖書、更有效地配置資源幾個方面提供可用信息。

2 數據準備

數據平臺我國教育部在2010年《國家中長期教育改革和發展規劃綱要(2010—2020年)》和2012年《教育信息化十年發展規劃(2010—2020年)》中均提到了中小學圖書館管理信息化問題,各省中小學圖書館管理信息化快速發展。圖書館信息化帶來龐大的數據,要想利用好這些數據來為中小學讀者、管理人員帶來更加有效的信息,就會面對幾個實際的問題:1)由于各地經濟發展狀況等不完全一致,客觀表現不一,中小學圖書館建設情況各不相同;2)中小學圖書館各自歸屬不一樣,數據庫建設標準各有不同;3)部分學校圖書館信息化建設平臺已經完成,但錯誤信息較多、使用較少;4)對已經運行較好的圖書館信息化系統積累的大量數據的利用不足。

四川省教育廳于2012年結合全省實際情況,在相關政策的指導下,開始建立省級圖書管理平臺,涵蓋全省所有中小學圖書館的館藏數據和流通數據。該平臺幫助全省各中小學圖書館信息化工作的開展,通過建設管理平臺,全省各中小學圖書館一方面統一建設標準,另一方面發現糾正數據庫錯誤,形成真實有效的圖書館數據信息。

數據選取本研究數據均采集于四川省省級圖書管理平臺,時間窗口定于2012年9月到2014年12月。通過對全省圖書信息化的調研分析,決定采用圖書信息化實際發展差距不大的區域進行分析挖掘。以省會城市的數據為例采集數據,同時將其按照主城區和周邊城區兩個部分進行拆分,對兩個部分的數據采用相同的數據挖掘算法進行分析,挖掘不同區域的信息,同時可以結合數據挖掘的結果進行對比分析。

本研究將選用圖書館代碼、圖書館所屬城市、圖書分類號、書名、作者、借閱人姓名、借閱人性別、借閱時間、歸還時間等19個維度進行挖掘分析,詳見表1數據挖掘字段。

圖書分類方法采用中圖法基本分類:A—馬克思主義、列寧主義、毛澤東思想、鄧小平理論;N—自然科學總論;B—哲學、宗教;O—數理科學和化學;C—社會科學總論;P—天文學、地球科學;D—政治、法律;Q—生物科學;E—軍事;R—醫藥、衛生;F—經濟;S—農業科學;G—文化、科學、教育、體育;T—工業技術;H—語言、文字;U—交通運輸;I—文學;V—航空、航天;J—藝術;X—環境科學、安全科學;K—歷史、地理;Z—綜合性圖書。

3 數據挖掘分析

數據挖掘主要包括兩個方面,一是挖掘結構,一個是挖掘算法。需要從挖掘結構中獲得相應數據,然后再使用算法進行分析。數據挖掘的算法很多,如決策樹算法、聚類分析算法、關聯算法、時序算法和線性回歸算法等,大多數算法都能達到幾種不同的功能,在實際運用中,根據不同需要,采用不同的數據挖掘方法,比如人工神經網絡、關聯分析、遺傳算法、聚類分析等。本文主要采用聚類分析和關聯分析兩種方法,針對以上選取數據進行分析。

聚類分析聚類分析(Clustering Analysis)是一組將研究對象分為相對同質的群組的統計分析技術,按照它們的屬性上的親疏遠近進行分類,也可以說聚類分析是將物理或抽象對象的集合分組成為由類似的對象組成的多個類別的分析過程。

聚類分析在圖書館文獻研究中,通常選用年齡、學歷、收入等量化指標進行聚類情況,本文將從圖書類別、性別和借閱時間(月)三個維度進行聚類,嘗試發掘新的知識點。

主城區聚類分析根據主城區數據中性別、借閱時間和圖書類別進行聚類,自動分成了10類,從聚類結果的分類剖面圖可以看到各個變量的整體情況,比如從性別來看,中小學圖書館的借閱情況中,幾乎男女借閱比例是五五比例,全年來看,借書月份按照從多到少排列,依次是12、11、10、3這幾個月,12月是借書最多的月份。借書類別按照從多到少,依次是I、J、H、G類,其中最大的則為I類——文學類圖書,但是分別看各類的情況,則差異較大,具體如圖1所示。

表1 數據挖掘字段

圖1 主城區聚類分析分類剖面圖

分類1:借閱人性別幾乎都為男生,主要集中在10月和12月借書,借閱I類圖書最多。

分類2:借閱人性別都是女生,主要集中在11月份借書,借閱書籍I類最多。

分類3:借閱人性別均為女生,主要集中在12月份借書,借閱類型I類最多。

分類4:借閱人性別幾乎都為男生,借閱時間幾乎都是11月,借閱類型I類最多。

分類5:借閱人性別均為女生,借閱時間主要都為10月,借閱類型I類最多。

分類6:借閱人性別幾乎都為男生,但是沒有在最集中借閱的3、10、11、12幾個月中借閱,借閱類別最多的I類。

分類7:借閱人性別幾乎都為男生,但是沒有在最集中借閱的3、10、11、12幾個月中借閱,借閱類別最多的I類。

分類8:借閱人性別上女生稍微多一些,但是沒有在最集中借閱的3、10、11、12幾個月中借閱,借閱類別最多的I類。

分類9:借閱人90%為男生,主要集中在3月進行借書,借書類型主要為I類。

分類10:借閱人性別基本為女生,都集中在3月份借書,其I類圖書借閱比例也是最高的。

非主城區聚類分析對非主城區進行聚類,根據性別、借閱時間和圖書類別聚類結果,也自動聚類成為了10類。從聚類結果的分類剖面圖我們可以看到各個變量的整體情況,比如從性別來看,中小學圖書館的借閱情況中,幾乎男女借閱比例是均衡的,全年來看,借書月份按照從多到少排列,依次是12、6、11、10幾個月,12月是借書最多的月份。借書類別按照從多到少,依次是I、P、H、G類,其中最大的則為I類——文學類圖書,但是分別看到各類的情況,則差異較大,具體如圖2所示。

圖2 非主城區聚類分析分類剖面圖

分類1:借閱人性別都為女生,主要集中在12月借書,借閱I類圖書最多。

分類2:借閱人性別都是男生,主要集中在12月份借書,借閱書籍I類最多。

分類3:借閱人性別均為女生,主要集中在11月份借書,借閱類型I類最多。

分類4:借閱人性別都為男生,借閱時間以10月為主,借閱類型I類最多。

分類5:借閱人性別都為女生,但是沒有在最集中借閱的6、10、11、12幾個月中借閱,借閱類別最多的I類。

分類6:借閱人性別都是女生,主要集中在10月份借書,借閱書籍I類最多。

分類7:借閱人性別均為男生,但是沒有在最集中借閱的6、10、11、12幾個月中借閱,借閱類別最多的I類。

分類8:借閱人性別都為男生,大部分借閱時間以11月為主,借閱類型I類最多。

分類9:借閱人性別都是女生,主要集中在6月份借書,借閱書籍P類最多。

分類10:借閱人性別都為男生,大部分借閱時間以6月為主,借閱類型P類最多。

聚類結果分析總體上看,主城區借書的男女總體比例基本均衡,借書的時間集中月份分別是12、11、10、3幾個月,12月是借書最多的月份。借書類別主要集中在I、J、H、G類,其中最大的則為I類——文學類圖書。非主城區男女借書比例基本均衡,借閱時間和圖書種類兩個維度不同,如表2所示。

表2 主城區和非主城區聚類分析結果總體對照表

針對他們從總體上展現出來的不一樣,尤其是讀書的時間,雖然大體上都集中在12、11、10三個月,但是主城區3月借書的集中度排在第四,非主城區10月借書的集中度排在第二。

結合實際抽查訪問,學生集中年末借書,跟氣候、新的學期都很大關系,而3月和6月這兩個數字,分別說明兩個問題,主城區3月讀書,是因為新學期開學和春天氣候適合閱讀,而非主城區6月借閱很多,卻主要是因為暑假時間長,放假前學生假期閱讀計劃較多。

從兩個結果來看,大致可以推斷寒暑假對于主城區學生讀書影響不大,但是這個也體現了另外一個問題,寒暑假期間圖書館不對學生開放非常影響學生閱讀,也許寒暑假圖書館能夠繼續開放,我們能夠得到完全不一樣的結果。

我們再來看看借閱圖書的類別情況,其實也很有意思。雖然都是一個城市,但是主城區和非主城區竟然在借閱種類集中度排名第二的類別上發生了不一樣,主城區主要借閱類別集中度排名第二是J文藝,而非主城區借閱類別集中度排名第二是P天文、地球、科學。其他都一樣,第一名是I文學類,第三名是H語言文學類,第四名是文化科學、教育、體育類。

主城區中小學生對于藝術的愛好相對較高,可能跟城市氛圍有關,相對主城區的經濟會較好,受到城市的藝術熏陶較多,畢竟通常主城區的藝術展會多于非主城區,而非主城區的孩子卻對天文、地球、科學產生濃厚興趣,也許跟他們相對主城區孩子,離自然更近的原因。

圖3 頻繁項集的樣例圖

圖4 主城區關聯規則圖(1)

關聯規則關聯規則主要是挖掘尋找給定數據集中,項之間的關聯或相關度,揭示某種數據項間的未知依賴關系,運用關聯規則可以從一個對象推斷另一個對象。比如之前提到的尿布和啤酒的故事,超市通過這個算法發現買尿布的也會買啤酒,這種情況不是事先能夠想到然后進行驗證,產生關聯規則的方法是找出數據庫中的頻繁項集,然后由頻繁項集產生關聯規則,為了判斷關聯規則的有效性。這種情況不是事先能夠想到然后進行驗證,產生關聯規則的方法是找出數據庫中的頻繁項集,然后由頻繁項集產生關聯規則,為了判斷關聯規則的有效性,通常采用三個指標進行評價,分別是支持度(Support)、可信度(Confidence)和提升度(Lift)。其三個指標的含義分別是,支持度(Support)指的是對象包含的產品同時出現的概念;可信度(Confidence)指的是一個產品出現的同時,另一個產品出現的幾率;提升度(Lift)是兩種可能性的比較,也就是已知一個產品出現的同時,另外一種產品也出現的可能性,與任意情況下,這兩個產品出現的可能性的概率比值或者差值。

圖5 主城區關聯規則圖(2)

圖6 非主城區關聯規則項集圖

本研究將從以上三個指標挖掘主城區和非主城區圖書類別借閱之間的關聯關系。

主城區關聯分析基于關聯規則挖掘模型對主城區的數據分析處理,可以獲得復雜的項集及其依賴關系網絡,如圖3所示。

圖3是頻繁項集的樣例圖,顯示了關聯規則算法所挖掘出來的頻繁項集,即是哪些類別的書出現的情況頻繁支持度??梢钥吹?,J、G、I類的支持度最大,為3862。根據其支持度從大到小排名,組合前十的為JGI、HGI、HJI、ZGI、KGI、ZJI、KJI、BGI、ZHZ、KHZ。

對于主城區的關聯規則圖,圖4是按照重要性從重到輕進行了排序的,“重要性”指的是其后顯示的預測規則可能的重要性。而圖5是按照“概率”由大到小進行了排序的,“概率”就是指一個規則為真實的可能性。綜合來看,主城區圖書借閱不存在明顯的關聯規則。

非主城區關聯分析基于關聯規則挖掘模型對主城區的數據分析處理,可以獲得復雜的項集及其依賴關系網絡,如圖6所示。

這幅圖是頻繁項集的樣例圖,顯示了關聯規則算法所挖掘出來的頻繁項集,即是非主城區哪些類別的書出現的情況頻繁支持度??梢钥吹絀類一直獨秀,支持度最大,為10274。

圖7 非主城區關聯規則圖(1)

圖8 非主城區關聯規則圖(2)

從非主城區常關聯規則中置信度展示圖分析,就是圖7中的重要性指標,按照從大到小的順序進行排序,可以清楚地看到每一種置信度的大?。▓D8)。從數據來看,借閱I類和H類后再去借閱F類圖書的置信度是最大的。

關聯結果分析關聯規則分析需要結合多個指標,對產生的關聯規則進行實際分析。我們在概念發生為100%里面重要性最高的規則進行實際分析。

主城區的關聯結果顯示借了Z綜合類圖書和F經濟類圖書的最容易再借G文化科學、教育、體育類圖書;非主城區結果顯示借了I類文學和H類語言文學類最可能借閱P天文、地球、科學類圖書。

從這兩個結果來看,非主城區的結果容易與聚類分析結果相聯系,因為在非主城區在聚類分析時也顯示出一個特點就是:中小學生閱讀傾向明顯在I、H、P這三類,再結合產生的這個關聯規則,說明非主城區中小學的圖書借閱類型比較固定,我們可以更加廣泛的增加他們的興趣愛好度。

再看看主城區的結果,Z類綜合圖書和F類經濟圖書都不在聚類分析的最受歡迎的幾種類型圖書里面,雖然G類文化、教育、體育圖書進入了閱讀類型集中度前四,但是也排在第四名,由此可以粗略的得出一個結論,主城區中小學學生圖書類別借閱關聯并不明顯。再次回到主城區關聯規則分析圖進行分析,從重要性的從大到小到概率的從大到小,均沒有出現像非主城區那樣與聚類分析的類別集中度重合的類別出現。因此,大概可以得出一個結論,主城區中小學學生借閱圖書相對沒有太大的關聯性,個人閱讀集中度不高。

4 結論

數據挖掘技術在國際國內發展都非常迅速,目前在我們國家教育信息化方面的實際應用仍處于起步階段,本文首次采用這樣的方法分析基于一個省級圖書平臺的真實數據,分析維度不夠全面,望能起到拋磚引玉的作用。相信在數據挖掘應用越來越廣泛的背景之下,對我國圖書教育資源的有效配置和管理,提高學生綜合素質,減少工作人員工作強度,加強教育相關部門的管理控制都有重大意義。

[1]陳國青,衛強,商務智能原理與方法[M].北京:電子工業出版社,2009.9.

[2]Mark Levene, George Loizou. Why is the Snowfl ake Schema a good Data Warehouse Design[J].Information System,2003(3):225-240.

[3]徐瀾.數據倉庫和數據挖掘在成人高校決策中的應用[D].上海交通大學碩士論文,2007:5-6.

[4]王清明.SQL Server 2005數據倉庫與Analysis Services [M].北京:清華大學出版社,2008.

[2]郭麗.SQL Server 2005構建數據挖掘解決方案[J].計算機與現代化,2007(5):1.

G258.69

B

1671-489X(2016)13-0076-07

作者:龍懿、田馨、代倩,四川省教育廳技術物資裝備管理指導中心(610213)。

猜你喜歡
主城區借書類別
新時期單元控規動態維護探索實踐——以龍巖主城區為例
圖圖借書
借書去
借書
圖圖借書
西安主城區砂層工程地質特征分析
主城區重要道路圍擋施工交通組織研究
邯鄲市主城區及周邊地區降水量
服務類別
論類別股東會
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合