?

SPSS在高職院校圖書館中挖掘設計與實現

2011-10-29 09:28
天津商務職業學院學報 2011年3期
關鍵詞:館藏數據挖掘數據庫

李 慧

天津廣播電視大學圖書館,天津 300191

目前,數據挖掘和知識發現已成為計算機科學和應用技術科學的一個研究焦點。在科技發展和知識爆炸的大環境下,圖書館業務工作產生海量業務數據,但讀者對文獻資源的需求日益增長,這二者之間存在明顯的矛盾,數據挖掘技術的出現在很大程度解決了這個矛盾,同時開啟了數據挖掘技術應用于圖書館事業發展的源頭。本文主要是為了解決高職院校圖書館開展知識服務工作中遇到的問題,確定圍繞高職院校圖書館知識服務主要針對館藏資源利用率情況進行數據挖掘設計與實現的論述。

一、高職院校圖書館現狀與特點

高職院校圖書館于近年來伴隨高職院校的產生而出現,它的建設情況、發展歷史、服務對象等方面與高等普通院校圖書館存在許多差異。高職院校圖書館的建立與發展是緊隨高等職業技術教育,它存在成立年限較短、資源建設基礎較弱、人員隊伍建設較弱等特點。目前高職院校圖書館整體情況特點是:

1.高職院校圖書館的建設與高職院校教學發展不協調。從高職院校發展的全面情況而言,高職院校圖書館的建設與高職院校教學發展不協調。高職院校圖書館的歷史沿革比較復雜,這是因為高職院校圖書館的建立大多數是伴隨高職院校升格應運而生,其中大部分高職院校是由原先的中專類院校合并而形成的,因此高職院校的圖書館一般是伴隨高職院校的成立而建成的,或是由原先中專學校的圖書室傳承下來的。雖然高職院校圖書館被列入高校圖書館系列,但它的辦館理念、館內人員素質水平、館藏體系結構、館舍條件、資源建設情況等都難以適應目前高職院校人才培養模式與科研教學這兩大重點工作的要求。

2.高職院校圖書館建設規模有限,辦館水平不高。高職圖書館的發展與其他高等院校類圖書館的發展面臨同樣的問題,即圖書館的受重視程度不夠,甚至比普通高等院校圖書館的境地更為艱難。主要是由于高職院校的整體教育經費投入遠低于普通高等院校,師資力量薄弱,因此高職院校圖書館的發展可被稱為舉步維艱。這是由于一方面受傳統普通高等教育觀念的影響,普通的高等院校是培養高級知識研究型人才的教育模式。而高職院校一般是由學術研究水平較低能力較低的中專合并升格成為高職院校,所以從人力、物力、財力等方面的投入較少。另一方面,高職院校圖書館建館時間短、底子薄、圖書情報專業人員建制薄弱,文獻資源館藏數量不可能在學院升格的短時間內顯著增長。但是長期以來受傳統觀念的影響,衡量館藏水平的要素之一則為館藏量,許多高職院校館為了完成前些年的教育部對高職院校的教學檢查工作,在短時間內迅速采購圖書以增加館藏量、提高生均量(學生每人擁有圖書數量),而忽視了館藏圖書的質量與副本量。經過幾年的“拔苗式”的館藏資源建設嚴重地影響了館藏質量與圖書館整體水平的健康發展。

3.高職院校圖書館的整體水平良莠不齊。高職院校圖書館目前缺乏對高職教育特點的足夠重視與充分認識,到目前為止,高職圖書館仍未形成以高職教育特點為基礎的辦館機制。高職館的工作目前仍處于滿足最基本的學生讀者需求階段,缺乏開拓性、創新性、知識化、智能化的資源建設與服務建設性工作,從而導致其規模雖在穩步向前發展,整體水平與高職教育的快速發展不協調。這些問題不及時糾正,勢必對圖書館的長遠發展產生極為不利的影響。

4.圖書館經費支持不到位。依據《普通高等學校圖書館規程(修訂)》2002年頒發的規定,高等學校圖書館的經費包括運行費和專項經費。運行費主要包括文獻信息資源購置費、設備設施維護費、辦公費等。文獻資源購置費應占全校教育事業費的5%左右,并應從科研經費和計劃外收入中提取適當比例作為文獻購置費用。再根據全國高校圖工委制定的《高校圖書館評估標準》規定,每年采購新書應為6冊/學生,每年訂閱期刊應為0.4份/學生。然而目前大多數高職館在經費支持方面與文件要求相距甚遠,并且很多高職院校沒有設立年度圖書館經費計劃,在遇到前些年的評估工作時學校就給予部分投入,但評估工作結束后,圖書館的經費一般則又被挪作它用了。圖書館的發展一方面依靠圖書館專業人員的專業建設與管理,另一方面也更為重要的就是資金方面的大力支持,否則圖書館必將陷入“巧婦不為無米之炊”的尷尬境地。

5.高職類院校圖書館的服務對象、服務內容、服務方式都不同于普通高校圖書館,具有特殊性和典型性,主要體現在以下幾個方面。

(1)在服務對象方面,主要面向高等職業技術學生、教師(面授高職學生、成人學生)、科研人員、行政管理人員、社會工作人士等。高職院校的教學對象主要是理論基礎較薄弱的高中畢業生或中專畢業生,高職院校教學重點是培養學生實踐技能;高職院校教職工人員主要存在學歷層次良莠不齊、學科研究范圍較狹窄、理論研究層次不深和專業科學研究水平不高等特點。

(2)在服務內容方面,高職學生知識積累程度較普通高校大學生弱,興趣偏好與學業關注方向也存在差異,缺乏對專業學科的深入學習與研究的興趣;教師教學重點、科研研究方向主要偏重培養高職類學生的實踐技能研究與在職成人類學生的教學研究與探索。

(3)在服務方式方面,高職學生通常利用業余時間在網上學習與交流;教師一方面面授高職學生,另一方面還兼職教授成人教育、網絡教育的學員,因此高職院校對教師的要求比較偏重基礎知識理論與實踐技能的傳授,而不要求進行深層次的理論研究與科研課題研究。

基于以上高職院校圖書館與高等院校圖書館的差異性,為了實現優化圖書館資源建設、科學管理、知識服務的目的,本文以作者單位圖書館的業務數據庫數據為數據源設計挖掘圖書館藏利用率實驗,經過設計實驗后得出分析挖掘結果,將分析結論應用到研究高職院校圖書館開展知識服務工作的內容與方向上。

二、數據挖掘

1.數據挖掘概念。數據挖掘(Data Mining)就是從海量數據中提取或挖掘知識。然而,數據挖掘從誕生發展至今已有20年的歷史,可是到目前為止仍沒有一個獲得完全認同的定義。這是由于數據挖掘技術在不同領域具有不同的應用,各位學者和專家都分別從不同的角度進行不同定義。例如從統計學角度看,數據挖掘是指分析數據集,發現可信的數據間的未知關系,并提供給數據擁有者可理解的、新穎的和有用的歸納數據;從數據庫角度看,數據挖掘定義為從存儲在數據庫、數據倉庫或者其他信息庫中的大量數據中發現用戶感興趣的知識的過程;從機器學習的角度看,數據挖掘是指從數據中抽取未知的、隱含的、潛在的有價值信息的過程。從商業角度看,數據挖掘是一種新的商業信息處理技術,數據挖掘技術通過對搜集數據進行微觀、中觀、宏觀層面的統計、分析、預測,挖掘數據間的隱性聯系,最終形成知識,并將形成的挖掘知識結果指導商務業務工作??傊?,筆者認為,數據挖掘是從海洋的數據信息中通過一系列挖掘步驟形成滿足用戶需求的知識的過程。

2.數據挖掘CRISP-DM模型。1999年,DaimlerChrysler、SPSS、NCR為了建立數據挖掘方法和過程的標準,共同創建了數據挖掘的跨行業標準過程(Cross Industry Standard Process for Data Mining,CRISP-DM),如圖1所示。如何運用挖掘模型是數據挖掘中用戶最關心的問題。本文設計的挖掘實驗是遵循CRISP-DM標準。CRISP-DM模型過程的基本步驟包括:業務理解、數據理解、數據準備、模型建立、模型評價、模型實施。其中業務理解包括:確定任務項目目標、評估環境、確定數據挖掘目標、產生項目計劃;數據理解包括:收集原始數據、描述數據、探測數據;數據準備包括:數據選擇、數據清理、數據建構、數據整合、數據格式轉換;建立模型包括:選擇模型建模技術、產生測試設計、建立模型、評估模型;評價包括評價挖掘結果、回顧過程、確定下一步工作。模型的各個步驟之間的順序有的是必須遵循,而有的是往復循環挖掘出有價值知識的過程。

圖1 DRISP-DM標準挖掘流程圖

三、高職院校圖書館知識服務的數據挖掘設計與實現

本文進行的數據挖掘設計工作主要是利用業務數據庫產生的日常業務數據,經過數據挖掘分析,形成數據挖掘模型與結果,最后將挖掘結論應用到知識服務工作中。依據CRISP-DM模型過程設計數據挖掘過程步驟與內容是:

1.確定挖掘主題。為了實現提高圖書館的服務層次與服務質量,改變傳統的被動服務、信息服務,將圖書館未來的工作向深層次、主動化、人性化、智能化、知識化方向推進的圖書館知識服務工作的目標,設計圖書館館藏利用率的數據挖掘主題。

2.收集源數據。根據作者本單位實際業務數據,收集圖書館圖書管理系統2000—2010年SQL Server2003的Book數據庫和Reader數據庫的業務數據。數據挖掘實驗設計為不影響正常的工作將數據庫數據拷貝到實驗設計的機器上,再將備份數據附件到本地數據庫中,根據本地數據庫進行數據挖掘實驗設計。

3.數據清理與轉換。針對收集的數據表根據數據挖掘主題通過VB程序設計,合理有效的處理源數據,為數據挖掘設計工作做準備。

利用VB進行程序設計,設計實驗程序逐步進行數據的批量刪除與清理工作。兩個數據清理程序均通過點擊查詢條件的“查詢”按鈕,檢索將要刪除的數據記錄,再單擊“刪除”按鈕,最后確認將符合條件的數據全部刪除,記錄刪除后數據庫進行更新。數據清理主要針對圖書總庫數據和讀者庫數據進行清理。

利用VB語言設計執行程序,以實現條件查詢、刪除數據,并更新數據庫數據的目的。主要程序代碼:

清理數據執行結果如圖2所示。

圖2 reader數據庫中keys表清理數據

4.館藏資源利用率挖掘實驗。根據Reader數據庫中記錄的讀者借閱歷史信息,挖掘讀者借閱圖書即館藏利用率的情況。由于reader數據庫中的keys表和book圖書總庫中都沒有借閱歷史圖書的具體圖書題名、圖書分類、圖書主題詞等詳細信息,因此設計第四個實驗前,需要利用Transact—SQL語言在,SQL Server2003中進行程序設計,將兩個庫中的數據進行聯接生成新的數據表,即即讀者借閱歷史詳細信息表,導入SPSS進行量化統計。館藏資源利用率挖掘實驗流程如下圖3所示:

圖3 圖書館藏資源挖掘實驗流程

最后將新生成的讀者借閱歷史流通信息(temp_table)表導入SPSS,挖掘統計讀者利用資源情況,以多重散點圖的形式得出直觀性的結論,如圖4所示。

圖4 館藏利用率多重散點圖

5.館藏利用率挖掘結論。根據上面的圖書借閱歷史情況數據挖掘實驗設計,從挖掘結論可以明顯看出I247.57小說類圖書的借閱利用率最高,其次是TP391.41計算機類圖書,第三位的是H310.42英語學習類圖書。針對上一節論述的圖書資源分布特點,即集中在I文學、H語言、F經濟、TP計算機、D法律五大分類,這個資源分布的總體特點與讀者館藏利用率特征基本相符,因此我館的資源建設原則合理性得到客觀數據的驗證,另一方面說明讀者需求的偏頗較明顯的特點。

四、數據挖掘實驗結論

通過以上大量數據分析挖掘得出的相關結論,我們應該看到讀者利用資源的偏頗較嚴重,對于專業方面的知識學習與研究較少涉及。因此,圖書館未來的知識服務工作應該實現個性化、智能化、高效化的服務方式,服務方式由被動轉為主動,服務內容由表面深入到內部,即由信息咨詢服務轉向知識服務智能服務,服務范圍由校園內拓展為校園外的全球讀者。高職院校圖書館知識服務模式的建立則應該:一是,突出高職院校讀者需求的特點,提供靈活多樣的人性化、智能化、知識化的高層次服務;二是,提供多類型、多學科、重實踐的文獻信息資源、視頻資源、多媒體資源;三是,高等職業教育培養目標的特點,重點建設發展職業技能培養和職業素質提高的資源項目,為讀者提供個性化的知識服務。

[1]張英.高職院校圖書館文獻資源建設的現狀分析與對策[J].圖書館工作與研究,2004(3):30-32.

[2]徐詩豪.新時期高職院校圖書館的發展策略[J].圖書館論壇,2005(3):77-79.

[3]吳靜.高職院校圖書館文獻資源建設的現狀分析及對策[J].南京職業技術學院學報2009(9):30-32.

[4]元昌安,數據挖掘原理與 SPSS Clementine 應用寶典[M].北京:北京:電子工業出版社,2006:77-79.

猜你喜歡
館藏數據挖掘數據庫
館藏
探討人工智能與數據挖掘發展趨勢
博物館的生存之道:館藏能否變賣?
知還印館藏印選——古印篇
基于并行計算的大數據挖掘在電網中的應用
數據庫
數據庫
數據庫
數據庫
一種基于Hadoop的大數據挖掘云服務及應用
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合