?

大數據帶給圖書館的影響與挑戰

2012-04-29 07:08韓翠峰
圖書與情報 2012年5期
關鍵詞:圖書館服務數據處理數據挖掘

摘 要:大數據是近兩年IT界最為流行的關鍵詞,但對大數據的內涵與認識各大IT廠商、研究機構與科學家都有著不同的見解。在大數據時代,圖書館將在數據存儲、數據挖掘、數據分析等方面面臨著巨大的挑戰與考驗,復雜數據的處理也將成為大數據時代圖書館發展的主旋律,通過大量的非結構化數據、半結構化數據去尋找隱藏在數據背后的世界,進而為圖書館服務的模式、未來發展趨勢提供分析與預測將成為大數據時代圖書館的一大主要服務內容。

關鍵詞:大數據 非結構化數據 半結構化數據 數據處理 圖書館服務 數據挖掘

中圖分類號: G250.76文獻標識碼: A 文章編號: 1003-6938(2012)05-0037-04

“大數據”(Big data)是繼Web2.0和云計算之后近兩年媒體最關注的一個詞,并正在引起了信息科技領域越來越多的關注與投身熱潮,美國政府于今年3月29日撥款2億美元推出的“大數據的研究和發展計劃”[1]更是將大數據提升到了全球性戰略發展的高度。其實,IBM、EMC、甲骨文、Microsoft等IT巨頭幾乎都已投入到了大數據的軟硬件技術整合、大數據信息處理的技術供應研究開發之中,力求在新一輪的信息競爭環境中占據主動,并搶得戰略先機與技術制高點。這些迅速發展的業界變化,也吸引了學者的關注,且因現有數據中心技術無法滿足大數據需求而可能引發的IT架構重構等發展態勢使得大數據有演化成為一個新型學科的趨勢。中國工程院院士、中科院計算技術研究所首席科學家李國杰就指出大數據將成為信息科技的新關注點,并形成新型交叉學科:網絡數據科學[2]。同時,當前知識社會中的知識信息服務中心——圖書館因信息技術的在圖書館組織建設中的知識服務、知識創造、知識組織及知識存儲等方面有著廣泛的應用,使得社會對圖書館的知識服務要求更為苛刻,潛在的知識挖掘、知識評價、數據分析等增值服務需求已經開始顯現或已經訴諸表達于讀者的日常行為之中。利用大數據技術去挖掘、識別、組織與分析隱含在讀者行為中的結構化、半結構化數據信息,尋找他們的隱性訴求進而改進圖書館的服務,達到圖書館資源、服務與讀者需求的雙向理想控制已成為大數據時代圖書館提高服務體系的組織水平、推動行業發展與制度建設的捷徑之一。本文在對大數據概述與內涵認識的基礎上,重點對大數據帶給圖書館的影響與挑戰進行了分析。

1 認識大數據

1.1 大數據概述

2011年5月,全球知名咨詢公司麥肯錫(Mckinsey and Company)發布了《大數據:創新、競爭和生產力的下一個前沿領域》[3]報告,首次提出了“大數據”的概念,并在報告中指出“數據已經滲透到每一個行業和業務職能領域,逐漸成為重要的生產因素;而人們對于海量數據的運用將預示著新一波生產率增長和消費者盈余浪潮的到來”。之后,《紐約時報》[4]、《華爾街日報》[5]等對大數據進行了專欄封面介紹,但是隨著大數據在發展的初期不被業界普遍了解與易從“Big data”字面引申的概念臆想,使得對于大數據的概念、內涵等存在著多種的定義與理解。如從字面理解,大數據易于被認為就是海量的數據。IT廠商、研究機構、維基百科和數據科學家等提出的概念并不一致,截至目前并未形成統一的定義。但通過分析不同概念發現,各個定義盡管在具體的表達中對大數據的范圍、內涵等描述不一,但存在一個共識,即:大數據不是對數據量大小的定量描述,而是一種在種類繁多、數量龐大的多樣數據中進行的快速信息獲取。

1.2 大數據的內涵與認識

盡管大數據在提出以后吸引了業界的大量眼球,對其的研究也蜂擁而上,但在查閱信息的同時也發現目前大家對大數據還并未做到真正的了解,對其的內涵與理解存在偏差?;谶@種現狀,筆者認為有必要對如下業界還未明確的問題進行列舉與分析。

首先,大數據是結構化數據、半結構化數據與非結構化數據的總和。據DCCI互聯網數據中心在2012年7月26日舉辦的“Adworld2012互動營銷世界”上給出的數據[6]顯示:2010年,全球數據量已達1.2ZB(1ZB=1024EB,1EB相當于10億GB),到2020年將暴增30倍達35ZB; 2011年,全球被創建和復制數據總量為1.8ZB;2013年,我們生成這樣規模的信息量只需10分鐘……。而在如此龐大的數據中,只有10%的數據是存儲在數據庫中的結構化數據,其余的則是由郵件、視頻、微博、帖子、頁面點擊等產生的大量的半結構化數據 非結構化數據[7]。而在我們的日常生活中,智能設備、物聯網、社交網站等產生的半結構化數據、非機構化數據量更是遠遠大于在學習、工作中產生的結構化數據。如何處理這些占據了主要份額的半結構化數據與非結構化數據也因此成為大數據的主要業務與內容,進而給數據分析與挖掘產業帶來了更多的機會。也正是存在著這樣的巨大市場驅動力,催生了大量的以信息抽取、轉換和加載(ETL)及挖掘分析、數據營銷為主要業務的新型企業。

其次,大數據的“大”意義具有多樣性。IBM認為大數據具有“3V”特點[8],即種類(Variety)多、速度(Velocity)快、容量(Volume)大。但以IDC為代表的業界認為滿足“4V”(Variety、Velocity、Volume、value,即種類多、流量大、容量大、價值高)指標的數據才可稱為大數據[9]。但無論是“3V”還是“4V”,其本質都是對大數據中的“大”的理解與闡釋。NetApp也很好的解釋了大數據的“大”的含義,認為大數據應包括A、B、C三大要素:即分析(Analytic)、帶寬(Bandwidth)和內容(Content)[10]。具體來說就是:大分析(Big Analytics)指通過對巨大的數據集進行實時分析后能帶來新的業務模式,并進行客戶服務,能實現更好結果,以至幫助用戶獲得洞見;高帶寬(Big Bandwidth)指能高速的處理關鍵數據,以支持快速有效地消化和處理大型數據集,幫助用戶走得更快;大內容(Big Content)一方面指大數據既指結構化數據,也指半結構化數據與非機構化數據,另一方面則是指對數據的存儲擴展要求極高,并要求能輕松實現數據的恢復、備份、復制與安全管理,以去支持可管理的信息內容存儲庫而不只是存放過久的數據,并且能夠跨越不同的大陸板塊而不丟失任何信息[11]。

再次,大數據的“數據”不是數據存儲,而是數據獲取與數據應用。隨著信息時代的發展,人們創造和生產的信息數據越來越多,云計算的出現也是使得信息數據的存儲、計算并不成為信息數據存儲的障礙,但大數據的數據不是存儲在云端等存儲媒介的數據,因為存儲的數據并不具備價值,而大數據的數據是進行高速獲取和應用的數據,如對商業客戶行為習慣的分析、市場發展趨勢的預測等。而正是嶄新的大數據時代對大數據的大量分析與應用使得該領域缺乏足夠的人力支持,據麥肯錫全球研究所去年的調查報告顯示,目前美國需要14萬到19萬名以上具備“深度分析”專長的研究人員,而對具備數據知識的經理的需求超過了150萬[12]。

2 大數據帶給圖書館的影響與挑戰

大數據時代的到來改變了傳統的IT架構與數據存儲、利用機構,也將對作為社會中儲存信息知識、提供信息服務的信息中心的圖書館形成沖擊與挑戰。因此,深刻理解大數據的內涵,聯系圖書館的發展及其現階段數據儲存、分析、挖掘的發展狀況及大數據時代圖書館用戶對信息資源的利用需求,對大數據帶給信息服務業的影響與挑戰進行大膽的假設分析與小心論證將顯得非常必要。這種分析與論證也將使得圖書館在大數據時代真正來臨時將有充足的應對準備與發展對策。

2.1 復雜數據的處理將成為大數據時代圖書館的發展旋律

社會信息化進程的加快,使得信息的重要性日益顯現,信息、能源與材料也被譽為是現代社會發展的三大支柱之一。提高民眾的信息獲取能力、保障信息獲取公平、優化信息獲取環境、推動信息社會的發展也因此成為了一個國家、地區政府的主要職責之一,1993年美國政府宣布實施的“國家信息基礎設施”計劃[13](National Information Infrastructure,也稱“信息高速公路”計劃)就是美國政府在互聯網時代來臨之前發動的一場信息革命,盡管其旨在于如美國副總統戈爾所說的完成美國從工業時代向信息時代的過渡,開發更大的潛在市場,但計劃對于民眾信息素養的提高與信息社會的發展推動作用均毋庸置疑。我國近年來發布的一系列信息政策、法規、技術標準、規范以及《國家信息化“九五”規劃和2010年遠景目標(綱要)》等也均是我國推進國民經濟信息化的保障建設。在政府主導、社會重視的氛圍中,圖書館也發揮了該有的作用,門戶網站、特色數據庫、數字圖書館建設也是風起云涌,截至目前,我國的圖書館均基本實現了信息化建設[14],但具體分析不管是國內外的國家計劃還是圖書館的信息化發展,其所包括的信息數據建設都還主要是數據庫、XML等同類型、不能再細分的單一數據,即都是結構化數據。但隨著大數據時代相關業界對大數據的重視及應用,大數據的特性與優勢將在日常的生活中將凸顯出其巨大的優越性,民眾的需求也將隨著這些人性化、個性化的高滿意度服務出現而對圖書館的服務呈現出明確和迫切的需求,適應社會的發展,滿足用戶的需求,提供復雜數據的處理也將成為大數據時代圖書館的發展旋律。

2.2 迅猛增長的復雜海量數據將為圖書館的數據存貯能力提出挑戰

信息環境下,信息產生的成本快速下降,產生的方式也多種多樣,存在于社會空間中的信息數據量迅猛增長,但大數據時代更是會促使數據產生的范圍、方式、途徑發生翻天覆地的變化,人們的一舉一動、一言一行、行為規律等都將產生出大量的半結構化、非結構化信息數據,信息數據的組成結構、類型格式、存在形態等都愈加復雜。圖書館對這些復雜的數據進行的應用、存儲將有著極強的挑戰性,其不僅有技術問題,也還包括社會問題,當然在解決這些挑戰、問題的過程中,可能會促發圖書館服務模式、資源建設模式、管理模式與發展模式的轉變,但要順利的完成以上模式的轉變與完成,兩大難題則須予以解決:首先,云計算的出現使得海量數據的存儲與運算得到了解決,但其自身存在的安全等問題依然不能讓用戶完全放心和信任[15],而圖書館自身海量數據的存儲及運算能力與大數據對存儲能力的高要求之間的矛盾如何去解決將直接決定著圖書館在大數據時代能擁有什么質量、多少數量的負責數據;其次,數據即業務,大數據對于圖書館的數據存儲范圍有著極高的要求。早在2007年,沃爾瑪就通過對消費者的購物行為等非結構化數據進行分析,創造了“啤酒與尿布”的經典商業案例[16]。但這樣的經典案例是通過對海量的多類型數據進行分析而得到的,因此圖書館要在大數據時代掌握讀者用戶、館員乃至社會服務群體等的信息,則對其的數據描述中應既要有當前通用的數據記錄中的個人身份、借閱記錄等結構化數據外,還更需要大量的存儲信息行為、搜索方式、行為痕跡等半結構化、非結構化數據。

2.3 傳統的信息服務將面臨以復雜數據為對象、以深度挖掘為要求高標準挑戰

圖書館信息化程度的提高,使得信息服務成為了當前圖書館服務的主要內容之一,知識社會的到來也使得以互聯網信息搜索、查詢為基礎的知識信息服務逐漸被更多的圖書館所吸納與實踐,也成為了現代圖書館服務體系中不可或缺的一大版圖。但不管是簡單的信息服務還是結合了信息檢索、組織、分析等高級業務素養去完成的知識服務,都只是可歸納為是就數據而進行的服務,盡管也有了Web2.0等互動技術的推動后圖書館服務的個性化、人性化服務有了顯著提高,但交互性程度并不高,個性化、人性化服務也只是簡單的以用戶的結構化數據,如根據服務訴求、專業特長等數據,去完成一定程度上的差異化服務。但大數據則要求圖書館不僅需要通過結構化數據了解現在客戶需要什么服務,也更需要利用大量的非結構化數據、半結構化數據對圖書館—用戶的服務關系中去挖掘正在發生什么、預測和分析將來會發生什么,以便圖書館找到更好的服務營銷模式與應對未知的危機及挑戰。

4 結語

大數據的出現,將改變我們對數據的看法與認識,數據的存在不僅有價值,大數據更是將其能轉化為有意義,人們將透過大數據而找到隱藏在大量數據背后的世界,然而大數據的應用是技術難度極高的集成應用,如需要集成人工智能、商業智能、數學算法、自然語言理解、信息技術等多個跨學科領域的技術成果。圖書館作為社會信息服務的中心,在面臨這些較高的技術和管理風險的同時,還面臨著內外部環境的挑戰與競爭,對內方面,除上述存在的主要挑戰之外,基礎設施、人力資源、運行經費、管理體制都會是不得不面對的挑戰因素;對外方面,IT廠商與信息服務機構的大數據研究、應用已捷足先登,圖書館在大數據的服務競爭中已落后于他們一步,盡管圖書館有資源的優勢,但圖書館在技術等方面的劣勢也將限制圖書館難以追趕上,如何避免邊緣化,將是圖書館不得不考慮的一大問題。

參考文獻:

[1]Big Data is a Big Deal.http://www.whitehouse.gov/blog/2012/03/29/big-data-big-deal.

[2]李國杰院士:大數據成為信息科技新關注點[EB/OL].[2012-06-02].http://www.cas.cn/xw/zjsd/201206/t20120

627_3605350.shtml.

[3]Big data: The next frontier for innovation, competition, and productivity. http://www.mckinsey.com/Insights/MGI/Research/Technology_and_Innovation/Big_data_The_next

_frontier_for_innovation.

[4]The New York Times. The Age of Big Data[EB/OL].[2012-05-23].http://www.nytimes.com/2012/02/12/sunday-review/big-datas-impact-in-the-world.html?pagewanted=all.

[5]The Wall Street Journal. Big-Data Success Stories: Splunk[EB/OL].[2012-07-19]. http://blogs.wsj.com/ven

turecapital/2011/10/21/big -data-success-stories-splunk/.

[6]Adworld2012互動營銷世界[EB/OL].[2012-09-10].

http://www.adworld.org.cn/index2012.html.

[7]海量數據爆發 大數據時代來臨的五個轉變[EB/OL].[2012-08-01]. http://labs.chinamobile.com/news/76217.

[8]MapR and Informatica Combine to Conquer Volume, Variety and Velocity of Big Data[EB/OL].[2012-07-21].

http://www.dbta.com/Articles/Editorial/News-Flashes/-MapR-and-Informatica-Join-Forces-to-Tackle-Volume-Variety-and-Velocity-of-Big-Data-81231.aspx.

[9]IBM公司在大數據領域占有先機[EB/OL].[2012-08-01]. http://it.hilizi.com/server/275232/372589013274b.shtml.

[10]NetApp .Big Data Solutions for Government[EB/OL].[2012-08-01]. http://www.netapp.com/us/solutions/industry/government/bigdata.html

[11]涂蘭敬.專家觀點:“大數據”與“海量數據”的區別[J].網絡與信息,2011,(12):37-38.

[12]數據分析人才短缺問題成當前CIO必須面對的[EB/OL].[2012-08-01].http://cio.ctocio.com.cn/316/12322

816.shtml.

[13]United States Patent Trademark Office.Intellectual Property and the National Information InfrastructureThe Report of the Working Group on Intellectual Property Rights [EB/OL].[2012-08-01]. http://www.uspto.gov/web/offices/com/doc/ipnii/.

[14]郭向東,陳軍. 甘肅省市縣圖書館信息化現狀調研與分析 [J].圖書與情報,2010,(3):83-87.

[15]黎春蘭,鄧仲華.信息資源視角下云計算面臨的挑戰[J].圖書與情報,2011,(3):23-28.

[16]高勇.啤酒與尿布:神奇的購物籃分析[M].北京:清華大學出版社,2008.

作者簡介:韓翠峰(1978-),女,蘭州商學院圖書館館員。

猜你喜歡
圖書館服務數據處理數據挖掘
認知診斷缺失數據處理方法的比較:零替換、多重插補與極大似然估計法*
ILWT-EEMD數據處理的ELM滾動軸承故障診斷
探討人工智能與數據挖掘發展趨勢
基于并行計算的大數據挖掘在電網中的應用
“國際視野中的大學圖書館發展研究高端論壇”綜述
淺談工匠精神在高校圖書館服務中的傳承
淺談閱讀推廣活動的探索與實踐
一種基于Hadoop的大數據挖掘云服務及應用
基于希爾伯特- 黃變換的去噪法在外測數據處理中的應用
基于GPGPU的離散數據挖掘研究
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合