?

試論大數據環境下信息檢索技術在數字圖書館中的應用

2017-06-15 09:56劉燕
新西部·中旬刊 2017年5期
關鍵詞:大數據環境數字圖書館

劉燕

【摘 要】 大數據環境下,信息檢索技術在圖書館信息檢索方面的重要性越來越大?;趦热莸男畔z索技術相比于傳統的信息檢索、全文檢索而言,具有效率高、精準度高的優點,但是在面對未來信息檢索更加精確化的要求時也顯得力不從心。大數據技術實現了用戶獨特化、定期更新性、自我學習性相結合,實現大數據和人工智能的完美結合,是未來信息檢索技術發展的方向。

【關鍵詞】 大數據環境;信息檢索技術;數字圖書館

數字圖書館的信息檢索技術,是圖書館發揮信息服務功能的核心部分,數字圖書館的易用性很大程度上取決于信息檢索系統設計是否科學、合理。據專家考證,18世紀以前,知識更新速度為80至90年翻一番,20世紀90年代以來,知識更新加速到3至5年翻一番。近50年來人類社會所創造的知識比過去3000年的總和還要多,知識總量呈幾何級數增長。這些信息都是以數據的形式分布于飛速發展的因特網,而因特網中的數字圖書館則是信息儲存的主要基地,這就使得如何在龐雜浩繁的信息資源中找到用戶想要的信息,最大限度地在科學性、合理性的前提下進行信息檢索服務,成為必須面對且急待解決的問題,即基于大數據環境下,數字圖書館信息檢索技術的研究問題。目前關于數字圖書館的研究和信息檢索研究都已經比較完備,但是針對如何在大數據環境下,滿足數字圖書館用戶的多樣需求的信息檢索技術的研究并不多,這也是現代數字圖書館發展急需解決的問題之一。

一、信息檢索技術的優缺點對比

目前,從對數字圖書館的信息檢索技術研究成果來看,主要有三個時間段:傳統的信息檢索、全文檢索、基于內容的信息檢索。這三種技術各有優劣。

1、傳統的信息檢索技術優缺點分析

信息檢索技術開始時基于對關鍵詞、概念知識的檢索,或者是僅僅針對一個個單字進行的檢索,主要按照關鍵字的方法進行匹配檢索。如果是針對單字、單詞進行檢索的話,能夠比較準確地完成檢索需求;如果是需要根據內容相關性進行檢索的話,檢索的結果誤差大、耗時長,基本上不能滿足用戶需求,而且檢索的適應度非常差。如果是針對一個只有幾百本書的圖書館來說,這種檢索技術還勉強可用,但是絕對不能適應現在動輒幾百萬本以上存儲量圖書館的檢索需求。

2、全文檢索技術優缺點分析

一般來說,按照自由詞進行檢索的一種檢索方式就是所謂的全文檢索。全文檢索技術檢索的側重點和傳統檢索技術的側重點不同,它檢索的主要內容不是對象的外在表征,而是對象表達的內在信息。所以說,全文檢索技術克服了傳統檢索技術精度差、適應度差的問題,使得用戶每次檢索的結果的匹配度都比較高,基本上能滿足用戶的需求。但是由于全文檢索技術內在查詢機制的缺陷,導致在查詢過程中會出現效率低下,查詢的數據量太大,造成資源利用不合理,因而也越來越不能被用戶所認可。

3、基于內容的信息檢索技術(簡稱 CBR)優缺點分析

CBR技術就是指綜合運用計算機模擬視覺技術、圖像分析處理技術、圖像智能理解技術、模式分析識別等學科中的一些方法作為部分基礎技術,從數據中提取特定的信息線索,然后根據這些線索從大量存儲在數據庫中的信息中進行查找,檢索出具有相識特征的內容。從本質來講,CBR技術只關心對用戶檢索信息的快速撲捉,并不會在分析用戶檢索信息的本身上下功夫。

也就是說,作為不以字和具體內容為關注點的檢索技術,CBR技術的檢索特點就是基于特征的信息檢索技術。它能夠在用戶需求指引下,針對需要檢索的數據目標進行分析處理,形成檢索目標特征,然后根據這些特征在數據庫中進行近似匹配。因而相對于前兩種方法來說,檢索的效率和精準度更高,更能滿足用戶的需求。但是,隨著人類知識基數的不斷增大,專業分工的細化,這種信息檢索技術在面對未來信息檢索更加精確化的要求時,顯得越來越力不從心。

二、大數據技術在數字圖書館信息檢索技術中的應用

對于“大數據”(Big data),研究機構Gartner給出了這樣的定義:大數據是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力來適應海量、高增長率和多樣化的信息資產。[1]

麥肯錫全球研究所給出的定義是:一種規模大到在獲取、存儲、管理、分析方面大大超出了傳統數據庫軟件工具能力范圍的數據集合,具有海量的數據規模、快速的數據流轉、多樣的數據類型和價值密度低四大特征。[2]

從本質上來講,大數據技術的目標不是建立占有人類的知識海,而是面向知識海洋的龐大數據信息進行有目的的處理、利用和管理。顯然,大數據技術必然是和網絡技術、云計算以及人工智能技術密切相連的集成技術。也就是說,它是一種依靠網絡技術、人工智能技術和云計算,利用網絡上眾多硬件進行信息的高效利用、處理和管理。大數據必然無法用單臺的計算機進行處理,必須采用分布式架構。它的特色在于對海量數據進行分布式數據挖掘。但它必須依托云計算的分布式處理、分布式數據庫和云存儲、虛擬化技術。[3]

隨著互聯網時代的到來,云計算、云存儲的不斷深入發展,人類的知識越來越被網絡連接在一起。那么,如何高效地發現和檢索出用戶需求的信息,快捷、精確地在知識海中捕獲被埋藏的數據,成為一個被關注的焦點。在這種需求之下,多種關于檢索技術的研究都在如火如荼地進行之中。隨著這些研究的深入進行,研究者們認識到,如果最終能夠實現大數據和人工智能技術的完美融合,這將使未來信息檢索技術更加智能化,也將使人類對于知識海洋的利用更加充分有效,對知識的管理更加智能化。建立于人工智能基礎上的大數據技術的研究,必然帶來其它各個學科的變革,從而有力地推動信息檢索技術的飛速發展。因而,大數據技術的應用是對數字圖書館信息檢索技術的革命性推動,它充分利用人工智能技術,使數字圖書館的信息檢索服務更加人性化,檢索方式更加智能化,結果更加精確化,查詢顆粒更加模糊化。

三、大數據技術對數字圖書館信息檢索的影響

為了滿足數字圖書館的用戶信息檢索的多樣需求,大數據技術必須也必然會促進信息檢索技術的變革,而且這種變革會帶來諸多更適應未來信息利用和管理的影響。

1、獨特用戶化

獨特用戶化指的是針對用戶的信息檢索歷史,為用戶建立獨特的檢索特征,從而匹配出檢索的數據庫。這種信息檢索的方法主要是立足于對用戶歷史檢索數據庫的收集和分析基礎上,采用智能化的分析手段,實時為用戶量身打造適合其某一階段需要的檢索信息庫,并能夠隨時更新,給用戶提供檢索建議,從而精準計算用戶的檢索需求。同時,這種檢索技術還需要具備較高的智能化,它能在和用戶的交互過程中,不斷地分析用戶需求的信息目標,并將所有可能的目標按照用戶可能關注度的高低實時反饋給用戶,供用戶取舍,在用戶的取舍中不斷修正和定位,及時高效地幫助用戶發現目標信息,最終實現獨特用戶化的信息檢索。

2、定期更新性

大數據環境下,數字圖書館的數字化信息數量大、種類多,數據價值聯系低,處理速度快、效率高,而且數據結構復雜,不僅有結構化的數據、半結構化的數據和非結構化數據,而且非結構化的數據所占的比例越來越大,使信息更新的速度越來越快。[4]因而,為了更好地滿足用戶的需求,適應圖書館非結構化數據的不斷增加,提高圖書館的信息檢索效率,必須相應地對信息檢索的引擎進行定期優化。

一般來說,定期優化主要指的是,信息檢索引擎的技術人員,定期根據信息檢索的檢索效率和檢索出的結果的精準程度進行評價,從而進行改進提高,使用戶始終能夠在每一次的檢索中得到自己期望的結果,滿足客戶需求。同時,由于非結構數據的比例不斷變大,使信息更新的數據飛速增加,如何對這些新增加的數據進行有效管理,是信息檢索效率高低的關鍵所在。因此,信息檢索引擎應該根據用戶不同的需求和特點,按照對客戶需求分析的結果,對全庫數據進行分類排隊,保證信息檢索引擎的檢索結果始終能滿足用戶需求。

3、自我學習性

圖書館的信息檢索服務的最終目標就是要準確定位用戶的需求,實時完成不同用戶的檢索方案,快速將匹配的結果按照精準程度的高低排序,讓用戶能夠根據自身需求,選擇獲取。要達到這一目的,數字圖書館的信息檢索引擎要具備自我學習的能力。這種自我學習能力主要指的是信息檢索引擎能夠根據用戶的檢索歷史,不但能對用戶的需求根據分析進行準確預判,還能實時將信息檢索的有關信息進行排列和反饋,并對用戶檢索歷史進行分析判斷,反饋最適合用戶需求的檢索信息。同時,信息檢索的學習應該是全范圍的檢索。隨著電子化產品的不斷發展,對知識的儲備不再像以前那樣局限于文字或聲音,越來越多的圖片、視頻性信息數據已經進入數字圖書館,也漸漸成為知識儲備的主題。作為信息檢索技術,就要能滿足對這些信息的檢索,根據用戶的需求,實時高效地完成信息檢索任務。當然,信息檢索還要能在數據更新過程不斷進行改進和提高。數字圖書館中的信息數據在不斷飛速更新,作為信息檢索技術來說,要面對越來越龐雜的知識庫和多樣用戶需求的挑戰,更要不斷改進和完善,使數字圖書館的用戶保持較高的滿意度,信息檢索更加精準、高效。

【參考文獻】

[1] 6個用好大數據的秘訣.中國大數據,2016.02.02.

[2] 大數據時代要有大數據思維.中國大數據,2015.11.3.

[3] 大數據時代還有隱私嗎?中國大數據,2016.02.02.

[4] 張興旺,李晨暉.數字圖書館移動視覺搜索機制建設的若干關鍵問題[J].圖書情報工作,2015,59 (15).

【作者簡介】

劉 燕(1979-)女,陜西咸陽人,西安財經學院法學院教師.

猜你喜歡
大數據環境數字圖書館
基于大數據環境的新聞編輯理念變革創新機制
高校圖書館的未來發展模式芻議
淺析“互聯網+”時代的圖書館管理
基于云計算的數字圖書館建設與服務模式研究
芻議數字圖書館計算機網絡的安全技術及其防護策略
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合