?

大數據視閾下檔案學研究的困境和啟示

2016-05-14 08:54王晨李耀庭
北京檔案 2016年6期
關鍵詞:共詞檔案學檔案館

王晨 李耀庭

摘要:基于對CNKI檔案類期刊的統計分析,本文探討了大數據在我國檔案領域內的研究現狀,分析當前檔案管理技術同非結構化的數據管理、資源轉化效率同發揮檔案的潛在價值、數據挖掘深度同個性化的用戶利用需求之間的困境,并結合大數據理論指出其帶給檔案學研究的相關啟示。

關鍵詞:大數據檔案學研究統計分析檔案管理

Abstract:Based on the statistical analysis of ar? chive journals from CNKI, the paper discusses the research status of big data in the field of archives and points out the dilemma between archives man? agement technologies and unstructured data man? agement, resources conversion rate and exertion of potential value of archives, depth of data mining and personalized user needs. The paper also bring out some relevant enlightenment combined with big data theory.

Keywords:Big data;Archives science study; Statistical analysis; Archives management

所謂“大數據”,是指無法在一定時間內用常規軟件工具對其內容進行抓取、管理和處理的數據集合。它不單單指字面意義上規模龐大的數據量和數據集合,在認知和應用過程中更應將其理解為一種思維和管理方式,一種新的技術和數據管理視角。其實,無論將大數據看作復雜的數據集合,還是數據管理的思維方式,它的出現都是由數據的量變積累到一定程度引發的“質變”。近年來,各行業研究的重點都集中在“大數據”上,檔案學的相關研究也開始聚焦大數據。我國檔案學領域明確提出有關大數據的研究是在2012年,目前相關研究仍然集中在檔案領域對大數據本身的認知上。鑒于此,本文從大數據在我國檔案領域內的發展入手,并結合CNKI檔案類期刊的共詞聚類分析,探討大數據對檔案學研究帶來的機遇和困境以及對我國檔案事業發展的思考。

一、基于檔案大數據研究的統計分析

(一)數據獲取及處理

以CNKI中國學術期刊全文數據庫為來源,以“大數據”和“檔案”為主題進行檢索。截至2016年5月,檢索到2011~2016年的相關文獻共計501篇。筆者從中選取研究的核心樣本,并以此為依據分析檔案學領域大數據研究的總體現狀與核心熱點。首先從501篇文獻中剔除重復條目以及與檔案大數據研究明顯無關的學術論文和新聞報道后,得到文獻456篇。然后,再按照來源刊物對456篇文獻進行篩選,勾選出文獻來源為檔案類期刊、大學學報以及檔案學相關會議和學位論文的,共得到281篇文獻。最終以281篇文獻樣本作為檔案學研究的核心樣本,統計高頻關鍵詞。剔除“大數據”(99次)與“檔案”(21次)后,得到排名前十位的高頻關鍵詞,其分別為檔案信息(39)、檔案管理(39)、檔案數字化(32)、檔案工作(26)、數字檔案館(22)、檔案利用(19)、物聯網(17)、檔案事業(15)、信息技術(14)、檔案管理模式(13)。

(二)關鍵詞分析

共詞聚類分析法,是通過對文獻集合中“詞匯對”共同出現的情況來構建共詞矩陣,然后對矩陣進行聚類分析,從而確定該文獻集合與所代表主題之間的關系,進而描述該學科的研究熱點和發展趨勢。為了較好地歸納出研究重點,在進行共詞聚類分析時,先要找出關鍵詞,進而構建共詞矩陣。

1.構建矩陣。對核心樣本所統計出的高頻關鍵詞兩兩配對,統計其在樣本文獻中出現的頻率,建立共詞矩陣,如表1所示。

利用Ochiia系數,將共詞矩陣轉換為相關矩陣,以減少統計頻次的懸殊對分析結果所造成的影響。矩陣中的數字表示兩個詞之間的相關度,數值越大,表示二者之間的相關程度越高。其中,相關度較高的有檔案信息與檔案數字化(0.3963)、檔案信息與物聯網(0.3107)等。如表2所示。

2.聚類分析。在以高頻關鍵詞為基礎建立的共詞和相關矩陣上,利用SPSS軟件對其進行聚類分析,可以得出在大數據背景下我國檔案學研究的聚焦點和關聯點。將表2的相關矩陣導入SPSS進行層次聚類分析,選擇“組間平均鏈鎖距離”,生成平均聯接樹狀圖。該方法能夠將關系密切的對象聚合到一個小分類,稍遠的聚合成大分類,最終形成一個樹狀系統。從圖1中可以看到,關鍵詞1(檔案信息)和3(檔案數字化)二者距離最近、關聯最緊密,可聚合為一類;稍遠的組合有關鍵詞2(檔案管理)和4(檔案工作)、6(檔案利用)和7(物聯網),這兩組分別合并后又匯聚成一個研究大類。

3.結論分析。通過共詞聚類分析,可以將目前研究熱點歸為以下幾類:(1)檔案數字化及資源管理(關鍵詞1、3和5)。大數據背景下我國檔案學研究所關注的首先是作為基礎的檔案資源管理,主要是針對數字檔案館、檔案數據庫存儲以及電子文件管理等方面的探討,同時也涉及對非結構化信息及各類電子文件如何統一標準的問題研究。(2)檔案價值開發及利用(2、4、6和7)。從檔案人、檔案資源開發整合以及檔案相關信息技術等角度,實現對檔案資源的多元化開發,這些開發在該大類中顯得較為突出。另外,物聯網等技術不可避免地將成為未來檔案價值實現的途徑。(3)檔案事業及檔案管理模式(關鍵詞5、8、9和10)。與相關矩陣所反映問題類似的是,我國檔案領域的大數據研究集中在檔案工作與管理的宏觀思想上,偏重管理模式創新實踐和業務探討。尤其是在城建和高校檔案等領域對檔案管理全過程的理論探討與模式創新經久不衰。

綜上所述,我國檔案學領域對大數據的研究總體還處在起步和探索階段,偏重對實踐業務工作的探討,而檔案資源開發利用和基礎理論研究的底子相對薄弱。究其原因,這與我國檔案學發展現狀在技術、思維和資源層面所存在的問題密切相關。

二、大數據背景下我國檔案學研究的困境

大數據既為檔案資源管理提供了良好的發展機遇,又不可避免地凸顯出我國檔案學研究領域的困境?;谏鲜龃髷祿嚓P研究的統計和共詞聚類分析結果,筆者對核心樣本的研究內容做了深入的歸納總結,結合我國的檔案管理現狀不難發現,在該領域的關注焦點同時也正是檔案學目前亟須解決的問題所在——檔案資源管理及數字化、檔案的價值轉化與開發利用以及檔案數據挖掘和個性化服務模式。從這個角度而言,筆者認為我國檔案學研究在大數據背景下存在以下三大困境:

(一)現有的檔案管理技術難以解決非結構化的數據管理

作為人類社會信息資源的“最終歸宿”,檔案的存儲和管理始終是檔案工作的重中之重。尤其在信息時代數據規模呈幾何級增長,數據結構也開始變得復雜化和多樣化,來源豐富且非結構化的碎片數據對傳統數據庫造成了極大沖擊。以目前我國檔案管理水平的現狀而言,涉及大數據核心的分布式存儲和并行處理等相關的云技術還沒有得到普及利用,異構數據的互聯互通問題還沒有得到妥善解決,檔案工作的管理實踐還沒有跟上技術發展,這種檔案管理思維和技術的相對滯后直接導致了現有檔案管理水平同檔案管理需求之間的矛盾。

(二)現有的資源轉化效率難以發揮檔案大數據的潛在價值

就我國檔案館目前的資源轉化和利用現狀而言,一方面檔案的數字化進程還處于建設時期,對大多數實體檔案的利用依舊只能停留在人工挖掘檔案價值的階段,難度較大且標準各異;另一方面,現有的檔案存儲容量限制、管理成本限制和保管期限表的鑒定機制決定了部分低值檔案需要定期銷毀。對于這部分檔案而言,大多在還沒有達到凸顯其潛在價值的外部環境時便已進入了死亡期。從長遠角度看,這部分檔案并非是因完全失去利用價值而被銷毀的,只是在現有的技術條件和鑒定標準下無法發揮其潛在價值。正是上述兩方面的問題使得我國檔案館的資源轉化率長期處于較低的水平,在數據規模更加膨脹的今天,這樣的不相匹配將很難發揮檔案作為社會真實歷史記錄所蘊含的巨大潛在價值。

(三)現有的數據挖掘深度難以支撐個性化的用戶利用需求

隨著對信息資源關注的深入,公眾對檔案的開放和利用提出更多個性化的需求。進入大數據時代后,館藏中越來越多的檔案資源將不再作為“最終產品”直接面向公眾,而是逐漸轉變為基礎資源,并協同其他相關的信息資源一起,經過更深層次的數據挖掘和分析,形成新的知識供其利用。但反觀當前我國檔案館的情況,對大數據相關技術的研究和應用起步略晚,大多數檔案館的主要職能仍舊停留在以“保管為主”的檔案資源管理模式上,檔案資源的整合加工和統計分析較少涉及,這樣的模式將很難滿足新時期公眾對檔案開放利用的個性化需求。

三、大數據對檔案學相關研究的啟示

從CNKI來源的期刊統計分析可知,目前我國檔案事業的大數據研究更多地集中在應用領域,在理論基礎上顯得相對薄弱。但是,仍然可以看到的是:“大數據時代科研范式的轉變促使數據利用和服務的需求也相應發生了變化?!痹谶@樣的背景下,結合大數據背景下檔案管理的挑戰和困境,從用戶需求出發,探索大數據的基礎理論和檔案學相關理論的結合點,是能夠對檔案學的相關研究以及檔案館的發展有所啟示的。

(一)大數據對“相關關系”的探索,或將拓寬全宗內部檔案及全宗之間的關系邊界

同一來源的檔案往往保持密切的關聯性,從宏觀角度來看,過去所收集的全宗內部各主題或年份的檔案之間形成的是一個小型相關的關系網絡。目前對檔案的管理也更多地集中在全宗內部的這個關系網絡里,然而大數據的出現加深了對“相關關系”的探索,拓寬了關系聯結的邊界。在對海量信息的處理過程中,全宗之間一些微弱、隱秘的“相關關系”開始有能力被挖掘出來并表現出一定的價值。通過這些“相關關系”的聯結點,檔案館不僅可以強化全宗內檔案的垂直關聯性,甚至也可以在全宗與全宗之間建立起相應的橫向交流關系聯結,從而打造出一個暢通無阻的檔案信息資源集成網絡。如此一來,檔案工作者完全可以通過檔案管理系統對館內檔案信息資源有一個更加系統、直觀和全面的認知,從而為檔案的搜集整理和檢索利用創造更加高效的體系,提供更多的便利。

(二)大數據對全數據的關注,或將延長非永久保存電子檔案的保管期限

過去檔案保管期限的設置受到檔案自身價值和外部環境因素(檔案館的館藏空間、容量以及其他相關條件)的影響,需要定期對不具有永久保存價值的檔案進行銷毀。隨著科學技術的進步,電子檔案逐漸取代紙質檔案成為檔案資源的主力軍;而大數據的支撐技術又恰好解決了大規模數據的存儲和處理問題,這也就意味著檔案館的數字化進程已無存儲空間和館藏限制的后顧之憂。與此同時,基于隨機采樣的統計分析方法缺乏延展性的弊端,大數據思維開始倡導建立“樣本=總體”的全數據信息庫,利用其強大的數據分析功能針對事實數據本身而非隨機樣本去進行計算和分析。這樣,在檔案學研究的領域里,檔案價值鑒定的標準和體系將會隨著“全數據”模式的出現而受到強烈沖擊。對于那些即便達到保管期限、看起來價值甚微的抑或是存在錯誤、殘缺不全的電子文件,都有可能會被發掘出新的潛在價值,并且應該在“全數據”模式下的數字檔案館內獲得一席之地,而不再受到保管期限的過多約束。

(三)大數據對關聯數據進行共享和深度挖掘的需求,或將反作用于現有的檔案信息咨詢服務模式

目前的檔案信息咨詢服務仍處于“你問我答,你用我取”的被動模式,用戶對檔案的利用需求往往受限于檔案館現有的載體形態和館藏資源,尚且無法得到綜合性的檔案信息和統計結果。在大數據時代,數據化的電子檔案將逐步替代紙質檔案和數字化檔案成為主流。通過利用大數據對碎片化檔案信息的收集整理以及對相關數據信息的共享與深度挖掘,檔案館一方面可以結合用戶在互聯網中的社交關系,打破社交媒體同檔案館之間所存在的共享缺陷,并把碎片化、非結構化的信息資源(包括用戶在社交媒體上的行為數據)整合轉化為全面的量化數據,從而提前對用戶的利用行為和需求做出分析和預判,變被動提供為主動“出擊”。另一方面,這種對數據化信息的共享和深入挖掘可以在實際提供利用時,根據用戶提出的要求,在滿足用戶基本信息需求的前提下主動向用戶展示綜合性的統計分析結果而非簡單的檔案調閱。同時,在大數據強大的數據關聯和分析能力中加入用戶反饋,實現檔案咨詢的智能改進將不再遙遠。目前,韓國國家檔案館便在此基礎上借助信息技術的發展和用戶服務的推進,成功開發出了大數據時代下基于社交網絡的檔案信息服務新模式。

參考文獻:

[1]樊樹娟.大數據時代的社會變革與檔案職業發展探析[J].檔案管理,2014(10):17-19.

[2](英)維克托·邁爾-舍恩伯格,肯尼斯·庫克耶.大數據時代:生活、工作與思維的大變革[M].杭州:浙江人民出版社,2013:29-71.

[3]陳玲霞,田湘平.大數據時代檔案資源管理探討[J].云南檔案,2014(10):50.

[4]儲節旺,郭春俠.共詞分析法的基本原理和EX? CEL實現[J].情報科學,2011(6):932-934.

[5]李長玲,翟雪梅.我國情報學碩士學位論文的共詞聚類分析[J].情報科學,2008(1):73-76.

[6]張健.檔案數據庫“脹庫”問題研究[J].檔案學通訊,2012(4):50-51.

[7]王建亞.大數據背景下檔案工作的機遇、趨勢與挑戰[J].北京檔案,2014(5):25-27.

[8]周楓.國內檔案學領域“大數據”研究述評[J].檔案,2014(6):9-12.

[9]劉守華.迎接大數據時代的呼嘯而來[J].中國檔案,2013(11):1.

[10]吳丹,于文婷.近五年國內外圖書情報學教育研究進展與趨勢[J].圖書情報知識,2015(3):4-12.

[11]王蘭成.大數據環境下檔案與圖書情報信息集成服務機制的構建[J].檔案與建設,2014(12):4-7.

[12]武云.利用大數據創新檔案管理模式和提升服務能力[J].檔案與建設,2015(1):35.

[13]張峻山.基于社交網絡的檔案信息服務新模式——韓國國家檔案館的實踐[J].檔案與建設,2015(7):35-38.

猜你喜歡
共詞檔案學檔案館
基于突變檢測與共詞分析的深閱讀新興趨勢分析
關于檔案學會工作的幾點思考
全省部分檔案館新館掠影
歷史主義是檔案學不變的靈魂和宗旨
——《魂系歷史主義——西方檔案學支柱理論發展研究》述評
基于共詞知識圖譜技術的國內VLC可視化研究
基于關鍵詞共詞分析的我國親子關系熱點研究
太倉市數字檔案館成為“全國示范數字檔案館”
基于共詞分析的近十年國內網絡團購研究熱點分析
省檔案學會六屆二次常務理事會議在南京召開
淺談檔案學的研究對象與任務
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合