苗曉慧 施 娜
(1.包頭市速拓地質勘查技術服務有限公司,內蒙古 包頭 014000;2.內蒙古鑫昊有色金屬礦業開發有限責任公司,內蒙古 呼和浩特 010010)
“大數據時代”最早被麥肯錫公司提出的,自2012年開始,“大數據”一詞被越來越多的人提起與應用,人們用它來描述信息爆炸時代的海量數據,近年來已經在商界、科技界廣泛應用。但是理論界尚未對“大數據”形成統一的定義,但是一致認為大數據不是簡單的對數據量大小的描述,而是在數據量巨大,數據種類龐雜的信息中通過數據處理、數據分析來獲取有效信息的一種觀念、技術和方法的統稱。
與“大數據”定義不同,大數據的特征普遍得到業界共識,即大數據一般歸納為4V:數據量巨大,從TB級躍升到PB級甚至ZB級,而且在不斷增大;處理速度快主要表現在數據流和大數據移動性,此特性要求必須在第一時間處理數據;數據種類繁多,數據種類不僅包括文檔、圖片等傳統類型,還包括視頻、音頻、網頁、電子郵件等;數據價值高,此特性是大數據運用的真實意義所在,其價值具有稀缺性。
大數據時代的來臨,使人們對信息資源的認識更進一步,同時也提出了新的需求,在大數據時代的大環境下,各個業務部門均上線各自業務系統,作為這些業務數據的終點數據,檔案數據也有了新的變化,同時對檔案管理工作也有了新的發展特征。
1)檔案數據量巨大。地勘單位檔案記錄著地勘單位在科研等各種活動中直接形成的、清晰的原始信息。在大數據時代背景下,各業務系統每時每刻都在產生著數據量,這些業務系統產生一切的具有保存價值的文件、音頻、視頻、圖片均屬于檔案收集范圍。因此,檔案數據量將大的驚人。同時,科技的進步直接導致各種數碼設備的普遍使用,形成各部門各種活動的照片視頻等,也構成很大一部分數據量。
2)檔案數據多源異構。地勘單位檔案涉及地勘單位內的眾多業務,包括生產、科研、活動等,這些業務部門的不同業務和不同業務系統直接導致產生的檔案數據是各不相同的,形成了檔案數據多源異構的態勢。如文檔、圖片、照片、音頻、視頻等,形成非結構化數據、半結構化數據、結構化數據共同存在的現象,而這些數據之間也并非毫無關聯,存在一定的內在聯系。
3)利用檔案需求多樣化。大數據時代,地勘單位各業務系統既是檔案數據的產生者也是檔案數據的利用者。首先,行業政策、規定等信息的需求正在不斷增加;其次,作為不斷發展的地勘單位,地勘單位的宣傳活動必不可少,而宣傳活動中用到的歷史檔案、名人檔案和特色檔案也在不斷增多。由此可見,大數據時代不同使用者對各種類型檔案的需求產生了多樣化的態勢。
4)地勘單位檔案價值更加高精尖。大數據真正價值在于對海量數據的分析、挖掘,得出真實可靠的信息。地勘單位檔案是記錄地勘單位從事生產、科研、管理等活動直接形成具有保存價值的各種文字、圖表、聲像等不同形式、載體的歷史記錄,是最真實、最可靠、最權威的信息。并且在大數據時代背景下,各業務產生的各種中間數據、重點數據均是利用者可利用數據,因此,在對這些數據進行分析、挖掘之后產生的檔案數據變成了高精尖的檔案數據。
大數據時代的到來,使得檔案數據變得數量巨大、多源異構、需求增多、數據高精尖化,給檔案發展帶來了機遇,同時也給檔案工作帶來了新的挑戰。
1)大量數據存儲挑戰。檔案大數據化,使得地勘單位檔案的數據必須具備大容量的存儲。對如此海量的檔案數據首先要將其保存下來,同時考慮到數據多源異構的特性,應該將檔案數據存儲在不同類型的數據中,另外存儲的數據并不是簡單的存放,應該彼此有關聯有機的進行融合,因此不同存儲空間應該有合理“連接器”。
2)檔案服務內容、方式需革新。大數據時代下的檔案利用,走向了結論化、知識化和智能化,應該改變以往簡單查閱、復制等利用方式,檔案利用者也不僅僅是對檔案信息本身的需求,更希望從大量數據中經過挖掘,得到自己想要的檔案信息。
3)檔案信息安全受到威脅。大數據時代背景下,檔案數據的安全受到了很大的威脅。各個業務系統的上線,并未遵循統一標準,但是均需要與檔案系統進行對接;同時,檔案數據價值變得越來越高,越容易受到各種不法分子的共計;另外,在對結構型數據和非結構型數據進行融合時,可能會對傳統檔案信息安全體系帶來較大沖擊。
4)對檔案從業人員提出較高要求。在大數據時代背景下,檔案的收、管、用方面均有了新的時代特征,新的檔案管理業務對檔案從業人員提出了更高的要求,不僅要通曉檔案業務,更要具備計算機相關知識,并且具備較高的學習能力,才能不斷跟隨時代發展,做好檔案工作。
大數據時代,地勘單位檔案工作要有新的工作思路,充分整合利用檔案資源,以服務為宗旨,不斷改進工作方式,適應時代發展要求。
1)建立數據規范,整合資源。地勘單位各業務部門間的業務系統可能采用不同的數據庫,而產生不同格式的數據,大量異構數據形成信息孤島,建立標準化、規范化的體系,消除信息孤島,形成資源共享是大數據時代背景下首要解決的數據問題。對結構化數據和非結構化數據合理整合,結構化數據和非結構化數據合理整合,努力實現對結構化數據和非結構化數據的合并管理,云計算、大數據技術的運用才能成為可能,分析挖掘海量數據才能成為可能。
2)改善工作模式。大數據時代背景下,各業務系統的建立,各業務數據的歸檔,對傳統的收、管、用,均提出了新的要求。檔案的“收”要做到貫穿全流程,做到前端控制,提前做好各個業務系統的調研,要針對不同數據類別采取不同的處理方法,與檔案系統建立接口;檔案的“管”要做到全技術支持,大數據時代背景下,檔案管理已經不可避免的涵蓋了計算機知識,同時海量的檔案數據處理也需要計算機技術處理,在檔案安全方面也需要做到備份與系統日志管理;檔案的“用”要做到全智能服務,大數據時代,檔案數據不應該是簡單地存放在那里的“死”數據,應該“活”起來,而“活”即是對數據的分析與挖掘,應該具備智能化的服務,真正為檔案利用者服務。
3)增強檔案信息安全管理。大數據時代檔案安全性不言而喻,地勘單位檔案工作需特別強調檔案信息安全。首先要以技術為支撐,加強檔案信息安全全程管理。包括身份認證、單點登錄、密碼技術給數據加密、設置權限、做好備份機制、保留操作日志等。其次,要建立安全規章制度,確保各項工作有章可循。特別要做好檔案開放標準和保密制度,在信息安全的前提下實現數據共享利用。
4)建立高質量的人才隊伍。大數據時代下的檔案工作,已經不是簡單地把檔案收集起來,裝裝訂訂,檔案利用也不再是簡單查閱、復印,檔案從業人員應該以大數據的思維去管理檔案。這就對檔案從業人員提出了更高的要求,要具備專業的檔案知識,還要有數據分析能力、數據建模分析能力和處理數據能力,最重要的是要具備較高的自學能力,緊跟不斷出現的時代要求,更好地做好大數據時代下的檔案工作。