?

基于人工智能的智慧檔案館建設研究

2024-03-15 03:40梁爾真吳存峰王園
中關村 2024年2期
關鍵詞:檔案館人工智能智慧

梁爾真 吳存峰 王園

一、人工智能與檔案館概述

(一)人工智能的概念

人工智能簡稱為“AI”,隸屬于計算機科學領域,指的是研發應用于“模擬、拓展人類智能”的技術科學。人工智能旨在掌握智能實質并且研發出近似于人類智能反應的智能機器,主要包含著機器人、深度學習、自然語言處理、專家系統等方面。

二十世紀50年代,達特茅斯學會首次提出了“人工智能”一詞,隨后相關學者及科學家發展、拓展其概念、理論與原理。電子計算機技術出現與發展后,人工智能發展速度加快。同時期,學者NEWELL與SIMON研發出“邏輯專家”程序,為人工智能發展夯實基礎。二十世紀70年代,機器視覺與MINSKY構造等理論快速發展、專家系統出現,人工智能逐漸應用于疾病診斷、股市預測等領域。二十一世紀,世界各國及各領域逐漸認識到人工智能的重要性,其成為新一輪科技革命與產業變革的重要力量,“人工智能+X”成為社會發展的必然趨勢,逐漸帶領人們邁入普惠型智能社會。

(二)智慧檔案館的概念

當前,我國將檔案信息化歸入到信息化發展規劃中,要求各級人民政府、檔案館、企事業單位等加強檔案信息化建設,保障檔案安全,以此推進國家治理體系和治理能力現代化。其中,檔案數字化在檔案信息化建設中處于基礎地位,指的是通過高科技手段,將傳統檔案載體形式轉變為數字檔案形式,使用單位或人員可利用互聯網、局域網等進行檢索與閱讀,以此提升檔案管理與服務水平。如今,檔案數字化建設是適應時代發展形勢、滿足國家發展要求的新舉措。但需要注意的是,建設數字檔案館僅能提升檔案利用率,不能輔助檔案工作人員開展業務及服務工作。

二、國內外研究現狀及發展趨勢

(一)國外應用發展狀況

二十世紀50年代,以“人機對話衡量機器智能程度”為核心的圖靈測試開啟了自然語言處理技術的發展歷程。二十世紀50年代到90年代,人工規則、專家系統等出現后,促進了早期自然語言處理領域的發展。二十世90年代后,計算機運算速度加快,統計學習方法逐漸趨于成熟,人們可采用統計機器學習方法完成自然語言任務。二十一世紀,各國紛紛將人工智能發展納入國家核心戰略,BERT預訓練模型、Codice?Ratio項目等出現,逐漸解決了自然語言處理無法滿足深度學習模型的大規模標注數據需求等問題。隨后,人工智能發展速度愈發加快、應用領域愈發擴大,改變了世界發展形勢及人們的生活形式。

(二)國內應用發展狀況

2017年,我國將人工智能納入全國政府工作報告,強調要迎接新元年,促進包含著人工智能的各類新興產業發展。同年七月,我國發布了《新一代人工智能發展規劃的通知》,將人工智能發展納入國家發展戰略,建設新一代人工智能關鍵共性技術體系。隨后,我國相繼發布了《國家新一代人工智能開放創新平臺建設工作指引》《國家新一代人工智能標準體系建設指南》等政策文件,要求搭建人工智能標準體系,著重研究服務、算法重點急需標準。上述領域技術標準以“人機交互”“自然語言處理”等為核心,能促進人工智能進一步發展,夯實技術基礎。

三、基于人工智能的智慧檔案館建設策略—以某A智慧檔案項目為例

(一)項目概述

數字化改革背景下,想要實現檔案智治,應引進并運用人工智能建設智慧檔案應用系統,從而加快智慧檔案館建設步伐,實現檔案智能化搜集、分類、儲存、利用與管理。某A智慧檔案項目主要基于深度學習、自然語言處理與知識圖譜等人工智能技術,在檔案智治目標驅動下研究“基于人工智能的智慧檔案應用”,主要開發基于深度學習的檔案文本識別模型、基于NLP技術的檔案行業大規模預訓練模型、基于語義網絡的檔案信息抽取與挖掘分析、基于人工智能的檔案大數據應用系統。項目具體內容如下:

1.基于深度學習的檔案文本識別模型

在歷史原因與檔案價值等因素的影響下,當前,大部分檔案數據源自線下實體檔案電子化,雖然我國持續推進檔案電子化掃描工作,但是其圖像數據仍屬于非結構化數據,使用單位及人員無法進行深入分析與高效處理。由此,如何針對上述電子檔案進行文本識別與內容提取是此項目研究的基礎工作。

面對繁雜的圖文場景時,傳統OCR識別技術難以有效辨識文字內容,尤其是存在大量表格、老化、受污、受損、折痕等內容的檔案,而光學字符識別能自動化辨識圖像的文字內容。近年來,隨著計算機視覺等人工智能技術快速發展,OCR技術在某些領域與人工智能技術進行有效融合后取得較大進步,其能利用深度學習的自適應學習驅動方式解決傳統技術的部分問題,適應與優化傳統簡化參數預處理程序,最終實現“端到端”的處理,提升技術辨識率。此項目以“OCR技術”為基礎,搭建以“檔案數據集”為基礎的人工智能深度學習模型,借助人工確認、文本檢測等環節提高對文本或表格內容辨識的精準率。

2.基于NLP技術的檔案行業大規模預訓練模型

如今,我國多領域、行業均開始搭建預訓練模型,然而檔案領域尚未出現類似系統。同時檔案領域涉及較多,存在檔案跨行業等現象,關聯特性較為復雜,不能形成統一的預訓練模型。此項目擬建設大規模預訓練模型,涉及民生檔案、歷史名人檔案等方面,主要研發“大及超大規?!钡念A訓練模型與性能調優技術、具備通用能力的自然語言理解技術、腦啟發語言模型等。

3.基于語義網絡的檔案信息抽取與挖掘分析

如今,數字檔案服務主要集中于“搭建服務內容與框架”,重點研究資源、服務模式等方面,理論研究較多,實踐性研究較少,同時我國各省市的數字檔案建設缺乏智能服務,現有研究與發展受限。然而,近年來我國逐步邁進智慧時代,提高了對語義網絡等人工智能技術的重視程度,再加上檔案行業及相關學者也逐漸認識到了語義技術對數字檔案發展的重要影響,其能提高檔案服務效率與質量。在此背景下,具有“集成化”等特征的知識圖譜能有效解決數字檔案零散化問題,為用戶提供更加全面、高效的服務。

(二)人工智能在智慧檔案館建設中的應用

1.智能化搜集

目前,“文本挖掘”是檔案領域較為熱門的一項技術功能,其應用價值較高。例如,編制與研究檔案時,人們需要尋找大量資料,往往耗時耗力也無法獲得理想的結果,而文本挖掘能解決此類問題。無論是Google爬蟲還是百度蜘蛛,都屬于智能Agent,其能在浩如煙海的文獻資源中尋找所需材料。檔案OCR是利用OCR技術對紙質檔案數字化副本等圖像文件中的字符形狀進行識別、文字轉換和文本輸出、呈現的過程。某A智慧檔案項目即通過人工智能技術進行檔案OCR,能直接提升工作效率,從而進一步實現自動著錄等功能,促進檔案資源數據化轉型。同時,在大數據挖掘分析手段的支持下,可以利用可視化技術描述知識資源,描繪與展示其關系,以此滿足使用者的個性化要求,自動化推送內容,智能化查檔出證。系統分析查檔行為數據后,能構建分析引擎并且形成用戶畫像,增強查檔的方便性。查檔時,NLP技術等能將用戶檢索語言轉變為計算機通用語言,明確檢索內容的屬性特征并且發現各文本的關系,直接反映其知識圖譜的實體等,再利用各實體關系推送所需信息資源,讓用戶可瀏覽系統化知識,形成并且提升檔案智慧服務。

2.智能化分類

傳統檔案館檔案管理模式主要遵循一定規則標準,按照檔案周期、內容、形式等進行分類并且構建相應體系。近年來,各類新型檔案出現,對檔案分類及管理提出更多要求。由此,檔案信息化建設背景下推行智能化檔案分類是一種新方法與新要求。自然語言理解是人工智能領域中非常重要的一部分,指的是讓計算機理解人類自然語言,其主要包含著語義分析、詞法分析等方面,運用喬姆斯基語法并且結合各國家母語語料庫,通過有限狀態自動機掃描等待辨識的文本并且經過深度學習形成統一化中間語言,從而滿足各類應用要求。由此,自然語言理解在智慧檔案館智能化分類中發揮著重要作用,基于全文數據庫與人工智能機器,根據標準檔案分類方式自動化搭建專題數據庫。

某A智慧檔案項目主要利用NLP技術進行檔案智慧開放審核,通過機器深度學習建設數據模型與保管期限表、敏感詞庫等知識庫和規則庫,隨后在人工干預的作用下進行智能化鑒定,以此實現智能鑒定分類統計等功能,促進檔案鑒定全程序智慧化發展。具體如圖1所示:

圖1?某A檔案智能項目智能化審核工作流程

3.智能化管理

檔案安全至關重要,其主要包含著實體與數字檔案安全,前者即保障庫房安全,通過引進具備智能識別功能的門禁系統保證檔案安全,其中基于人工智能技術的聲紋識別、人臉識別等技術非常關鍵。后者即保障存儲與通信安全,智慧檔案館多應用集中式存儲,但隨著數據量大幅增多,此種儲存方式難以滿足海量數據儲存要求,智慧檔案館可采取分布式存儲方式,利用人工智能技術驅動檔案云智能存儲調度等。

四、結語

綜上,如今世界各國積極發展人工智能技術,以此推動新一輪科技與產業革命。近年來,我國相繼發布相應政策及計劃,如“中國大腦”計劃等,要求通過發展人工智能搶占技術高地。本文以某A智慧檔案項目為例,分析了人工智能在智慧檔案館建設中的應用,以此優化檔案館檢索、分類、利用各環節,主動迎接新一輪檔案信息技術革命浪潮,促進我國檔案事業跨越式發展。

(作者單位:浙江星漢信息技術股份有限公司)

猜你喜歡
檔案館人工智能智慧
2019:人工智能
人工智能與就業
數讀人工智能
全省部分檔案館新館掠影
下一幕,人工智能!
太倉市數字檔案館成為“全國示范數字檔案館”
when與while檔案館
有智慧的羊
智慧派
智慧決定成敗
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合