?

強檔的必由之路是建設智慧檔案

2023-03-22 03:47楊冬權
檔案與建設 2023年1期

楊冬權

《檔案與建設》開設“強檔論壇”,我首先想到的強檔之路,就是建設智慧檔案。因為在內外條件都已具備的條件下,建設智慧檔案,無疑是做強檔案工作、提高檔案部門和檔案人員地位的現成捷徑、不二法門、唯一道路。

1 什么是智慧檔案

記得2019年7月,我在江蘇的一個會議上,首次公開提出了我所理解的智慧檔案的概念。之后幾年,我又利用寫文章、演講等各種不同形式,在許多不同場合,呼吁建設智慧檔案。

我所說的智慧檔案,包括智慧檔案館和智慧檔案室。我所理解的智慧檔案,不是之前人們所說的檔案自動監控和自動調取、庫房溫濕度和有毒有害氣體自動調控、檔案柜架自主移動、人流物流自動監控之類的側重檔案外在管理的自動化檔案館室,而是對檔案內容進行智慧性處理和開發,讓檔案增強人的智慧,幫助人進行決策和管理等,讓人因檔案而變得更聰明,這才是真正的智慧檔案。這就必須做到兩點:第一點,把檔案中電腦不能識別和處理的內容,轉化成電腦可識別處理的數據,也就是先把檔案“數據化”。第二點,用各種數據挖掘技術和手段,對所有檔案數據進行關聯性處理和關聯性推送,讓所有數據形成關聯,形成新的知識、新的信息,并主動進行推送。沒做到這兩點的檔案館室,最好不要侈叫智慧檔案館室。

2 為什么說建智慧檔案是強檔必由之路?

智慧檔案館室是之前紙質檔案館室和目前正在建設的數字檔案館室的升級版和代替版,它比紙質和數字這兩代檔案館室有著太多的優越之處,是對檔案館室的質的提升。

我們可以把數字檔案館室和智慧檔案館室作一個對比。

數字檔案館室,主要是對紙質檔案進行掃描,形成紙質檔案的電子圖像,并為每一份檔案著錄標題、責任者、形成時間、關鍵詞等幾項必要的信息,最后進入網絡,進行遠程利用。

而智慧檔案館室,雖然也對紙質檔案進行掃描,但掃描的結果,不僅形成電子圖像,還對檔案內容進行識別,形成電腦可以識別和處理的數據。也就是說,它掃描的結果,既有電子圖像,又有檔案全文數據。接下來,檔案的全文數據被導進檔案數據庫(或數據湖或數據海)中,以后就可以通過數據挖掘技術,同數據庫中的其他1萬件、100萬件、1億件甚至更多檔案中的全文數據產生關聯,并能自動關聯性地推送出來,形成許多它所不具備且是前所未知的新知識、新信息。

例如:一張紙質的北京市地圖,在數字檔案館中,人們可以看到地圖上的許多地名,但也僅此而已,不可能得到其他信息,也不可能由此知道其他的新知識。但在智慧檔案館中,這張地圖上的每個地名,都同數據庫中的其他信息產生了關聯,產生了新的知識。如果搜索“天安門”,網絡會給你推送同天安門這個地名有關的很多信息,如:天安門距離北京任何一個地方的里程有多少,不同交通工具的交通路線怎么走,需要多長時間,天安門什么時候建的,什么時候大修過,它有多高、多寬、多大,多少個廳,各有什么陳設,什么時候在天安門發生過什么大事……這些就都是這張地圖或這件檔案以外的新信息、新知識。這在過去紙質和數字檔案館室中是不可能有的。

再例如,一份30頁、15000字的某市政府工作報告,在數字檔案館室中,除了能查到這30頁的電子圖像,知道它的題名、責任者、成文時間等幾個關鍵詞,其他的你不能知道更多。但在智慧檔案館室中,除了以上這些,這件檔案中的15000個字,都可以被電腦識別出來,當中的每一個實詞,都可以同數據庫中的其他信息產生關聯,形成新的信息并可主動推送出來。如果查閱這份工作報告中2021年的糧食產量,數據庫還會推送出這個地方之前歷年糧食產量的對比、增減幅度、增減趨勢等。一份政府工作報告查閱下來,你就基本知道了這個地方多年的經濟和社會發展情況。

又例如,某個企業新歸檔了一件貸款發票。在數字檔案室,你查到它,只能知道該企業某年某月某日從某銀行貸了多少款,利息是多少,其他信息你就不知道了。而在智慧檔案室中,數據庫可以告訴你,到此時為止,這個企業一共貸了多少款,各個銀行分別是多少,各種利息的分別是多少,今后每年企業要還多少利息,企業有沒有信貸風險,怎么還貸對企業更有利,等等。

智慧檔案館室中這些根據數據挖掘而新生成的新信息、新知識,真正提高了人的智慧,提高了人的素質,使人變得無所不知。所以,這才是真正的智慧檔案。

建立了智慧檔案室以后,檔案人員就是單位中最聰明、最智慧、知識最豐富的人。單位的每一件人事檔案歸檔后,智慧檔案系統可以隨時報告單位領導,到此時為止,單位共有局級干部多少人、超編多少或缺編多少;處級干部多少人,超編多少或缺編多少;單位干部的年齡結構、知識結構、專業結構;今后干部隊伍建設的著力點在哪里,等等。某市衛生局檔案室每天歸檔完后,都可以根據智慧檔案系統向領導報告,今天全市病患看得最多的是什么病,這種病可能什么時候開始流行,要采取什么預防措施;或報告今天有多少年輕人在購買老年病的藥,有騙醫保傾向,應該怎樣處置,等等。這樣,在領導和別人的眼里,檔案人員就不再是過去的那個可有可無的“調檔員”,而是知道很多他所不知道的知識、想出他還沒有想到的信息及對策的高級參謀、智慧助手。做到了這一步,檔案部門和檔案人員的地位很快就會得到重視,得到支持,得到加強。這不是最好的強檔之路嗎?還有比這更好的強檔之路嗎?

由上可以看出,智慧檔案從以下幾個方面實現了強檔:

第一,它大大地增強了檔案的價值和作用。在紙質和數字檔案館室中,檔案的價值只在利用者利用這件檔案時才發揮出來,它只對直接的利用者有價值、起作用。而在智慧檔案館室中,所有檔案的利用都會關聯到其他檔案,其他檔案也會被間接地利用,所有產生關聯的檔案共同發揮出更廣泛和更大的作用。例如,在紙質和數字檔案館室中,某市2021年政府工作報告,只在某人專門利用或直接利用它時,它才會發揮作用。而在智慧檔案館室中,別人利用2019年、2020年或其他歷年的政府工作報告,甚至利用所有同2021年政府工作報告中某項信息有關聯的其他檔案時,2021年政府工作報告中的很多信息,也會被關聯性地利用到,被間接地利用到,從而間接地體現出其價值,間接地發揮出其作用。這樣,在紙質和數字檔案館室中,檔案可能平均每年只被利用一次、發揮一次作用,但在智慧檔案館室中,每件檔案平均每年可能被間接地利用一百次、一千次。檔案不但對直接利用它的人體現價值、發揮作用,而且對間接利用他的人也體現價值、發揮作用,檔案發揮作用的范圍大大地擴大了。這就成百上千倍地增強了檔案的價值和作用。

第二,它有力地增強了檔案工作的作用。在紙質和數字檔案館室中,由于檔案被利用的范圍小、頻次低,作用不明顯,因而檔案工作的作用也不明顯。而在智慧檔案館室中,檔案被利用的范圍大大擴大,頻次大大增加,特別是檔案工作者往往提供出領導和其他工作部門都提不出的新信息、新知識,甚至可以預測趨勢、提示風險、拓寬工作路徑,因而大大提高工作效率和管理水平,這就大大提高了檔案對各單位和對社會的支持作用。

第三,它大大地強化了檔案部門和檔案人員的地位。如上所說,智慧檔案館室建成后,檔案部門和檔案人可以主動給各方面推送人們有興趣或需要的東西,特別對單位領導來說,檔案部門和檔案人,就不再是簡單的“調檔員”“提檔手”,而是能給出很多新知識、新信息甚至新方案的高級參謀、助手、智囊,是智慧的化身,是離不開的超過歷史上諸葛亮和吳用那樣的“智多星”。檔案部門和檔案人一定會倍受尊敬和重視,他們的地位一定會有實質性的提高。這里,檔案人的聰明與智慧,都是智慧檔案所賦予的,是人工智能技術把檔案中的所有知識、信息、智慧點結合了起來、挖掘了出來、呈現了出來的結果。

3 為什么智慧檔案能強檔?

第一,是在大數據環境中,檔案發揮作用的方式不一樣了,或者說,檔案被利用的形式不一樣了。在紙質和數字檔案館室中,利用檔案是個別性或針對性利用。張三來用甲號檔案,那么,甲號檔案只有被張三利用后才發揮作用,而且只對張三有作用。這種傳統的、一對一的利用,我們可以稱之為直接利用、專門利用或針對性利用。它所發揮的作用,是直接作用、專門作用或針對性作用。而在智慧檔案館室中,甲號檔案不但在張三來利用時會被直接利用、發揮直接作用,而且在李四來用同甲號檔案中某信息有關的乙號檔案、王五來用同甲號檔案中某信息有關的丙號檔案時,都會對李四、王五等人發揮間接作用。這里,李四、王五等人并沒有直接利用甲號檔案,而是在利用乙號檔案及丙號檔案時,關聯性地利用了甲號檔案中的某一信息,甲號檔案是被李四、王五等人間接地、關聯性地利用到的。我們可以把這種非一對一利用的關聯性利用,稱之為間接利用,或廣泛性利用、專門性利用。它所發揮的作用,是間接作用或關聯性作用、廣泛性作用、非專門性作用。在智慧檔案館室中,檔案發揮作用的主要形式,將不再是針對性、個別性的直接利用,而將是更主要的除此之外的大量的非針對性、非個別性的間接利用與關聯利用。直接利用將只占極少數,更大量、更日常的是間接利用。這種間接利用、關聯利用,在紙質和數字檔案館室中是不曾有過的,是只在智慧檔案館室中才會產生、形成的,其所發揮的作用,是直接利用的千百倍。

在紙質和數字檔案館室中,人們利用某一件檔案時,某一件檔案才發揮作用;在智慧檔案館室中,別人用另一件同這一件檔案內容有關的檔案時,這一件檔案也會自動地被利用,被“鉤連”出來,被“牽扯”出來。數據庫中的每一件檔案,都會被多次地、反復地、經常地“被利用”到。這就是檔案發揮作用方式的改變,或檔案利用形式的改變。這種改變,是前所未有的改變,是意義重大的改變,是可以千百倍發揮檔案價值和作用的改變,是可以讓檔案人聰明、智慧千百倍的改變,是可以讓檔案形成單位和全社會獲得千百倍經濟和社會效益的改變,是可以實質性提高工作水平、決定性提升檔案部門和檔案人員地位的改變。這種新改變,在信息界、數字界已經發生了好幾年,在檔案界也正在逐漸發生,并將會隨著智慧檔案館室的更多建成,而日益廣泛成為檔案利用的新常態。

第二,是信息技術發展變化,從過去的針對性檢索,發展到現在的廣泛性搜索和關聯性推送。人工智能技術的應用,把早期的信息檢索變成了對信息的智能搜索、全面分析、綜合挖掘、關聯性推送,使得人們不但能準確地查到某件檔案,而且能搜索到同這件檔案內容有關聯的其他的大量新信息和新知識。例如,過去檢索“天將降大任于是人也”這句話,電腦只能告訴人們,它出自《孟子·二章》;但現在搜索這句話,電腦還可以告訴人們這一章的全文,全文的翻譯和賞析,“是人”是在什么時候被改成“斯人”的,哪些書的版本中是“是人”,哪些書的版本中是“斯人”,以及跟這句話類似的其他古人的勵志名句等,從而賦予人們更多新的知識。再例如,過去在電腦上檢索張三任市長的通知時,電腦只能提供這一份通知,但現在搜索這份通知時,數據庫還會推送出張市長之前任副市長的任職通知、免職通知,以及更早前他任局長、副局長,處長、副處長等所有的任免通知,還有他的簡歷、照片、錄像、文章、講話等所有關于他的信息。另外,信息技術特別是人工智能技術,已經能夠通過對數據的挖掘,代替人去分析、思考,提出預警、提示,提供方案,甚至去干活。比如,人工智能能夠根據處理器中輸入的大量古詩詞,選擇任何主題,創作出新的詩詞來,其水平不亞于人類詩人;輸入大量病歷檔案后,人工智能能通過對數據的挖掘,進行醫學診療,能讀X光片,能診斷疾病,能開藥,其水平高于多數人類醫生。這些,都是對大量數據進行分析、挖掘并加以自我學習的結果。所以,基于信息技術的這一提升和改變,是一個質的、革命性的提升和改變。

第三,檔案內容基本都可以轉變為電腦可以識別和處理的數據。過去,由于缺少檔案內容的識別轉換技術,大量的檔案內容不能被電腦識別和處理。但最近幾年來,隨著一些新的識別轉換技術的應用,檔案中的文字,可通過手機軟件,識別轉換成電腦可處理的文字即數據,其準確率普遍超過八成,有的甚至高達95%以上。音像檔案中的聲音,也可以全部轉化為電腦可處理的數據。照片檔案、錄像檔案中的人名甚至一些地名,也能被人臉識別技術等“破譯”出來,從而成為電腦可處理的數據。通過這些識別和轉化,檔案中可被電腦處理的數據十倍、百倍地增加了,它可發揮的作用,也十倍、百倍地增強了。原來一件檔案只有幾個主題詞可以被檢索,現在一件檔案中的每一個實詞都可以被搜索。作為生產要素的檔案數據,比以前大大地增加了;檔案中可利用的資源,也比以前大大地增加了。這就讓檔案的價值和作用,呈現出幾何級數的增長,甚至指數級的增長。

4 怎樣建設智慧檔案館室?

建設智慧檔案館室,有兩項重要工作必須做:

第一項工作,把檔案全部數據化。也就是把電腦不能識別處理的檔案,識別轉化成電腦可以識別處理的數據,從而最大限度地發揮檔案的價值和作用,把檔案中的“死”信息挖掘出來,讓它活起來、亮起來;把檔案里的“死”資源釋放出來,讓它生動起來、活躍起來,把檔案由死的、半死的變成活的、躍動的,用人工智能技術為檔案賦能、加分、增值、添彩。

可用以下幾種辦法識別轉換:第一種,把印刷的文字或書寫工整規則的文字,用通用的OCR技術轉換成電腦可處理的數據,其準確率可達99%左右。第二種,把手寫的文字,用特殊的手寫字識別轉換軟件,轉換成電腦可處理的數據,準確率可達80%—95%;或者用聲音轉換技術,由人來讀檔案,并用聲音轉換軟件,把聲音轉化成電腦可處理的數據;實在不行,則用手工錄入的方法進行計算機錄入。手寫字檔案在掃描后可以形成兩種成果,一種是檔案的電子掃描版圖像,它跟檔案原件是一模一樣的;另一種是電子掃描版上每一個字的識別轉化版,也可稱為文字釋讀版,是電腦可處理的數據。它既可以導入數據庫,成為數據庫的一部分,供電腦進行大數據的挖掘、分析、處理、推送,也可以與電子掃描版放在一起,以“左圖右文”的形式供利用者直接利用。

對錄音檔案,可用聲音轉換文字的設備或軟件,把聲音轉化成電腦可處理的數據。

對照片和錄像檔案,可用人臉識別技術,把畫面上的人名、地名等識別標示出來,變成電腦可處理的數據。

以上這些檔案的識別轉化,己開放和非涉密的,可委托專業公司去做;未開放和涉密的,可以自己來做。在順序把握上,可以先識別已開放檔案中利用率高的和涉及民生的。未開放的,暫時不用識別,等鑒定開放后再識別。

特別需要指出的是:紙質檔案的數據化,既可用紙質檔案,也可用紙質檔案的數字化圖像,而且成本都是一樣的,還都比過去的數字化成本低,速度也更快。這是過去沒有想到的。

第二項工作,應用數據挖掘技術,對現有數據進行挖掘和推送。由于絕大多數檔案館室現在都有一部分電子數據,包括新生成的電子檔案、非電子檔案的目錄和著錄信息等,所以,可從建設智慧檔案館室伊始,就應用數據挖掘技術,對現有數據庫進行挖掘和關聯性推送。這需要同數據挖掘公司或專家合作,研發出相應的軟件和設備來。這樣做時,檔案人的主要任務就是提需求。需求提得越全面、越細致,將來系統就越好。

除以上兩項,當然還有一些其他工作。但這兩項做到了,智慧檔案館室的基本條件、主要功能就具備了,就可以稱之為智慧檔案館室了。這兩項工作是最有意義的,是最應該優先安排的。其他工作都沒有這兩項工作重要,意義都不太大,可以緩做,有些甚至可以不用做,比如對檔案的自動監控,對檔案的數字化掃描,對檔案的著錄等,因為這些是在智慧檔案館室建設中意義不大的事。

檔案部門中有些工作的意義和必要性并不大,做了對工作并不會產生質的提升。例如,20世紀80年代,我在國家檔案局檔案館室業務指導司工作時,一次到一個省級檔案館調研,看到他們的員工正在忙著調庫,按照新的黨群口、經濟口、教科文衛口等全宗群劃分,把同一個庫房中不屬于一個全宗群的檔案,移到另一個庫房去,讓每個庫房的檔案都是同一全宗群或相鄰全宗的檔案。當時我就覺得,這是一種勞民費時的做法,沒什么必要性。因為即使通過手工的檔案存放位置圖,也可以輕松地調出檔案,而不用花這么大力氣,去干這種勞師動眾、勞而無功的事。又有一次我到一個地級市檔案館調研,他們很高興地讓我看他們的一項全市推廣的新工作:案卷封面鉛字化。過去的案卷封面上,標題、保管期限等,都是手寫的,他們認為不夠美觀,于是重新換上新的卷皮,卷皮上的字,全部用鉛字手工排好,再印上去,目的是讓檔案和庫房看上去更美觀。我看了好幾個館,每個館都在換卷皮、印鉛字,每個館都買了幾版鉛字,像印刷廠一樣,檔案人員在揀字、排字、印字。他們希望通過我向全國宣傳推廣他們的做法,但我說,這樣做,卷皮上一個新的信息也沒有增加,檔案并不能因此而查得更準、調得更快,檔案工作不會得到任何實質性的提高,除了好看以外,沒有任何實際意義。所以,從那時起,我就知道我們檔案界,有些人喜歡“翻燒餅”,做勞而無功的事,就像希臘神話中的西西弗斯一樣,把石頭推上山頂掉下來,再重復往上推,雖然費了很大勁,但卻徒勞無益。因此,我要提醒檔案人:要善于做最關鍵、最重要的事;不要在無用之功上下力氣,不要做勞而無功、事倍功半的事;不要熱衷于搞形式主義、做表面文章。

當前,在建設智慧檔案的內外條件都已具備的情況下,不建智慧檔案館室而干其他事,就是在干非必要、非緊迫的事,就是在干事倍功半的事。因為建設智慧檔案是唯一的強檔之路,它能讓檔案工作和檔案人員的地位得到躍升和猛進,我們何樂而不為呢?

91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合