?

人工智能技術在錄音錄像檔案管理中的可用性

2022-05-27 05:12劉濤
檔案管理 2022年3期
關鍵詞:檔案利用人工智能

劉濤

摘? 要:數字時代帶來了電子檔案的海量增長,而錄音錄像檔案成為電子檔案中占比例最大的部分。傳統的人工操作方式,已經不能實現對大量錄音錄像檔案進行精確編錄的工作,錄音錄像檔案標準著錄信息的有限性也不能滿足檔案管理與利用的需要。利用人工智能平臺下的語音識別和視頻內容分析技術,可以高效、準確地完成這一任務,給檔案管理利用工作帶來技術創新。

關鍵詞:人工智能;錄音錄像檔案;檔案利用;視頻內容分析

Abstract: The digital age has brought about the massive growth of electronic archives, and the audio and video archives have become the largest proportion of electronic archives. The traditional manual operation mode can not accurately catalogue a large number of audio and video archives, and the limitation of standard description information of audio and video archives can not meet the needs of archives management and utilization. Using speech recognition and video content analysis technology under artificial intelligence platform can accomplish this task efficiently and accurately, and bring technical innovation to archives management and utilization.

Keywords: Artificial intelligence; Audio and video archives; Archives utilization; Video content analysis

1 錄音錄像檔案增長與利用之間的矛盾

20世紀計算機時代的到來,檔案文件也從傳統紙質與實物為主,逐漸進化到電子檔案時代。技術進步不僅讓人們的生活質量得到大幅提高,也讓記錄儀、高清攝像頭、智能手機等各種視頻采集設備全面普及。錄音錄像檔案從傳統時代的只能利用錄音機、攝像機等專業設備錄制,變為點點鼠標或動動手指即可批量生成的內容,錄音錄像檔案在電子檔案中所占比例越來越大。隨著錄音錄像檔案逐年增多,開始出現檔案編目信息不能滿足檔案管理利用的問題。

2020年5月1日國家檔案局開始實施《錄音錄像檔案管理規范》,規范將錄音錄像文件基本著錄項設定為密級、載體編號、檔案門類代碼、題名、責任者、工作活動名稱、工作活動描述等16個基本著錄項。16項基本著錄大部分都是從檔案管理角度出發而設置,而真正能夠體現錄音錄像檔案的內容、展示檔案價值的著錄項,只有“工作活動名稱”“工作活動描述”兩項信息。在該標準后所附的《錄音錄像電子文件采集登記表》中,填寫這兩項內容的部分,樣表也只設計了2行字和6行字的著錄空間,理論上最多只能填寫不超過300字的內容。面對當前一個錄音錄像檔案動輒長達幾十分鐘,甚至數小時的情況,這寥寥可數的300字還要分成兩個部分描述,最多只能做到對錄音錄像的活動主題進行概要式說明,從而形成簡化后的著錄數據,根本無法實現對檔案豐富內容的全面表達或精準描述。在檔案利用實踐中,很多時候無法根據這些有限的著錄信息,找到錄音錄像檔案中的重要信息或片段,而通過人工全面觀看進行查找的效率又過于低下。對于需要對錄音錄像內容進行精準編錄的情景,“對音、視頻檔案的整理還停留在人工視聽階段,一邊看一邊聽一邊錄,比如各檔案館對采集的地方新聞聯播,就通過這種辦法進行條目著錄,不僅效率低、內容采集不全,還費時費力”。[2]

針對這一問題,檔案工作者從實踐出發,提出了不同的解決思路。在音視頻檔案保存與利用的分類編目研究方面,張美芳提出了以文件、片段、場景和鏡頭為單元進行著錄,更方便精準地利用信息的解決方案。[3]呂元智、谷俊認為視頻檔案資源內容揭示與描述等工作存在明顯的不足,妨礙了視頻檔案資源的有效利用,設計了三維細粒度視頻檔案資源描述框架,[4]來加強檔案資源描述。然而,面對錄音錄像檔案爆發式增長,不可能調用相應規模的海量人力資源來實現以文件、片段、場景和鏡頭為單元或三維細粒度詳細著錄。音視頻檔案著錄信息的有限性,與檔案內容的高效檢索利用之間,形成了無法避免的矛盾。

2 人工智能時代的音像內容分析技術

隨著大數據時代的來臨,深度學習技術開始興起:在海量數據的基礎上,利用人工神經網絡的自學習功能,自動對音視頻內容進行分析成為可能。2006年加拿大人辛頓發表了關于計算機深度學習第一篇論文,此后音視頻內容分析技術進入人工智能時代。截至2015年,在語音識別方面,利用設計的深度學習語音識別模型中英雙語錯誤率3.1%,已經超過正常人的識別能力(錯誤率5%),漢語測試中機器的識別錯誤率只有3.7%,而一個五人小組的集體識別錯誤率則為4%。[5]國內科大訊飛、百度、騰訊、搜狗等高科技公司更是在智能手機輸入法、微信等軟件中,嵌入了語音輸入功能,讓語音識別走進人們的生活。在語音識別過程中,用戶提供的大量語音信息成為人工智能識別訓練的大數據集,反過來提高了語音識別效果,讓人工智能語音識別更準確。在圖像識別方面,受益于云計算帶來的運算能力突破式進展,利用深度學習網絡模型,2015年人工智能支持下的自然圖像識別錯誤率可達3.6%,同樣勝過了人眼識別5%的錯誤率。

人工智能時代,利用一些圖像處理、模式識別或機器學習等領域的算法,來分析視頻序列中的信息,以達到理解視頻內容的目的,也有人稱為視頻內容分析。[6]通過對視頻進行語音識別,結合基于計算機圖像識別的視頻鏡頭分割技術,計算機已經能夠識別和理解一般場景下的自然語音和自然圖像,將視頻內容中的語音直接識別轉化為文字內容,視頻中的人物通過人臉識別技術直接生成基于人臉的視頻索引,在避免浪費大量人工進行音視頻內容分析的同時,還提高了內容的準確度?;谌斯ぶ悄芗夹g的語音識別和圖形學分析,為有限著錄信息與檔案豐富內容之間的矛盾提供了可行的解決方案。

3 人工智能技術在錄音錄像檔案處理中的應用

3.1 錄音檔案內容的文本化處理。利用人工智能平臺的語音識別技術,可以將現有的錄音檔案進行精確識別,讓整個錄音的內容一字不漏地變成易于檢索利用的文字形式。1個小時的錄音文件,如果用人工聽寫的話,大約需要3~5個小時才能完成,如果有嘈雜背景音影響的話,所花時間更多。而采用人工智能技術,可以直接根據語音頻率與噪音頻率的不同,通過技術手段將背景噪音去除,同樣的1小時音頻,計算機只需要5分鐘就能完成。與人每次只能識別一個文件不同,計算機可以同時對多個文件開展并行識別。計算機可以24小時不間斷地工作,更不會像人一樣因為勞累過度出現失誤。在識別速度、識別質量、準確度、工作穩定性等多個方面,人工智能技術都擁有遠超人類的優勢,能夠更快速地將音頻信息完整轉錄為文字。在改變傳統錄音檔案整理方式的同時,節省了大量的人力物力,同時還簡化了采集、處理等工作流程。

3.2 錄像檔案內容的智能化分析。傳統的錄像檔案整理,多采用內部人工分析,或者數據外包的形式,由人工進行內容識別、分析、理解、標示。在檔案標準著錄信息之外,最主要的工作內容就是將全部語音轉化為文字,并將個別重要視頻片段進行單元化分割保存。對于視頻內容中可能蘊含其他重要信息或關聯內容,無法通過人工進行全面處理。不同視頻檔案之間,即便有相關性,也會因為海量數據的存在,無法發現數據之間的聯系,形成檔案利用中的“孤島”。

利用人工智能平臺的識別技術,能夠以關鍵幀、鏡頭、片段、人物變化、視頻場景等多種標準,將視頻文件分割為不同單元,根據每個單元相應的語音信息和圖像信息進行全面著錄。在生成全面的識別數據之后,就可以實現對視頻的全內容檢索,不管是視頻中出現的一個人,一句話,一個場景事件,還是不同視頻中出現的相似內容,都可以利用關鍵字檢索全部內容,將這些關聯部分快速聚類發現,自動形成有意義的檔案單元,從而讓視頻檔案的檢索利用,從傳統基于視頻著錄項的有限檢索,轉變為全內容檢索利用。在對大量的視頻檔案進行了內容分析之后,還可以通過人工智能的自動化處理技術,對不同信息形式的檔案信息進行歸納分析,建立檔案內部的有機聯系,給利用者提供更加完善的檔案信息,從而減少“信息孤島”給檔案利用方面帶來的不利影響。[7]

3.3 對傳統檔案管理利用工作的創新。以人工智能為平臺的音視頻分析技術,在實現了音視頻檔案進行全內容分析編目之后,傳統的檔案編研利用工作也隨之改變?;谌谋緝热莸囊曨l檢索技術,可以快速地基于檢索詞,實現對視頻內容的搜索查找、聚類分析、關聯推薦,同時基于分析結果自動生成視頻摘要。

在視頻檔案利用中很重要的一個工作內容,就是利用原有視頻作為素材,創作新的視頻。傳統模式下,這一工作需要對視頻檔案素材進行全面觀看,然后挑選其中相關的主題內容,將視頻精確剪切成片段后,在電腦上用剪輯軟件加上合適的過渡效果后編輯合成。整個過程耗時過多,操作復雜,效率低下。以人工智能平臺為基礎的視頻分析管理系統,能夠直接解決這一問題。以阿里巴巴旗下的北斗星團隊在優酷網開展的工作為例:在對長視頻進行內容分析后,可以根據生成的數據自動衡量視頻內容質量,實現對視頻內容的智能化評估。然后根據用戶對內容的喜好度,用自動化生產的方式智能創作新的視頻,實現電視電影關鍵劇情的識別、抽取、解構、組合,最終以故事主線為核心,智能創作預告片。在檔案利用工作中,人工智能平臺對視頻檔案進行全內容分析后,系統就可以智能化地把完整視頻中不必要的情景切掉,或者根據設定的主題,將多個相關視頻中的對話、場景、片段進行自動拼接,快速高效地生成新的視頻,從而將人員從低效勞動中解放出來。

*本文系2021年度河南省檔案科技項目計劃“大數據背景下多源檔案資源整合研究”(項目編號:2021-R-23),信陽師范學院青年科研基金項目(2014-QN-008)階段性研究成果。

參考文獻:

[2]張海劍.人工智能賦能檔案事業創新成果與研究[C]//2019年海峽兩岸檔案暨縮微學術交流會論文集.2019:58-62.

[3]張美芳.面向音視頻檔案保存與利用的分類編目研究[J].檔案學通訊,2018(01):93-96.

[4]呂元智,谷俊.面向用戶需求的視頻檔案資源描述框架構建研究[J].檔案學研究,2021(06):91-99.

[5]周宣汝,趙麗亞,趙地,遲學斌.人工智能對科研信息化的推動作用[J].科研信息化技術與應用,2016,7(06):14-26.

[6]滿江月.“深度學習”開啟智能視頻分析技術的新篇章[J].中國公共安全,2015(14):86-89.

[7]李思藝.檔案數字化建設中“信息孤島”現象探究[J].辦公室業務,2014(12):46-47.

(作者單位:中南民族大學,信陽師范學院 來稿日期:2022-02-20)

猜你喜歡
檔案利用人工智能
我校新增“人工智能”本科專業
2019:人工智能
人工智能與就業
數讀人工智能
檔案信息資源開發利用形態的歷史演變
從檔案利用的主流方向談高職院校檔案服務理念
檔案利用活動中信息反饋機制構建探討
下一幕,人工智能!
下一幕,人工智能!
檔案利用工作中對信息倫理問題的思索
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合