?

論生成式人工智能檔案產品的真實性維護

2023-02-09 08:53尹良鑫
檔案與建設 2023年12期
關鍵詞:真實性語料庫人工智能

尹良鑫

(福建醫科大學附屬協和醫院,福建福州, 350001)

生成式人工智能具有強大的功能,不僅能夠提供信息內容服務,還可以作為“技術基座”,為金融、醫療、自動駕駛等多個領域賦能。[1]隨著生成式人工智能產業的持續升級,其在檔案領域也將大有可為,除了可以自動完成檔案分類、檔案審核開放、檔案智能搜索等工作外,還可以產出檔案摘要、檔案編研產品、檔案知識圖譜、檔案知識問答等多樣化檔案產品,能夠為檔案信息資源開發提供新的思路,甚至可能催生出智慧檔案開發新范式。然而,生成式人工智能的應用在給檔案信息資源開發帶來機遇的同時,也給檔案產品的真實性維護帶來了巨大挑戰。在生成式人工智能應用的各個環節中,如語言模型訓練環節、檔案語料庫建設環節、檔案產品生成環節、社會傳播環節等,檔案產品的真實性都可能會受到一定的損害。因此,如何應對和解決這一問題將成為檔案人需要重點考慮的問題。

我國部分檔案學者對生成式人工智能在檔案領域的應用問題已經展開了前瞻性研究,并產出了相應成果。如王冠、袁燁認為當下生成式人工智能應用于檔案開發利用時,在數據準備階段、內容生成階段和社會傳播階段均存在風險;[2]岳幸暉、楊智勇認為,人工智能在檔案管理中有廣闊的應用圖景,但也面臨著制度風險、技術風險、倫理風險、監管風險;[3]陳艷紅和李健研究了新一代人工智能生成內容檔案身份認定的嬗變與機遇、風險與困境、規制措施[4],將該主題的研究從技術應用層面引入更深層次的生成內容層面。綜合來看,相關學者對生成式人工智能在檔案領域的應用問題秉持著謹慎迎接的態度。生成式人工智能在檔案領域的應用是大勢所趨,不可否認的是,檔案人在積極擁抱生成式人工智能的同時,也應具備風險防范意識,特別是在研究范式轉向生成內容的背景下,更應高度重視檔案產品的真實性維護這一事關行業公信力和生命力的問題,通過開展前瞻性研究,探析和應對潛在應用風險,進而提出科學合理的風險防控和治理方案。

1 生成式人工智能檔案產品及其類型

2023年7月10日,國家網信辦、國家發展改革委、教育部等七部門聯合發布的《生成式人工智能服務管理暫行辦法》(以下簡稱《暫行辦法》)第二十二條明確了生成式人工智能技術的含義,即“具有文本、圖片、音頻、視頻等內容生成能力的模型及相關技術”[5]。在檔案信息資源的開發利用中,檔案工作人員和用戶利用生成式人工智能技術可以產出相應的文本、圖片、音頻、視頻等內容。從產品概念的廣義層面上講,具有一定使用價值、能夠滿足某種需求的生成內容即可構成檔案產品。因此,在生成式人工智能檔案產品的概念范疇中,生成式人工智能是手段,且是該概念形成的前置條件之一;而生成式人工智能檔案產品則是生成式人工智能應用的產物,屬于檔案產品的范疇。值得注意的是,《生成式人工智能服務管理辦法(征求意見稿)》(以下簡稱《征求意見稿》)第四條中出現了生成式人工智能產品的術語,并將其與生成式人工智能服務并列,雖然在正式施行的《暫行辦法》中未采用這一術語,但是能出現于《征求意見稿》中也在一定程度上顯示了其權威性和共識性。因此,生成式人工智能檔案產品的概念具有一定的合理性,也較易獲得廣泛認同。

生成式人工智能在檔案領域有著多元化的潛在應用場景,由此也將會形成多樣化的生成式人工智能檔案產品。按照內容加工程度可將其分為兩類:一類是淺加工生成式人工智能檔案產品,包括檔案分類方案、檔案開放方案、檔案智能搜索結果等;一類是深加工生成式人工智能檔案產品,包括檔案摘要、檔案編研產品、檔案知識圖譜、檔案知識問答等。

2 生成式人工智能檔案產品真實性維護的重要性

2.1 檔案產品的生命力所在

檔案信息資源開發,真實、準確是其生命,客觀、公正是其理想,失去了真實與準確的檔案信息資源開發是對歷史的犯罪。[6]真實性與準確性是檔案信息資源開發高質量發展的內生力所在,也是其開發成果——檔案產品,充分發揮其價值、更好地滿足工作要求和用戶需求的生命力所在。具體來看,由于淺加工生成式人工智能檔案產品主要應用于檔案分類、檔案開放、檔案搜索等工作領域,因此其真實性將會直接決定相應檔案工作結果的性質,如檔案分類、開放、搜索等結果是否合理;深加工生成式人工智能檔案產品則主要在知識性管理和服務等領域使用,其真實性會對產品價值及成效的大小產生決定性影響。一般而言,真實度越高的產品,其價值越高、發揮出的成效也會越大。

2.2 檔案部門重要的法定職責

《暫行辦法》第四條規定:“提供和使用生成式人工智能服務,應當遵守法律、行政法規,尊重社會公德和倫理道德”,其中,“提高生成內容的準確性和可靠性”[7]是其重要要求之一。檔案部門作為未來生成式人工智能檔案產品的提供者,應采取措施保障檔案產品的真實準確,這是其應承擔的重要法定職責;還應承擔相關產品生成內容生產者的責任,即對生成式人工智能檔案產品也應承擔相應的法律責任。此外,維護生成式人工智能檔案產品的真實性不僅是檔案部門履職盡責的重要內容之一,也是維護其社會公信力的重要手段。

2.3 檔案需求滿足的基本保障

當前,人民群眾的檔案需求已越來越呈現出多元化態勢,除工作需求、學習需求、生活需求之外,信息需求和文化需求越來越凸顯,如《“十四五”全國檔案事業發展規劃》即將“滿足人民群眾的檔案信息和檔案文化需求”[8]作為重要任務之一,而生成式人工智能檔案產品可以很好地滿足這兩類檔案需求。檔案信息和檔案文化需求得以滿足的關鍵在于檔案產品的內容應真實、準確和完整,唯有如此才能符合人民群眾對檔案信息的要求并為其帶來真實的檔案文化體驗。

3 生成式人工智能檔案產品真實性失范的風險源

3.1 語料庫的數據污染

海量數據和訓練是生成式人工智能的兩大核心競爭力,其中,海量訓練又是基于一個固定的數據庫展開的,數據庫中的數據容量越大訓練結果就越準確。同時,生成式人工智能投入應用后,訓練數據庫會轉換為語料庫,進而成為其內容生成的基本依據。生成式人工智能的語料庫是不斷擴容的,其主要來源包括網絡數據、用戶數據和生成內容。將生成式人工智能應用于檔案信息資源的開發,首要任務即是構建檔案語料庫,而在此過程中可能產生的數據污染,將給檔案產品的真實性維護帶來巨大挑戰。表現為:其一,原始檔案數據不真實。由于各種主客觀原因,內容失真檔案在各個歷史時期均有存在。而在信息時代,電子文件具有易變性、可操作性等特點,這給電子檔案的真實性鑒定和維護帶來了巨大挑戰。檔案語料庫的建設需要巨大體量檔案數據的支撐,在此背景下,大量內容失真的檔案數據可能會進入檔案語料庫,從而造成數據污染。其二,擴容網絡數據不真實。隨著社交媒體的廣泛應用,虛假信息、合成信息等大量充斥網絡,如果檔案語料庫面向互聯網開源,不實信息將會很快影響檔案語料庫,造成嚴重的數據污染。其三,用戶數據不真實。在已有生成式人工智能的應用中,用戶上傳數據的真實性尚無法得到有效維護。此外,用戶獲得的答案中也存在大量不實信息。因此,如果檔案部門對用戶信息和生成內容缺乏有效監管的話,這兩類數據被納入檔案語料庫后會進一步加劇數據污染。

3.2 生成機制的負向力

其一,生成式人工智能在內容生成方面采用的是關聯統計機制,如ChatGPT以“共生則關聯”為標準,“通過所挖掘的單詞之間的關聯統計關系合成語言答案”[9]。利用生成式人工智能,檔案部門可深入挖掘海量檔案數據中字與字、句子與句子以及圖片、視頻等信息之間的關聯性,從而產出細粒度的檔案產品,并可通過機器智能的方式呈現出來。這不僅有助于擴展檔案數據挖掘的深度和廣度,還可以極大限度地提升檔案產品的智慧含量。但與此同時,關聯統計機制的運行也會使生成式人工智能由于無效關聯、虛假關聯等原因產出大量由不存在、不真實或東拼西湊的信息合成的內容,而其本身卻無法明確判斷出生成內容的可信度,如此一來,生成式人工智能檔案產品的真實性則無法得到保證。其二,人類反饋強化學習是生成式人工智能的底層技術之一,其可通過接受用戶的反饋和批評不斷優化和完善,以保證生成內容的正確性和權威性。但是,人類反饋強化學習的效果與工作人員和用戶的素養、品行等直接相關。對于檔案信息資源的開發而言,一方面,檔案工作人員的專業素養、信息素養等將會對檔案語料的鑒定和標注質量產生重要影響,進而會影響到檔案產品的質量;另一方面,用戶設置的生成條件會對檔案產品的真實性產生直接影響。因此,如果檔案工作人員對檔案數據的真實性鑒定不到位或元數據信息標注錯誤、用戶設置了迷惑性較強甚至是欺詐性的生成條件等,均會導致生成式人工智能產出內容失真的檔案產品。

3.3 社會傳播的不可控

生成式人工智能的一大特點是高并發性,可以同時處理多個用戶的生成條件,并產出相應內容。同時,其生成的內容又可借助社交媒體廣泛傳播出去。檔案部門應用生成式人工智能開發檔案信息資源,不僅能夠充分利用其高并發性特點提升服務效率,產出更多檔案產品,而且可以直接借助生成式人工智能的插件化優勢,使檔案產品能夠快速、廣泛地傳播出去。但與此同時,社會傳播過程和結果往往是不可控的,尤其是對于惡意傳播虛假信息甚至詐騙信息等行為的監管難度非常大,譬如不法分子可能會利用真實的檔案語料作為制造假文件、公文等的訓練范本,進而產出大量的假政策文件、政府公文等,借此實施大規模詐騙。此外,生成式人工智能雖然在生成文本時會考慮上下文語境,并根據訓練數據和算法生成合理的回答,但是在社會傳播過程中,如果部分網友對相關情況了解不夠全面或者有意肢解文意,也會造成傳播的失真。而在檔案信息資源的開發利用中由此造成的后果可能會更加嚴重,因為在基于檔案真實性而構建起來的公信力和相應的價值觀業已被社會公眾廣泛認同和接受的背景下,檔案產品在傳播過程中的失真可能會引發漣漪效應甚至發展為網絡輿情。

4 生成式人工智能檔案產品真實性維護的著力點

4.1 堅持謹慎性原則

謹慎性原則主要是用于處理“可能發生”的事項,要求相關人員在有不確定性因素的情況下做出決策時應充分評估風險,保持必要的謹慎,這樣不僅可以保證決策的有用性,還能夠起到預警風險和化解風險的作用。謹慎性原則對生成式人工智能應用于檔案信息資源開發具有重要的啟示意義。當前,信息隱私與安全風險、技術倫理風險、社會傳播風險等諸多潛在風險普遍存在,一方面,檔案部門應持續跟蹤生成式人工智能的進展情況,尤其是應重點關注相關國產產品的研發和插件化應用情況;同時還應綜合考慮生成式人工智能商業化發展的程度及其監管、倫理等因素,待其發展成熟時再考慮大規模應用。另一方面,檔案學術共同體也應依據謹慎性原則對生成式人工智能應用的潛在風險及其治理、成本與效益等問題展開前瞻性研究,為檔案部門的應用決策提供依據和支持。

4.2 建設純凈語料庫

其一,檔案部門應自主建立檔案語料庫用于生成式人工智能的模型訓練和內容生成,不僅須確保上傳的檔案數據是可以開放利用的,而且應盡可能剔除內容失真的檔案數據。從所需的數據體量來看,檔案語料庫的建設需要集全國公共檔案館之力方可達到要求。其二,檔案部門在建設檔案語料庫的過程中可實行分級管理,并通過建立主副語料庫來實現純凈語料庫的建設。其中,主語料庫應是由檔案部門自主上傳的檔案內容數據、檔案實體數據、檔案環境數據、其他數據等構成。副語料庫由網絡數據、用戶數據和生成內容構成,其中,網絡數據應采取定向采集的方式獲取,如網絡瀏覽插件的檢索條件設置中只添加立檔單位的官方網站、官方微信公眾號等網址;用戶上傳的數據和生成內容應在通過人工智能內容監測系統的鑒別處置之后方可進入檔案語料庫。在內容生成的條件設置中,應優先調用主語料庫中的檔案數據;同時,對于在生成式人工智能運行中發現或用戶舉報的不實信息,應采取內容過濾措施及時清理出副數據庫。

4.3 強化專業性訓練

其一,在檔案語料庫中進行訓練?!霸S多高價值、特定領域的工作流程依賴于豐富的、專有的數據集。這些工作流程的最佳人工智能解決方案將需要在這些數據上進行訓練?!保?0]基于此,要想在檔案信息資源的開發中應用生成式人工智能,并產出符合專業性要求和用戶需求的檔案產品,就必須要在檔案語料庫中進行海量的模型訓練。具體來看,檔案部門在模型訓練時應選擇真實、可靠的檔案數據作為訓練對象,摒棄不實數據;應實施預處理機制,將帶有種族、民族、宗教信仰、國別、地域、性別、年齡、職業等歧視性數據進行篩除和處理;還應加強對預訓練數據和優化訓練數據來源的合法性和真實性的監管。其二,提升檔案專業性知識含量。首先,檔案部門應深度參與備選生成式人工智能產品的研制和數據庫建設工作,在數據集的標注中盡量采用人工標注。此外,關于標注,不僅應在《檔案著錄規則》《錄音錄像類電子檔案元數據方案》等國家標準的基礎上制定符合生成式人工智能應用要求的標注規則,還應對擬參加標注工作的人員進行必要的專業培訓和技術培訓。其次,在模型訓練過程中,檔案部門應對標注內容展開抽樣核驗,以進一步保證訓練數據的真實、準確;還應根據訓練反饋不斷改進和完善程序與算法,以使其產出的檔案產品符合專業性要求。最后,檔案部門應重視用戶在生成式人工智能產品測試過程中反饋的意見,以進一步優化性能并提升檔案產品的真實性和準確性。

4.4 加強用戶的管控

用戶在生成式人工智能檔案產品的生成和傳播中將發揮重要作用,檔案部門應按照相應法律法規加強對用戶的管控。其一,根據《暫行辦法》,檔案部門有權要求用戶提供真實身份信息,此舉可有效保障用戶上傳數據的真實性,且有助于對用戶開展進一步監管。其二,檔案部門應秉持科技向善的理念對用戶展開引導,并通過編制電子培訓手冊、及時接收反饋信息等方式,指導用戶對生成式人工智能檔案產品形成科學認知并理性使用和傳播,減少乃至避免包含不實信息的檔案知識圖譜、檔案知識問答等生產和傳播。其三,檔案部門發現用戶有生成和傳播虛假檔案產品甚至違法行為時,有權暫?;蚪K止向其提供生成式人工智能檔案產品。其四,檔案部門應通過各類獎勵措施鼓勵用戶舉報違規使用和傳播的行為,并應在一定期限內通過模型優化訓練的方式,防止違規行為的發生。

5 結 語

當前生成式人工智能產品的插件化發展速度越來越快,部分國內的相關產品業已實現了插件化應用,也為其在檔案領域的應用提供了現實可能。生成式人工智能檔案產品是將生成式人工智能技術應用于檔案信息資源開發工作的產物,其真實性維護的前瞻性研究至關重要且日益緊迫??梢灶A見,作為催生新一輪科技革命的關鍵力量,生成式人工智能在檔案信息資源的管理和開發中擁有廣闊的應用前景,將會進一步推進智慧檔案管理的發展、極大提升檔案產品的智慧含量。但同時,其在應用過程中可能會產生的各種潛在風險也需要引起檔案人的警惕。

猜你喜歡
真實性語料庫人工智能
《語料庫翻譯文體學》評介
2019:人工智能
人工智能與就業
廣告的真實性
數讀人工智能
下一幕,人工智能!
基于JAVAEE的維吾爾中介語語料庫開發與實現
從懸疑報道談新聞的真實性
堅持新聞的真實性
語料庫語言學未來發展趨勢
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合