?

ChatGPT 類AI-GPT 技術應用對圖書館信息處理的變革探析

2024-04-14 01:18王靜靜葉鷹王婉茹山東大學新聞傳播學院復旦大學國家智能評價與治理實驗基地南京大學江蘇省國際聯合信息學實驗室浙江財經大學信息管理與人工智能學院
圖書館理論與實踐 2024年1期
關鍵詞:標引信息處理檢索

王靜靜,葉鷹,王婉茹 (. 山東大學新聞傳播學院;2. 復旦大學國家智能評價與治理實驗基地;3. 南京大學江蘇省國際聯合信息學實驗室;4. 浙江財經大學信息管理與人工智能學院)

2020 年底,采用強化學習神經網絡的AlphaFold 在預測蛋白質結構中展現出人工智能(AI)強大的科學應用功能。2022 年11 月30 日橫空出世的ChatGPT 更是標志著一個全新AI—GPT時代的到來,成為AI 2.0 時代的標志[1],隨即帶來巨大的社會影響和經濟價值,促進著產業與學術的雙重變革和發展?!犊茖W》 雜志公布的2022 年度十大科學突破將生成式人工智能(AIGC,AI—GPT) 作為AI 的重要突破,AI 應用深入到以往被認為只有人類才能涉及的領域,如科學發現與藝術創作[2]。隨著AI 技術的快速發展,大語言模型應用如ChatGPT 等很快成為研究熱點。作為一種基于自然語言處理(Natural Language Processing,NLP)的AI 模型,ChatGPT類技術應用有潛力為圖書館的信息處理帶來革命性的變革[3]。有鑒于此,本文在闡述ChatGPT 類AI—GPT 技術應用研究現狀的基礎上,探析Chat-GPT 類AI—GPT 技術在圖書館信息處理應用的重點,并探討圖書館信息處理的可能創新路徑,以期促進智慧圖書館建設和圖書情報工作創新發展。

1 ChatGPT 類AI—GPT 技術應用綜述

ChatGPT 是OpenAI 基于GPT(Generative Pre-training Transformer) 的一種人工智能模型。它利用深度學習方法,通過大量數據的預訓練,具備了理解和生成人類語言的能力[4]。除OpenAI公司2023 年3 月14 日推出基于GPT-4 的CharGPT Plus 外,國外的谷歌、Meta、微軟、Anthropic 等公司,以及國內的百度、華為、騰訊、科大訊飛、清華大學等機構,都集中資源推進AI 技術的研究和應用落地。其中,Anthropic 公司開發的被稱為ChatGPT 最強競品的Claude 于2023 年7 月完成了版本升級,即Claude2,其在文本分析、代碼編寫、數學推理等方面具有強大的功能。國內外多機構對AI 技術頻繁、快速的更迭,體現AI 技術發展進入空前激烈狀態,ChatGPT 類AI-GPT技術在各行各業中的應用及落地也逐漸受到廣泛關注。

AI-GPT 技術應用發展日新月異,幾個重要里程碑事件堪稱ChatGPT 的“史詩級進化”:2023 年3 月,ChatGPT 可與5,000 多個應用交互并能聯網獲取新知識;2023 年5 月,微軟操作系統全面接入GPT—4,ChatGPT 重塑Windows;2023 年7 月,OpenAI 向所有Plus 用戶開放代碼解析器,GPT—4 API 也全面開放使用。

ChatGPT 類AI-GPT 技術應用之所以能受到業界、學術界廣泛關注并取得較大發展前景,得益于算法、算力和數據的大幅提升。算法實現過程主要分為三步:一是借助標記數據集對預訓練模型進行有監督微調;二是收集數據并訓練獎勵模型;三是利用強化學習進行近端策略優化,在進一步微調的基礎上進行更新迭代,從而使結果更符合實際情況。在算力層面,如GPT—3.5 在微軟Azure AI 超算基礎設施上進行訓練,總算力消耗約3640PF-days(每秒一千萬億次計算,可運行3,640 天)。在數據層面,OpenAI 公司自2018年開發出擁有1.17 億參數的GPT—1(Generative Pre-training Transformers) 模型后,又于2019 年發布了最大參數為15 億的GPT—2,于2020 年發布了最大參數為1,750 億的GPT—3,雖然2023 年發布的GPT—4 未公布其數據量,但是據相關報道參數量估計達GPT—3 的6 倍[5],即最大參數約為10,000 億。除性能參數和預訓練數據容量有了極大的提高外,訓練數據也呈現多樣性趨勢,包含社交媒體數據、維基百科數據、書刊報紙數據、公共爬蟲數據等。算法、算力、數據的提升使得ChatGPT 類AI—GPT 技術輸出的答案呈現針對性更強、準確率更高的特征趨勢[6]。

ChatGPT 類AI—GPT 技術提供高質量的內容生成和強大的交互性功能,使其應用領域廣泛,目前研究主要集中在教育、游戲、廣告、媒介等領域[7]。在教育領域,ChatGPT 類AI—GPT 技術對于教師來說已經開始從課程材料準備到課程評價產生全系列的影響[8],而ChatGPT 類AI—GPT技術的參與又影響學生的學習方式。對于教師來說,ChatGPT 類AI—GPT 技術可協助教師準備上課課件,生成符合學生學習水平的教學內容;此外還可根據學生的學習水平自動出題并改題、根據學生學習特點提供個性化的學習內容和反饋,減輕教師重復工作,使教師抽出更多的時間關注學生全面發展。對于學生來說,ChatGPT類AI—GPT 技術可進行作業輔導,這種互動式學習能夠實現更好的學習效果,激發學生學習熱情??傮w來說,ChatGPT 類AI—GPT 技術將在一定程度上顛覆教育領域,但同樣面臨一定的挑戰,如作業及考試作弊、創新思維缺乏等。在游戲領域,個性化內容能夠產生最佳體驗,而這正是ChatGPT 類AI—GPT 技術所擅長的,不僅允許用戶自定義其化身,還能提供多樣化的場景和故事情節[9-10]。通過游戲用戶畫像分析用戶興趣,然后采用自然語言處理技術、情感計算系統和多輪對話系統提供最具個性化的游戲服務,并可在元宇宙中構建沉浸式的虛擬場景[11],實現沉浸式游戲體驗的效果。ChatGPT 類AI—GPT 技術在廣告和媒體領域所扮演的角色越來越重要,借助多模態信息處理能力,在多輪對話系統輔助下按照用戶需求生成廣告logo、海報等[12]。此外,ChatGPT 類AI-GPT 技術可以輔助新聞工作人員進行新聞內容寫作,節省廣告商和新聞工作人員時間和資源的同時創建高度個性化內容,促進媒體的多樣性,為受眾帶來更好的體驗,改變廣告和媒體服務模式。

圖書館作為保存人類記憶并提供知識加工服務的重要場所同樣會受到ChatGPT 類AI—GPT 技術的深刻影響,作為提供公共文化服務的主要機構,圖書館向社會各界提供知識服務,故對圖書館工作人員的信息處理能力提出了較高的要求,這就要求圖書館工作人員具備較高的專業素養和知識水平,從而更好地為各類用戶服務,解決用戶實際需求。OpenAI 公司的核心宗旨是“實現安全的通用人工智能,使其有益于人類”[13]。在面對ChatGPT 類AI—GPT 技術時,圖書館這一致力于關注技術發展的公益服務機構也一直持積極探索的態度,且已有研究開始關注ChatGPT 類AI—GPT 技術在圖書館領域的應用,重點分析應用原理、場景以及知識服務模式等。圖書館在信息處理方面應持積極主動的接納態度,面向新技術革命浪潮奮進。

2 ChatGPT 類AI—GPT 技術的圖書館信息處理應用重點

2.1 文獻分類與標引

ChatGPT 類AI—GPT 技術可以根據文本內容自動進行文獻分類,如ChatGPT 通過統計分析、語義分析等方法,快速理解文獻的語義內容,提取關鍵詞、實體等信息。然后綜合主題詞、背景知識等信息,根據圖書館已有的分類體系,構建文獻的分類依據,分析不同主題詞和概念之間的關聯,從而識別文獻的學科交叉屬性。ChatGPT類AI—GPT 技術的泛化能力,可在使用人工標注的訓練數據的基礎上,針對圖書館分類體系訓練文獻分類模型,做到對新傳入文獻的自動化分類,這種自動化文獻分類方式,可以顯著提升圖書館文獻分類的效率,節省大量重復勞動。同時,分類質量也可以得到提升,但目前仍需人機協作,發揮各自優勢。

ChatGPT 類AI—GPT 技術實現標引能力提升主要依靠自動標引、多語言標引以及候選詞標引等功能。自動標引的過程主要包含:通過語義分析等自然語言處理技術快速理解文獻的語義內容;然后從文獻中提取標題、作者等基本元數據和代表主題的關鍵詞;接著依據圖書館標引規范,構建自動標引內容的評價系統;使用人工標引數據訓練標引生成模型;對傳入的新文獻使用訓練好的模型自動生成標引內容;最后根據評價系統不斷進行優化,從而達到ChatGPT 類AI—GPT 技術生成的標引可輔助和補充人工編目的目的。多語言標引同樣需要先對文獻進行語義內容的理解;然后按照一定規范對源語言文獻生成標引內容;接著將源語言的標引內容翻譯成目標語言;因目前機器翻譯仍存在一定的不足,故需人工編目員對機器翻譯結果進行審核、修正等操作,人工修正有助于增量訓練翻譯模型;在收集用戶反饋的基礎上進行翻譯優化;在人工審核和用戶反饋雙重保證下形成多語言標引庫,從而達到使用多種語言進行統一檢索的目的。候選詞的標引則需將單個詞條組合生成候選的標引組合,同樣在人工輔助標引和評價系統雙重保證下生成候選詞標引,達到不斷充實候選標引庫的目的。不論是自動標引、多語言標引還是候選詞標引,都可減輕編目員的重復勞動,提升標引效率和質量,使更多文獻能夠被規范化組織和檢索。

2.2 精準檢索

目前,圖書館檢索系統主要基于目錄檢索系統或數據庫系統,以關鍵詞或主題的方式進行檢索,此類檢索方式使用門檻較高、檢索思維受限、語言單一。圖書館這種知識服務機構所面臨的用戶形形色色,對普通用戶來說,此類檢索方式存在效果、體驗差的問題。ChatGPT 類AI—GPT 技術可實現與搜索引擎相結合進行檢索的功能,ChatGPT 類AI—GPT 技術可以深度理解用戶的查詢意圖,幫助搜索引擎找回更全面的相關結果,減少遺漏。

圖書館這一類知識服務機構,會面對來自不同國家、使用不同語言的用戶,跨語種翻譯在一定程度上會影響用戶檢索信息的質量。ChatGPT類AI—GPT 技術依托機器翻譯,支持多語言場景的互操作檢索,該類AI 技術的發展可以在生成對話、傳輸信息時,更好地理解用戶的語言表達邏輯,在一定程度上能夠消除語言障礙,這大大拓寬了圖書館服務的覆蓋面,提高不同語種用戶獲取服務的便捷性,打破語言之間的壁壘,從而提升圖書館的檢索服務質量。

ChatGPT 類AI—GPT 技術能夠理解復雜的自然語言查詢,提供更精確的文獻檢索服務,從而提升用戶的檢索體驗。ChatGPT 類AI—GPT 技術還可進行知識圖譜構建,通過分析用戶的語言表達、關聯詞匯等建立概念網絡,從而更深入地理解用戶的真實檢索意圖,突破單純文字匹配的局限性。

傳統圖書館信息檢索多以輸入文本的方式進行,此類檢索方式存在準確率、查全率較低的問題。而ChatGPT 類AI—GPT 技術的一個明確發展方向是多模態,多模態技術可實現圖書館信息檢索多源異構數據的輸入,如輸入圖書的圖片、視頻、簡介等信息,從而促進輸入信息在不同維度、不同來源、不同層次的聚合,在細化輸入信息的基礎上提高檢索準確率和全面性。此外,多模態信息的輸入為弱勢群體用戶提供了輔助檢索方式,為消除數字鴻溝奠定基礎。

2.3 智能問答與咨詢服務

ChatGPT 類AI—GPT 技術應用在圖書館的智能問答與咨詢服務中,可以為用戶提供實時、精準的信息服務。相比于人工服務,ChatGPT 類AI—GPT 技術可提供晝夜不間斷的服務,突破人工服務時間的限制,用戶可隨時提問,提高了服務的可及性。

ChatGPT 類AI—GPT 技術在支持上下文理解方面有了較大的提升,如ChatGPT 可以對整個對話過程的數據進行記憶,從多輪對話中增強學習性,更好地了解用戶特征和需求,從而在不同情境下實現對咨詢的個性化服務。隨著版本升級,ChatGPT 類AI—GPT 技術在支持長上下文理解中有了質的飛躍。Claude 上下文窗口從9k token 擴展到100k token,Claude2 更是將上下文窗口擴展到200k token,即支持大約150000 個單詞,這意味著一般人用時大約10 小時讀完的等量內容,Claude2 可在1 分鐘內消化吸收。借助上下文理解以及較大窗口的上下文支持,可提高圖書館咨詢服務的效率,節約用戶時間,增強圖書館的公眾信任性。

相對于傳統圖書館咨詢服務一般僅可回答書目簡介等信息而言,ChatGPT 類AI—GPT 技術的訓練數據則包含文本、圖片、視頻和表格等形式各異、來源不同的數據,可以借助訓練數據,可對用戶關注的書目劇情、人物關系等細節進行精準化服務,且能根據讀者偏好和閱讀習慣優化回答質量。ChatGPT 類AI—GPT 技術借助用戶基本信息、借閱歷史、搜索詞等信息和行為模式可構建用戶圖譜和情景圖譜,用戶圖譜和情景圖譜有利于分析不同情景下用戶的信息需求和行為模式,更好地幫助AI 理解用戶的情景并給出符合語境的回復。相比單一規則或者簡單匹配,這種基于圖譜的深度理解可大大提升智能問答和咨詢服務的質量和滿意度,這也是提升用戶體驗和服務效率的關鍵。

ChatGPT 類AI—GPT 技術具有較強的泛化能力,可以快速從大量圖書館相關數據中學習,持續積累知識,從而不斷優化并提高回答的質量,能對提問作出及時響應,并根據用戶輸入自適應響應時間,從而實現精度和速度的雙重增益?;趶姶蟮恼Z義理解能力,ChatGPT 類AI—GPT 技術可以推斷并回答一些不明確的問題,在一定程度上突破關鍵詞匹配的局限,提升咨詢效率。

3 圖書館信息處理的可能創新路徑

3.1 智慧圖書館知識庫建設

圖書館作為人類知識的殿堂,蘊含豐富的館藏資源,隨著對這些館藏實體資源(如藏書)進行數字化建設,數字圖書館的發展也在日趨成熟。在當前智慧圖書館發展與建設背景下,除數字圖書館關注的實體資源與數字化實體資源之外,原生數字資源和創新型數字資源為智慧圖書館內容建設增加了智識特征[14]。ChatGPT 類AI—GPT 技術的發展有望為智慧圖書館中多源、多模態、多語言的資源內容建設與信息處理提供強力技術支撐。

館藏實體資源經數字化、結構化轉換與知識組織等過程,能夠形成優質可信的基礎知識庫[15]。如前文所述,利用ChatGPT 類AI—GPT技術能夠進行文獻自動分類與標引。在此基礎上,進一步完善信息資源分類與標注體系,利用ChatGPT 類AI—GPT 技術及其核心的大語言模型強大的語言理解、復雜推理、并行計算、自主學習與知識獲取等能力,將數字化實體資源與原生數字資源(如電子期刊)、創新型數字資源(如研究成果與社交媒體中可檢索的數據)[16]進行分類、標引、互聯共融,使得不同載體的資源之間產生信息流通與知識流動,共建智慧圖書館知識庫,助力“全球知識庫”(Global Knowledge Commons)[17]建設。

3.2 圖書館用戶信息集成處理

讀者作為圖書館的用戶,是圖書館提供知識和服務的直接對象。用戶信息包括個人基本信息、瀏覽借閱信息、咨詢記錄等常規化信息。在智慧圖書館建設愿景中,用戶不僅僅是圖書館的服務對象,還有望成為圖書館的貢獻者,用戶與用戶之間可進行互動與分享,且用戶可自主參與到圖書館建設中。因此,除常規化用戶信息,用戶個人偏好信息、用戶館內社交數據、用戶館內動態以及用戶館際交互產生的各類數據信息,其規模都會大幅增加。利用ChatGPT 類AI—GPT 技術,可將各類圖書館用戶信息集成,構建全方位的用戶畫像和多樣化的情景圖譜。

在此基礎之上,根據圖書館用戶歷史和當前行為分析,針對不同用戶群體和不同服務場景,可提供個性化的檢索服務、智能問答與咨詢服務。對于檢索目標明確、問題清晰的用戶或場景,自動篩選或匹配用戶所預期的智能生成內容;對于目標不明確、表達模糊的用戶或探索嘗試性的場景,嵌入模糊計算、決策理論和優化算法[18],進一步提高信息處理和智能生成內容的精準度,使服務效率盡可能滿足用戶預期。此外,由于ChatGPT 類AI—GPT 技術應用會將用戶輸入的文本作為訓練數據,因此在圖書館用戶信息處理過程中,用戶隱私保護與信息泄露問題尤其值得關注。

3.3 圖書館數智化服務開放平臺搭建

在當前開放、共享的理念下,國內圖書館的服務平臺急需進一步拓展服務應用場景,打造中國化和本土化的數智化服務開放平臺。當前,由國內社區自主研發的“云瀚”平臺[19]融合了智慧服務,形成了開放的應用生態,已成為下一代圖書館服務中文平臺的代表,上海圖書館已經成功實施了部分模塊。在前述智慧圖書館知識庫建設與圖書館用戶信息集成處理的基礎上,ChatGPT 類AI—GPT 技術應用有望進一步為圖書館數智化服務開放平臺的搭建提供豐富的支持模塊、整合多模態生成內容、拓展智慧服務場景,使用戶成為平臺的主人并深度參與其中,獲得更深層次的體驗與服務。在平臺構建的基礎上,進一步開發滿足圖書館運行和用戶需求的各類移動端應用,以期為用戶提供更方便快捷的服務。

此外,在當前元宇宙熱潮下,融合ChatGPT 類AI—GPT 技術,打造虛實交互的數智化服務場景,即元宇宙圖書館,用戶可以在元宇宙圖書館社區中,沉浸式暢游、交互式閱覽。融合當前人工智能、虛實交互等各類新技術,可以搭建圖書館數智化服務開放平臺,將有望助力中國圖書館向智慧化轉型,真正建成“全國智慧圖書館體系”[20]。

4 小結

圖書館信息處理服務正處于技術變革時代,ChatGPT 類AI—GPT 技術應用作為驅動圖書館信息處理的關鍵技術之一,提供了前所未有的內容生產能力,有助于實現更智能化和個性化的服務。具體來說,ChatGPT 類AI—GPT 技術應用通過自動標引、多語言標引、候選詞標引等方式強化文獻的分類與標引功能,減少圖書館工作人員的重復性勞動,提高工作效率和質量。ChatGPT 類AI—GPT 技術應用在與搜索引擎結合、多模態處理、多語言翻譯的基礎上,打破圖書館信息處理的語言壁壘,實現不同語言場景的融合,并能有效解決由于輸入數據維度、來源、層次不同而導致的檢索不精準問題。智能問答與咨詢服務可依靠ChatGPT 類AI—GPT 技術應用的不間斷服務、泛化能力、支持長上下文理解、用戶圖譜和情景圖譜等功能和特性,實現進一步優化。此外,從智慧圖書館知識庫建設、圖書館用戶信息集成處理、圖書館數智化服務開放平臺搭建三個角度,可以發現圖書館信息處理的可能創新路徑。

ChatGPT 類AI—GPT 技術應用為圖書館信息處理帶來機遇的同時,也形成了一定的影響和沖擊,如數據安全、隱私保護、技術穩定性等。三星公司在啟用ChatGPT 20 多天后,就因員工私自上傳敏感機密數據導致芯片機密泄露。在技術翻譯中,ChatGPT 存在難以兼顧不同語言的語言習慣、容易忽略語境中隱含的意思、精準表達欠缺等問題,尤其對于中文來說,語境尤其重要,其關系我們對內涵的理解。面對數據安全、隱私保護等問題,我們有必要加深對ChatGPT 類AI—GPT 技術應用的理解,從而更好地利用這一把雙刃劍。圖書館應積極探索利用ChatGPT 類AI—GPT 技術應用進行信息處理的最佳實踐,但同時也要重視相關的倫理和法律問題。

該類技術的興起正逐漸滲透到各行各業,也正在變革圖書館信息處理方式,但無論如何變革,我們不能被技術發展所迷惑,必須清醒地認識到圖書館這種知識服務機構在文化內涵中的獨特價值。面對上述問題,除加強技術攻關并規范行業應用外,圖書館信息處理在使用該類技術時要依法依規探索和使用各項功能,做好相應的安全宣傳和培訓工作,從而增強讀者和員工的保護意識,達成圖書館和用戶雙贏的局面。在面對ChatGPT類AI—GPT 技術應用對圖書館信息處理帶來變革性影響的同時,做到效益最大化、弊端最小化。

猜你喜歡
標引信息處理檢索
東營市智能信息處理實驗室
基于Revit和Dynamo的施工BIM信息處理
2019年第4-6期便捷檢索目錄
檔案主題標引與分類標引的比較分析
地震烈度信息處理平臺研究
CTCS-3級列控系統RBC與ATP結合部異常信息處理
本刊對來稿中關鍵詞標引的要求
專利檢索中“語義”的表現
本刊對來稿中關鍵詞標引的要求
本刊對來稿中關鍵詞標引的要求
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合