?

數字人文視角下的古籍整理與閱讀轉型

2023-03-22 22:07朱翠萍
文學與文化 2023年4期
關鍵詞:沉浸式體驗數字人文古籍整理

內容提要:數字化深刻影響且改變了人文學術,促進了研究范式和學術功能的改變。具體到文獻整理領域主要體現在三個方面:文獻生產方式的創革,文獻整理的數字化轉型,以及經典閱讀方式的新變。數字化改變了文本整理方式,使人文學者可以自動化獲取文本、建立目錄與文本的關聯,且能夠一定程度上進行自動對勘。同時,數字化也為古籍文獻帶來新的閱讀和呈現方式,從而實現主題聚類、增值性知識關聯、時空并行、知識重組沉浸式體驗等。未來,數字化技術到智能化技術的演進,必將對人文學術產生更加深刻的影響。

關鍵詞:數字人文 古籍整理 OCR 自動???聚類 知識重組 沉浸式體驗

社會發展至今,數字化浪潮無所不在,深刻影響并改變著人文學術研究。清華大學人文學院院長劉石教授總結了這樣一種現象,說:“我們在數字時代發現了前數字時代難以發現的現象,提出了前數字時代難以提出的設想,開展了前數字時代難以開展的工作,解決了前數字時代難以解決的問題?!边@一觀察引發了一股“數字人文”研究的熱潮?!皵底秩宋摹笔墙柚嬎銠C和數據科學等工具進行的人文研究,其本質是一門交叉學科,也是一種方法論。它將數字技術應用于人文闡釋,代表著知識生產范式因媒介變革而進行的一次轉型。在古籍文獻領域,這些轉變主要表現為:文獻生產的創革,文獻整理的數字化轉型,以及經典閱讀方式的新變。

一 文獻生產方式的創革

數字化興盛之前,人們通常采用人工錄入文本的方式,逐字逐句地閱讀并添加標點,整理完畢后,將其交給出版單位進行編輯和出版。然而,隨著數字化的普及和發展,古籍智能整理平臺應運而生,可以實現文本采集、自動標點、繁簡轉換、自動排版等一站式工作流程。

在文獻生產領域,最常用的技術就是OCR。OCR是Optical Character Recognition的縮寫,意思是指光學字符識別,它可以將圖像中的文字通過識別軟件轉換成文本格式,供文字處理軟件進一步編輯和加工。在數量龐大的古籍整理工作中,這項技術非常實用,能大幅度提高文本錄入效率。然而,開發古籍OCR系統并非易事,需要考慮古籍的版式、圖像頁面的完整和平整程度、字體風格、異體關系,以及現有字庫的大小等多種因素。開發者需要通過對古籍版式的綜合分析、對文本內容的智能化理解訓練、對字形風格的模擬,以及在字庫大小和字符使用規范之間取得平衡等,使古籍OCR工具最大限度地滿足使用者的需求。目前市面上的古籍OCR工具,對于版面清晰、刻寫規整的古籍來說,識別準確率多已超過90%,識別速度也達到了每臺服務器8萬頁/日,文獻資料的生產效率大大提高。

當然,也存在大量古籍采集不易的情況,如下圖所示:

上圖中間方框中的四個字,從字形上來看都像“月”字,但其解釋是“上偏旁舟,二偏旁丹,三偏旁肉,下魚曰翻”,說明這四個字分別是“舟、丹、肉、月”等不同的字,若用OCR系統進行簡單識別,必定會因為字形極其接近而出錯。但這只是OCR識別困難情況中的一種,在古籍中還存在大量復雜多樣的字符情況,主要表現在以下幾個方面:有古有今、有中有外、有字有符。

所謂“有古有今”是指古籍中包含著甲骨文、金文、小篆、楷書等不同時代的文字符號,即使是流傳至今廣泛應用的楷書字形,由于大量異體字的存在,也對自動識別構成了極大的困難。

所謂“有中有外”是指古籍文獻中,除了漢字(包括一些疑難字的整理)以外,還存在如梵文、巴利文等非漢字的文字符號。

所謂“有字有符”是指古籍文獻中,除了表音、表意的字之外,還包括如音樂文獻中的古琴譜和道教文獻中的符箓等非字符號。

針對這些特殊符號,數量多的一般都是建立專屬的字庫進行訓練識別;數量少的,出于經濟考量,往往把其納入到某一類特殊符號中采用單個插入的方式使用。

總體來說,數字化時代,相較于傳統手寫和雕版印刷的方式,在文獻生產的方式方面發生了根本性的變化,故稱之為“創革”。

二 文獻整理的數字化轉型

傳統文獻學主要包含版本目錄學、??睂W、斷句標點等。

版本,原指雕版刷印的書本,雕版印刷發明之前,沒有這個概念,雕版印刷發明之后,主要是從宋代才開始使用此概念。后來,“版本”的含義開始逐漸豐富,不僅僅指雕版印刷的本子,還可以指寫本、活字本、批校本等。近代排印技術出現之后,又出現了石印本、鉛印本等新形式,現代計算機技術出現之后,版本更是不再局限于紙質本子,進而擴展到非紙質載體的“數字版”了。故而,版本問題可以算是一個既古老又現代的課題。

數字化技術出現之后,圍繞古籍整理工作建設大量古籍書目數據庫,開發了自動???、自動標點、引文核查、繁簡轉換等系統,對古籍整理效率的提高起到至關重要的作用。

(一)版本目錄的數字化轉型

古籍書目數據庫改變了傳統的平面化呈現方式,以關聯性和立體化的面貌呈現。例如《中國古籍總目》數據庫①通過數字化和結構化處理,將題名、責任者、版本、館藏、子目等具體信息拆分出來,使原書條目信息分門別類、清晰明了地呈現。同時,它集中展示了新中國成立以來出版的古籍整理本成果,并與《中國古籍總目》中記錄的古籍條目進行了計算機自動關聯匹配。

(二)??钡臄底只D型

在文獻學中,??钡姆椒ㄒ话惴譃閷π?、他校、本校、理校四類。為了提高古籍整理者的??毙?,也開發了相應的技術來進行輔助。

目前來說,應用最廣、效果最明顯的是針對對校場景而開發的自動對勘技術。自動對勘,就是將不同版本的電子文本上傳至平臺,瞬間完成幾十萬字的不同版本的文字比對工作,同時還會參照??睂W中錯誤類別“訛衍倒脫”等分類,設置“異①衍倒脫”等差異類型,并配以??庇浱顚懜袷娇蛴脕頃鴮懶?庇?,然后生成并導出“??遍L編”。筆者曾以周祖謨先生的《廣韻校本》進行實驗,測試自動對勘系統的效果,以《廣韻校本》所提到的底本和校本作為自動對勘的底本和校本,從時間、速度和比對準確性等方面進行分析,如下表所示:

經過驗證,人工需要2個月完成的工作,自動對勘系統幾分鐘就完成了,大大縮減了時間成本,提高了效率。同時,自動對勘系統還十分有效地規避了人為疏漏,人工可以發現的問題,計算機都發現了,人工沒有發現的問題,計算機也發現了。但另一方面,由于計算機讀取字形編碼和人類的判定存在差異,以及字形處理規范的一些規定,會影響異文數量。例如,在新舊字形方面,自動對勘系統發現了210處,人工記錄了0處,這一方面是??闭邔憽稄V韻校本》時還沒有新舊字形的概念的緣故;另一方面,即使讓現代人進行???,也不會把這些本屬于印刷概念上的字形差異判定為有效的??辈町?。這就是人和自動??毕到y的差別。

(三)斷句標點的數字化轉型

為了讓現代人看懂古籍,整理者多會采取逐句閱讀、斷句標點的方式,整理周期一般都很長。古籍整理智能技術研發者便利用前人已經標點好的數據進行訓練,使系統能夠自動理解并斷點文句,從而提高古籍的斷點效率。目前,多采用的是bert模型,運用一種類似“完形填空”的訓練邏輯讓系統反復預測缺失或故意遮掩的內容,從而達到正確填充標點的效果。目前市場上有影響力的古聯公司自動標點系統,在斷句方面達到了96%的正確率,在標點方面也能達到92%的正確率,整理者完全可以通過自動標點技術形成一個相對成熟的古籍整理作品,然后再發揮專家優勢,將斷句標點的正確率提升到讀者滿意的水平。所以說,在古籍斷句標點方面也實現了很好的轉型。

(四)繁簡轉換系統

考慮到現代人對繁體字文本閱讀困難,古籍整理者會將繁體字轉換為簡體字,古籍整理技術研發者針對這一需求,開發了繁簡轉換系統。在該系統中,最關鍵的不是轉換技術本身,而是復雜的字際關系。一個實用的繁簡轉換程序,需要考慮以下幾個方面的因素:一是編碼層面的同碼異形、同形異碼以及誤用私用區編碼問題;二是繁簡對應方面的一對多、多對一、無對應等問題;三是繁體字的異體字形較多問題。所以,開發一個相對理想的繁簡轉換系統就需要按照一定的邏輯逐層梳理。先進行編碼層面的認同,再將不合法的類推簡化字還原為繁體字形,然后將同一個字的異體字形進行歸并和認同,再根據一定的場景結合上下文義進行轉換,才會得到較為可靠的結果。

正是由于以上系列技術的研發,文獻整理的很多方面都實現了由傳統方式向數字化甚至智能化的轉型。這不僅大大提高了古籍整理的工作效率,也為古籍的保護和傳承開辟了新的可能。

三 經典閱讀方式的新變

數字化技術的出現,不僅在生產端產生了很大的影響,還促成了新的閱讀和研究方式。這主要體現在以下幾個方面:

(一)主題聚類檢索閱讀

在傳統閱讀中,一般是自上而下、自右而左,或者是自左而右、自上而下的線性閱讀方式。然而,在數字化時代,人們往往以主題詞檢索的方式開展同類主題聚合。然后,再對資料進行集中總結和分析,找到自己需要的信息或得出某種結論。一般來說,文本類數據庫大都能夠滿足這種需求,不再贅述。

(二)增值性知識關聯

傳統知識組織的方式是平面化的,而數字時代的內容組織卻是立體的。前臺的文本資料與后臺的知識體系關聯在一起,既不影響文本閱讀的流暢,又可在文本閱讀出現困難的時候,可以即時找到延展性知識內容,從而掃除閱讀中的障礙。這種關聯可以是解決疑難字的字典,例如《殷墟甲骨文數據庫》配有《甲骨字典》,方便閱讀者閱讀甲骨釋文的時候,遇到不認識的甲骨文進行查詢。

也可以是解決疑難知識的專題詞典,如人名辭典、地名辭典、職官詞典,或者紀年表,例如籍合網(https://www.ancientbooks.cn)內置了各類專題詞典和紀年換算表格,用于支撐平臺各數據庫的閱讀查詢所需。這些功能為讀者提供了實時、方便的咨詢工具,大大提升了閱讀的效率和體驗。

還可以是解決疑難現象的同實異稱、同稱異實等事實類考證內容,例如中國人民大學李今教授主持的《漢譯文學編年考錄數據庫》,為1896年至1949年間期刊上的漢譯文學及其相關現象做了編目、整理和考釋,并為譯介者做了生平簡介以及筆名錄。這樣的功能提供了深入、詳實的背景信息,有助于讀者更深入地理解和研究文本。

(三)可視化知識圖譜

隨著數字人文研究與實踐的深入開展,越來越多的學者及古籍數字化從業者開始由簡單的資料匯集到深入的內容加工,他們把平面的文字資料進行人物、時間、地點、事件等方面的提取,并開展各種維度的屬性標引,相同屬性之間可以歸類,甚至可以借助屬性關系進行推理,從而使文獻資料由平面敘述、說明變為知識網絡的存在,呈現出基于一定專業邏輯的結構化關聯,然后借助現代的知識圖譜技術進行生動展示。例如,北京大學數字人文研究中心《宋元學案》知識圖譜系統、北京師范大學的《漢字全息資源應用系統》都是很好的例子。

(四)時空并重

在數字人文的研究中,我們可以通過時空數據的整合,以全新的方式理解、解釋歷史和文化現象。我們可以利用地理信息系統(GIS)技術,將歷史事件或文化現象在特定時間和地點的發生進行可視化,從而在更大的范圍內觀察和理解文獻中的信息。例如,歷史學家可以將古代詩人生活軌跡、人口遷移、疾病傳播等信息映射到地圖上,以空間的方式呈現時間的流動,揭示出這些現象背后的歷史規律和文化模式,四川大學文學與新聞學院王兆鵬老師開發的《唐宋文學編年地圖》就是很有影響力的例證。

(五)基于閱讀的知識重組

在數字環境中,閱讀的方式已經發生了根本性的變化。讀者不再被限制于單一的、線性的文本閱讀,而是可以在廣闊的知識網絡中自由穿行,通過鏈接、搜索和注釋等工具,將來自不同來源、不同領域的信息整合在一起,形成專門的知識體系。例如中國人民大學夏明方教授主持的國家社科基金重大項目成果《清代災荒紀年暨信息集成數據庫》①,從清代史書和地方志等文獻中提取與自然災害相關的信息,重組為災害類的專題數據庫,詳細梳理了災害類型、災害級別、賑災政策等內容,提煉出一個新的知識體系,為史學研究之外的大氣物理研究、地震研究及政府咨詢等多領域提供了很好的參考。

(六)沉浸式體驗

數字人文技術還為我們提供了全新的、沉浸式的閱讀和學習體驗。例如,虛擬現實(VR)和增強現實(AR)技術可以將讀者帶入歷史現場,讓他們親身體驗歷史事件或文化現象。這種沉浸式體驗,不僅能夠提供更生動、直觀的知識傳遞方式,也能夠激發讀者的興趣和參與度,從而深化對文獻內容的理解和記憶。例如,通過VR技術,讀者可以親身走進古羅馬的街頭,參觀中世紀的教堂,或是親眼看到長城的建設過程,這些都將給讀者帶來深刻的歷史感受和理解。

還可以利用元宇宙技術復活古人,實現跨時空的對話,讓古代文獻的作者以類真人的方式,展示其生活或傳遞其作品中所承載的文化和知識內容。例如中華書局構建的“3D超寫實數字人蘇東坡”,通過數字全息技術,在中央電視臺2023年度“詩詞大會”中亮相,不僅生動再現了其與友人黃庭堅告別的場景,還與現場的選手互動誦詩。

時至今日,美國OPENAI公司推出了可以聊天、書寫文本摘要、翻譯,甚至可以寫代碼的聊天機器人ChtaGPT,再次引爆了網絡,引發了以人工智能為代表的新一輪技術革命,并逐漸影響到業界和學術界。

這些新的數字技術給人文領域帶來了很大改變,并形成了“數字人文”這一具有強烈時代特征的學科概念,成為迄今為止理念最為開放、成就最為顯著的跨學科閱讀與研究范式。這不僅打破了學術壁壘,架構了學科橋梁,甚至拉近了讀者與專家的距離,改變了閱讀和接受知識的方式。

(朱翠萍,中華書局古聯公司副總經理)

猜你喜歡
沉浸式體驗數字人文古籍整理
斯鹽最靈,此籍可餐
——鹽業古籍整理新成果《河東鹽法備覽合集簡注》出版
論“明清實錄藏族史料類編叢書”古籍整理工作
虛擬現實技術在主題公園中的應用
指向具身學習的高中物理“沉浸式體驗”教學策略
新媒體時代虛擬現實中的詩與畫
首屆宋云彬古籍整理獎頒獎典禮在京舉行
數字學術與公眾科學:數字圖書館新生態
跨界與融合:全球視野下的數字人文
跨界與融合:全球視野下的數字人文
大規模古籍文本在中國史定量研究中的應用探索
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合