?

基于數字人文的歷史檔案文獻開發實踐解析

2023-07-06 20:24王萍黃小宇
檔案與建設 2023年3期
關鍵詞:數字人文

王萍 黃小宇

摘 要:融入數字人文思維與方法開發歷史的文獻可助推歷史檔案文獻被傳播、被發現、被理解、被應用。文章運用質性的文本分析方法及歸納法,從國內外98個基于數字人文的歷史檔案文獻開發典型項目中提取實踐要素,從主體、對象、過程、成果、保障維度解析其跨領域跨機構的協同化、博專兼具的深度化、知識發現流程的規范化、知識內容的多元可持續化、實踐支持措施配置的全方位化五個實踐要點,并就其持續縱深推進的可能路徑作出前瞻性展望。

關鍵詞:數字人文;歷史檔案文獻;檔案開發

分類號:G273.5

An Empirical Study of 98 Domestic and Foreign Projects : Analysis of the Development Practice of Historical Archives and Documents Based on Digital Humanities

Wang Ping , Huang Xiaoyu

( School of Public Administration of Sichuan University, Chengdu, Sichuan, 610064 )

Abstract: Integrating digital humanities thoughts and methods for development practice will promote the dissemination, discovery, understanding and application of historical archives and documents. Through the qualitative text analysis method and induction method, this paper extracts five practical elements from 98 typical digital humanities-based historical archives and documents development projects at home and abroad, which include collaboration across fields and institutions, in-depth development for a wide range of resources, standardization of knowledge discovery process, diverse and sustainable knowledge-based contents in terms of subject, object, process, results and guarantee. And a forward-looking outlook is made on the possible path of its continuous and in-depth advancement.

Keywords: Digital Humanities; Historical Archives and Documents; Archives exploitation

近年來,隨著對歷史檔案文獻原始文本保護和深度利用需求的增大,歷史檔案數字化和數據化實踐在海內外日益勃興,為數字人文應用于歷史檔案文獻開發實踐夯實了數字基礎。國際上,數字人文研究機構次弟設立,手握豐富歷史檔案文獻的檔案館、圖書館、博物館等積極參與其中,開展了系列實踐項目,如著名的“威尼斯時光機(the Venice Time Machine)”[1]及以一戰和中世紀文化為研究主題的歐洲數字檔案研究基礎設施(Collaborative european Digital Archive Infrastructure, 以下簡稱“CeNDARI”)項目。[2]在我國,《“十四五”全國檔案事業發展規劃》強調,重視數字人文在檔案深層加工及利用環節的應用;國家重點檔案保護和開發工程亦要求圍繞歷史研究、文化遺產傳承等主題開發檔案[3],彰顯數字人文與歷史檔案開發利用相結合的工作導向。

現有基于數字人文的歷史檔案文獻開發研究成果豐碩,但多聚焦于數字人文的特定方法與工具在歷史檔案開發的應用研究[4-5],或是對某一具體歷史檔案文獻開發的研究[6-7],其技術和具然性取向明顯,尚欠從個別經驗到一般規律的抽象和升華。作為實踐性強的領域,基于數字人文的歷史檔案文獻開發需要從體量豐富、具有代表性的實踐項目中挖掘出實踐框架和要素,以便提煉出具有規律性和可操作性的項目運作維度及延展性運用方法?;诖?,本文對98個國內外基于數字人文的歷史檔案文獻開發代表項目開展實證研究,從五個維度解析項目實踐,提煉項目推進路徑和范式,以期助力深化基于數字人文的歷史檔案文獻開發。

1 數據收集與分析方案

1.1 數據收集

本文以與本研究定義契合、具代表性且信息易獲取為原則對相關項目展開數據收集,過程如下:(1)確定項目范圍。①從國際數字人文組織聯盟網站CenterNet中選取18個創始成員;另外,為掌握更多關于我國此項工作開展的情況,將4個非創始成員的中國機構納入考量,剔除3個無官網的機構后,以剩余代表機構為案例來源。②由于機構視角可能導致部分孤立的典型項目未被納入調查,加之CenterNet中國內機構及項目較少,因此,又基于文獻線索補充具有代表性的國內外案例19個及國內機構2個(代表機構見表1)。(2)收集項目信息。信息收集來源以項目官網為主,輔以文獻、搜索引擎等,獲取要素包括項目名稱、主體、背景、目標、內容(開發的歷史檔案文獻、運用的數字人文技術、開展過程和項目成果)及啟示。最終遴選出98個基于數字人文的歷史檔案文獻開發項目(見表2)。

1.2 數據分析

(1)運用質性文本分析方法解析項目信息,提煉出基于數字人文的歷史檔案文獻開發實踐要點:首先,通過描述信息要素在項目中的核心體現歸納初始編碼;其次,經由分析比較初始編碼形成行動聚類以完成聚焦編碼;再次,對比各聚焦編碼,找出關聯以歸納實踐維度。最終將實踐要素解析為開發主體、面向對象、行動過程、最終成果和保障措施五個維度(見表3)。

(2)雖然項目成果作為維度之一已涵納于實踐解析,但因項目成果不僅是項目價值最直接的呈現方式,而且在成果維度上呈現出單點與多點并用、學術性與大眾性并包、當下與未來兼具的特征,故單獨列出,從結果層歸類上述項目(見表4)。

2 實踐要素解析

2.1 主體維度:跨領域跨機構的協同化

協同既是數字人文領域的重要特征,亦是基于數字人文的歷史檔案文獻開發項目秉承的核心理念。它不僅呈現于項目主要團隊內部,也體現在同其他團體及個人的合作中。

一方面,項目主要團隊囊括各領域專家,主要包含三類領域的專家:(1)傳統人文領域。歷史學者為主,英語、文學、哲學、人類學、藝術史等領域學者協同,承擔項目內容策劃任務。(2)信息技術領域。系統工程師、多媒體技術人員、網站開發人員、界面設計師、數據處理專家等為主力,承擔技術支援與開發任務。(3)信息資源管理領域。圖書館學者、檔案專家為主,承擔歷史檔案文獻內容整理與加工工作。如CeNDARI主要團隊由8 個歐洲國家的 14 個合作伙伴組成,包含計算機信息學家、歷史學家和檔案學家?!巴崴箷r光機”項目團隊來自瑞士洛桑聯邦理工學院、威尼斯大學、意大利電信公司等,包含數字人文學者、計算科學專家、歷史研究人員、檔案學家等。

另一方面,為獲得資金、資源、技術支持,項目組建了與其他機構團體及個人的協同隊伍。其主要協作對象包括三類:(1)資金資助者。各類項目或積極爭取政府支持,建立數字人文項目資助體系;或向外部組織機構和社會公眾等尋求資助。例如“影谷計劃”[12]多年來持續得到美國國家人文科學技術教學基金會、弗吉尼亞大學等的資助。(2)資源貢獻者。上述項目多與檔案館、圖書館和史志辦等擁有史料的信息資源管理機構建立合作或向社會公眾征集資源。如“1941年香港戰役:空間歷史項目”[13]同香港大學檔案館、戰爭紀念館等組織機構以及部分家族和個人合作,以廣泛獲取相關歷史檔案文獻。(3)文本開發者。歷史檔案文獻的數字化與數據化需大量人力參與,部分項目召集業余愛好者參與歷史檔案文獻抄錄、標注等工作,并由專業人員檢查質量。如2010年倫敦大學學院法學院發起的“邊沁手稿轉錄項目”。 [14]

2.2 對象維度:博專兼具的深度化

廣度為基:(1)項目團隊多途徑獲取來源廣泛的歷史檔案文獻,主要包括:①官方機構及組織的資源,如圖書館、檔案館、博物館、紀念館、文化館等;②散落民間的資源;③流失國外的資源。以“臺灣數位典藏計劃”[15]為例,其歷史檔案文獻主要來自三方面,包括文化資產與政府部門、民間組織和個人工作室、國內外資源平臺。(2)在資源獲取階段均高度重視資源的多樣性與完整性。如在資源類別上,除手稿、文書、信件等歷史檔案文獻,還輔以古籍、口述歷史等佐證材料;在內容上,除針對性較強的主題項目外,還致力于構建文獻內容的完整性。以“中國記憶工程”[16]為例,中央檔案館、國家檔案局構建了全國范圍內首個面向公眾開放的大型區域性歷史文化資源共享平臺——中國記憶。該平臺集中了手稿、信件、文件以及口述材料、影像資料等,形成“我們的文字”“大漆髹飾”“東北抗日聯軍”等多載體多種類的專題歷史檔案文獻集合。

深度為要:(1)以數據思維為引導,對歷史檔案文獻進行細粒度治理。多數項目不再停留于全宗級和案卷級檔案整理,而是更趨于深入歷史檔案文獻文本,解讀內在要素。以“古蘭經語料庫”[17]為例,該項目使用OCR將手稿轉換為XML編碼文本,建構存儲手稿及其音譯數據的數據庫,形成獨特的古蘭經語料庫和符合國際規范的手稿目錄。(2)以數字技術為抓手,對歷史檔案文獻開展價值挖掘。如“中國歷代人物傳記資料庫”項目團隊運用文本挖掘技術、關聯數據技術、GIS 技術等獲取和收集檔案內容信息和外形特征,并基于歷史檔案文獻數據開展社交網絡分析,從人際關系、入仕歷程、相關著作等維度全面呈現人物關系。

2.3 過程維度:知識發現流程的規范化

知識發現是指從大量數據中提煉出可信、新穎、有效且能被人們理解的模式的處理過程。[18] 數字人文本質上是一個基于數據的人文科學知識生產和發現過程,具有標準化的知識發現研究方法?;跀底秩宋牡臍v史檔案文獻開發項目主要由以下兩類驅動開展:(1)問題驅動,主要體現為,項目依據人文研究者的需求確定歷史研究問題,繼而規劃和建構相應歷史檔案文獻資源集合,人文研究者基于此研究具體問題,最終呈現成果并解釋已知現象。如2013年開啟的“數字全景監獄”以“探索不同類型的刑罰對 1780年至 1875 年間在舊貝利被判刑的 66000 人的影響”為研究問題,驅動開展知識發現實踐。(2)數據驅動。①各類主體基于自身館藏,以主題為中心將歷史檔案文獻數據化、結構化,為公眾提供數字人文知識服務。如上海圖書館基于其館藏家譜構建“家譜知識服務平臺”[19]。②科研人員以數據為基礎,利用數字人文技術深入挖掘歷史檔案文獻,幫助超越固有認知局限。如 “歷代寶案脈絡分析系統”[20]項目以臺大歷代寶案為主體,通過全文化、重要詞匯擷取、正規化與標記,建立了具有后分類、脈絡關系、可分析統計等功能的數字人文脈絡分析系統,幫助呈現歷史檔案文獻的原有脈絡以輔助研究。

雖驅動背景不同,但以上項目多遵從知識發現的規范化流程,具體如下:(1)制定歷史檔案文獻開發項目方案。(2)明確項目方案所涉歷史檔案文獻并構建數據集,這一步驟需注意數據收集的全面性、解讀的正確性和處理的規范性。(3)進行知識組織。核心任務是基于數字人文思維與技術實現數據挖掘及關聯以發現知識,從而實現目標或解決問題。過程中需以歷史主義為主、邏輯主義為輔,尊重并重構歷史的有機聯系并實現縱深向的數據處理。(4)展示成果。通過數據呈現技術呈現成果,該成果可助力新一輪的知識發現。仍以“數字全景監獄”為例,首先,收集英澳等國不同組織持有的刑事司法檔案、家譜檔案等歷史檔案文獻并通過數字化和數據化完備數據集。其次,利用Node.js、MySQL和Java servlet等技術支持進行數據的自動或手動關聯并進行數據分析,實現對各類刑罰下犯人信息及后期生活與工作等情況的探索。最后,通過網站構建展現成果。

2.4 成果維度:知識內容的多樣化及可持續化

(1)項目成果呈現與開發工具創建?,F有項目開發成果展示主要有以下三類:①內容瀏覽型,包括專題展覽、資源類型展示、多種復合型呈現三種,如以專題形式呈現的“北京記憶”[21]。②數據庫檢索型,主要有歷史與檔案類及文學與藝術類數據庫,如“中國地方歷史文獻數據庫” [22]。③可視化呈現型。一是整體可視化,如“威尼斯時光機”通過3D模型及可視化方式展示威尼斯的地理空間演變和社會網絡關系。二是部分成果可視化,如“鐵路與現代美國的形成”項目[23]成果之一就是運用數據分析技術制作鐵路工人時空變化分布地圖。三是檢索結果可視化,如“淡新檔案客家研究數位分析系統”[24]可對檢索結果進行統計分析、圓餅圖制作和文字云展示等。

在諸多基于數字人文的歷史檔案文獻開發實踐中,工具創建既是項目開發剛需,同時又為后續項目的開展持續提供技術支撐。上述項目的工具創建成果分為兩類:①單一工具開發。一是分析工具,如“Archetype”[25]用于在線呈現帶有結構化注釋和數據的圖像,允許用戶搜索、查看材料的詳細特征,可用于分析歷史手稿。二是轉錄平臺,如 “歷史文獻眾包平臺”[26]鼓勵感興趣且有一定操作能力的用戶運用工具進行歷史檔案文獻數字化抄錄和標注。②綜合平臺建構。包括個人研究平臺和多主體協作平臺。前者如“DocuSky數位人文學術研究平臺”[27]為學者提供建構符合國際標準格式的個人云端資源庫的方法指南,并輔以各種實用工具幫助學者開展歷史檔案文獻研究。后者如CeNDARI,在該虛擬基礎設施中不僅提供大量歷史檔案文獻,還開發了協作空間及專題研究指南,創建出虛擬研究基礎設施和人文研究虛擬協同平臺。

(2)持續優化與發展。數字人文項目的可持續發展是其重要評估指標。上述項目主要采用兩種方式體現其可持續發展性:(1)及時更新資源。如“被盜關系:恢復美洲土著奴役的故事”項目[28]定期在數據庫中添加新的相關歷史檔案文獻數據,以便于更完整地呈現土著奴隸制的發展演變過程。(2)更新迭代項目成果。①拓展資源使用平臺。如“南非檔案館”[29]運用開源程序 Zotero進行南非地區歷史檔案文獻資源數字化、標準化管理,力圖通過運用Internet Archive 建立相關網站作為歷史檔案文獻的在線數據庫以供社會化利用。②同其他平臺打通相關業務。如上海市圖書館推動家譜知識服務平臺與其他平臺相關業務打通,方便家譜研究專家開展研究,所得研究成果又可持續演化為知識服務平臺的一部分,形成良性循環。③轉化成果性質,如“歐洲大屠殺研究基礎設施”于2018年被添加到歐洲研究基礎設施戰略論壇(eSFRI)路線圖中,有望在2025 年為大屠殺研究社群提供長期、穩定的知識服務。

2.5 保障維度:實踐支持措施配置的全方位化

(1)硬件保障:項目實施的基本要求。開發歷史檔案文獻需要專業的人員、充足的資金以及虛實結合的基礎設施,三者須相互支撐并貫穿于全流程。人力保障包括組建跨領域的專業團隊,并實現各類知識的融合;資金保障則主要來源于項目基金以及部分社會機構或個人的支持;此外,以數字人文視角觀之,歷史檔案文獻開發需基于內外平衡的人文數字生態系統。[30]現有項目多以實體研究中心為基礎,如“塞勒姆女巫審判”項目[31]以美國弗吉尼亞的學者實驗室(Scholars Lab)為主體;“中華文明之時空基礎架構”項目[32]以臺灣中央研究院歷史語言研究所與計算中心為主體。但也有部分項目通過構建虛擬研究環境來支持歷史檔案文獻開發,如倫敦大學“邊沁手稿轉錄項目”通過建設專門的轉錄平臺,使公眾參與在線轉錄哲學家和改革家Jeremy Bentham的原始手稿。

(2)軟件保障:項目實施的技術工具。為解決歷史檔案文獻解讀困難、關聯困難、利用困難的問題,現有的開發項目大量應用了以下技術:進行基礎數據建設的數字化技術,如掃描、拍攝等;進行資源組織和分析的數據管理技術,如數據庫建設、語義描述及數據分析技術如文本分析、時序分析;進行成果展現的可視化技術,如關聯呈現和VR/AR技術等。這些技術是基于數字人文的歷史檔案文獻開發項目不可或缺的工具要素。

3 基于數字人文的歷史檔案文獻開發項目的未來展望

在未來相當長的時間內,基于數字人文的歷史檔案文獻開發將成為人文研究、歷史檔案資源管理、數字技術等相關領域的重要工作內容。通過對國內外典型案例的解析,我們認為,對應上述五個實踐維度,國內在開發相關項目時需在五個方面發力:

第一,強調開發主體的多元合作。從理論上講,合作主體數量和領域覆蓋面與貢獻力大小呈正相關,但主體間既存在合作又存在競爭。為此,在基于數字人文的歷史檔案文獻開發項目中,特別是針對各異維主體,如何準確定位角色、提高協同效率以及設計出針對多主體利益博弈的平衡機制顯得尤為急迫。

第二,設計出相應的鑒定及匹配方法,以解決因資源匯聚產生的資源可靠性甄別及資源適配問題。

第三,加強人文學者與數字技術專家的交流互鑒。結構化的知識發現標準流程業已證明是歷史檔案文獻定制化、定向化開發的科學路徑,但縱覽現有實踐成果,一是該路徑運用的實踐基礎并不夠扎實,經零星探索總結提煉的做法尚缺乏進一步規范優化的場景支撐;二是歷史檔案文獻所指向的研究議題涉及多學科研究領域,應明確其中急需解決的和基礎性的問題;三是如何選擇數字人文技術手段來支撐知識發現流程以完成既定目標,確保歷史檔案文獻的內在聯系被完整、準確地予以呈現至關重要。

第四,著力提升項目開發工具的普適性、可延展性及易用性,使成果在展現形式上更直觀生動,以工具之力利助推開發項目數量與質量雙提升。

第五,支持與保障措施的全方位化是始終不變的“壓艙石”,需要國家宏觀層面的政策引領和支持,以及學術科研層面的共識建構與推進?!蛾P于推進實施國家文化數字化戰略的意見》[33]明確要求,提取具有歷史傳承價值的中華文化元素、符號和標識,豐富中華民族文化基因的當代表達,中華文化數字化成果全民共享。以數字人文理念的想象力、數字人文技術的創造力,對富含中華文化元素、承載中華民族文化基因的歷史檔案文獻進行創造性開發和創新性轉換,既逢其時,恰具其意。

注釋與參考文獻

[1]The?venice?Time?Machine?[eB/Ol].?[2023-01-31].? https://www.timemachine.eu/.

[2]?The?CenDARi?white?Book?of?Archives?[eB/Ol].?[2023-01-31].http://www.cendari.eu/sites/default/files/ whiteBook-web.pdf.

[3]《“十四五”全國檔案事業發展規劃》[eB/Ol].?[2023-01-31].https://www.saac.gov.cn/daj/yaow/202106/899 650c1b1ec4c0e9ad3c2ca7310eca4.shtml.

[4]賈瓊,王萍.基于關聯數據的歷史檔案資源聚合研究[J].圖書情報工作,2021,(10):105-112.

[5]hinRiChs?u,?Alex?B,?CliFFORD?J,?et?al.?Trading? consequences:?A?case?study?of?combining?text?mining?and? visualization?to?facilitate?document?exploration[J].?Digital? scholarship?in?the?humanities,?2015,?30:?50-75.

[6]?潘威,白江濤,夏翠娟,等.基于TGis的專項歷史地名庫設計與搭建——以“數字歷史黃河”地名庫為例[J].數字人文研究,2022(1):13-24.?

[7]?李義敏,葉凱,余康,等.數字人文視域下魚鱗總圖的復原與數據庫建設——以晚清蘭溪縣城坊與湯溪縣寺平莊為例[J].檔案學通訊,2022(6):96-102.

[8]數字敦煌[eB/Ol].?[2023-01-31].https://www. e-dunhuang.com/.

[9]中國歷代人物傳記資料庫[eB/Ol].?[2023-01-31]. http://isites.harvard.edu/icb/icb.do?keyword=k16229.

[10]?The?european?holocaust?Research?infrastructure[eB/ Ol].?[2023-01-31].?https://www.ehri-project.eu/scientificadvisory-board.

[11]?The?Digital?Panopticon?[eB/Ol].?[2023-01-31].? http://www.digitalpanopticon.org/.

[12]?The?valley?Of?shadow[eB/Ol].?[2023-01-31].? http://valley.lib.virginia.edu/.

[13]?The?Battle?of?hong?Kong?1941:a?spatial?history[eB/Ol].?[2023-01-31].?https://digital.lib.hkbu.edu. hk/1941hkbattle/en/index.php.

[14]Transcribe?Bentham?[eB/Ol].[2023-01-31].? https://blogs.ucl.ac.uk/transcribe-bentham/.

[15]臺灣數位典藏計劃[eB/Ol].[2023-01-31].? http://digitalarchives.tw/.

[16]中國記憶項目[eB/Ol].?[2023-01-31].?http:// www.nlc.cn/cmptest/.

[17]Corpus?Coranicum[eB/Ol].[2023-01-31].? https://corpuscoranicum.de/de/about.

[18]麻新純,徐辛酉.基于知識發現的歷史檔案情報價值實現[J].檔案學研究,2008(6):11-14.

[19]家譜知識服務平臺[eB/Ol].[2023-01-31]. https://jiapu.library.sh.cn/#/.

[20]歷代寶案脈絡分析系統[eB/Ol].[2023-01-31]. http://lidaibaoan.digital.ntu.edu.tw/.

[21]北京記憶[eB/Ol].?[2023-01-31].?http://www. pekingmemory.cn/.

[22]中國地方歷史文獻數據庫[eB/Ol].[2023-01-31].? http://ndfwx-hw.datahistory.cn/.

[23]?Railroads?and?the?Making?of?Modern?America[eB/ Ol].[2023-01-31].?https://railroads.unl.edu/.

[24]淡新檔案客家研究數位分析系統[eB/Ol].[2023-01-31].?https://dash.thcdc.hakka.gov.tw/.

[25]Archetype[eB/Ol].?[2023-01-31].?https:// github.com/kcl-ddh/digipal/.

[26]歷史文獻眾包平臺[eB/Ol].?[2023-01-31].? http://zb.library.sh.cn/.

[27]Docusky數位人文學術研究平臺[eB/Ol].[2023-01-31].?https://docusky.org.tw.

[28]?Recovering?stories?of?indigenous?enslavement?in?the? Americas.?[eB/Ol].?[2023-01-31].?https://indigenousslavery. org/about/.

[29]south?Africa?Archive[eB/Ol].?[2023-01-31].? http://southafricaarchive.org/about.

[30]Anderson?s,?Blanke?T.?Taking?the?long?view:?from? e-science?humanities?to?humanities?digital?ecosystems[J].? historical?social?Research/historische?sozialforschung,?2012,37:? 147-164.

[31]salem?witch?Trials[eB/Ol].?[2023-01-31].? https://scholarslab.lib.virginia.edu/work/salem-witch-trials/.

[32]Chinese?Civilization?in?Time?and?space?[eB/Ol].?[2023-01-31].?http://ccts.ascc.net/.

[33]?讓中華文化更“活”更火——透視《關于推進實施國家文化數字化戰略的意見》[eB/Ol].?[2023-01-31].?http:// www.gov.cn/zhengce/2022-05/23/content_5691982.htm.

猜你喜歡
數字人文
圖書館未來的技術應用與發展
數據驅動下的高校圖書館數字人文服務研究
漢傳佛教文化遺產數字化建設現狀調查與特征分析
數字人文2011—2016年研究綜述
數字人文時代公共圖書館經典閱讀推廣研究
數字人文時代公共圖書館經典閱讀推廣研究
數字人文目標下圖書館信息服務模式研究
數字學術與公眾科學:數字圖書館新生態
跨界與融合:全球視野下的數字人文
跨界與融合:全球視野下的數字人文
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合