?

歷史典籍的結構化探索
——《史記·列傳》數字人文知識庫的構建與可視化研究

2022-12-02 05:28鄭童哲恒李斌馮敏萱常博林王東波
大數據 2022年6期
關鍵詞:知識庫古籍史記

鄭童哲恒,李斌,馮敏萱,常博林,王東波

1. 南京師范大學文學院,江蘇 南京 210097;

2. 南京農業大學信息管理學院,江蘇 南京 210095

0 引言

古籍是我 國傳統文化的重要載體,是民族精神的集中體現。我國古籍浩如煙海,在綿延千年的發展過程中歷久彌新,蘊藏了大量的歷史人文知識,是研究傳統文化和挖掘歷史信息的珍貴材料。在眾多古籍之中,《史記》意義重大,它是中國歷史上第一部紀傳體通史,記載了從傳說中的黃帝時代至漢武帝時期共3 000多年的歷史,對后世文學和史學發展具有重要指導意義?!妒酚洝饭?30篇,其中列傳有70篇,共24萬余字,占《史記》全文篇幅的一半左右,記載了眾多歷史人物的言行事跡,具有很高的研究價值。

古文信息處理是指借助信息技術手段對古代漢語文本的音、形、義進行處理和加工[1]。數字人文(digital humanities)也被稱為人文計算(humanities computing),面向人文社會科學與計算之間的交叉領域開展研究,通過智能檢索、文本挖掘、可視化等各種信息技術和手段達到研究目的[2]。近年來,隨著古文信息處理技術、人工智能與大數據技術的持續發展,數字人文研究范式在古籍研究中的應用范圍不斷擴大、應用方式不斷演進[3]。古籍數字人文研究為解決古代典籍因卷帙浩繁、晦澀難懂而不易開發利用等問題提供了新思路,為深入挖掘古籍文本信息、全面檢索古籍文本內容、直觀展示古籍文本內涵提供了新方法。

本文繼承南京師范大學開發的《左傳》[4]、《史記·本紀》(以下簡稱為《本紀》)[5]和《史記·世家》(以下簡稱為《世家》)3個數字人文知識庫,創新性、發展性地以《史記·列傳》(以下簡稱為《列傳》)為研究語料,首先進行自動分詞和詞性標注并進行人工校對,再進一步人工標注人物和地點等實體信息,得到《列傳》高質量標注文本。在此基礎上構建《列傳》數字人文知識庫和檢索平臺,并據此完成詞匯、人物、地點3個方面的信息挖掘與計量統計,力圖運用大數據技術推動歷史典籍的結構化探索,進而為歷史文獻學、歷史地理學、語言學等學科的研究提供服務。

1 相關研究

古籍數字化開發分為表層和深層兩個層次[6]。表層古籍數字化包括古籍的錄入、數字化存儲、網絡傳播等,深層古籍數字化則包括古籍的信息標注、內容加工和知識檢索。表層古籍數字化研究與實踐始于20 世紀 70 年代末[7],在其發展初期涌現出以文本錄入為基礎實現全文檢索的古籍語料庫。如中國社會科學院開發的《全唐詩》速檢系統,提供字、詩句、標題檢索[8];愛如生公司開發的中國基本古籍庫,提供分類、條目、全文檢索[9]。由于沒有對古籍文本進行深加工,上述表層古籍數字化成果的功能較為單一,查全率和查準率亦不夠理想。

隨著人們對古籍數字化的認識不斷發展,數字化古籍文本的知識加工不斷完善,邁向更深的“知識域”,進入深層古籍數字化階段。深層古籍數字化旨在對古籍內容進行標注并構建知識網絡,進而推動古籍文本可視化、文本信息挖掘等工作。對古籍文本進行詞語切分和詞性標注,是突破基于“字”的全文檢索、構建詞匯級別古籍數據庫的必要條件。古代漢語標注語料庫目前較為稀少,主要有:臺灣的上古、中古漢語標記語料庫;南京師范大學先秦、中古[10]漢語標注語料庫;留金騰等人[11]以《淮南子》為文本構建的上古漢語分詞及詞性標注語料庫。針對目前古漢語標注語料庫數量少、深度不足的問題,本文對古籍文本進行了更深層次的數字化加工。

21世紀初興起的數字人文研究以古籍數字化為基礎條件,對古籍內容進行數據統計、信息和知識挖掘等處理[12]?;谥R本體(ontology)的古籍知識庫建設取得進展。唐振貴等人[13]在時間軸上由粗至細系統梳理了中國古代時間譜系,構建了涵蓋時間系統等五大主要模塊的中國古代時間本體。中國歷代人物傳記資料庫(China biographical database,CBDB)通過創建關系型數據庫,記錄了史料中保存下來的歷史人物的職業、親屬關系、社會關系等數據[14]。古籍專書數據庫亦取得成果。錢智勇等人[15]論述了楚辭知識庫和網站設計的實現步驟、技術難點及解決思路,力求實現辭賦知識的多維度關聯與智能檢索。在南京師范大學先秦語料庫的基礎上,許超等人[16]提取《左傳》中的人物、事件,使用社會網絡分析軟件Pajek建立春秋時期的社會網絡,并對其進行定性、定量探索性研究。李斌等人[4]在詞語切分、詞性、人物ID信息標注的基礎上進一步標注時間、地點坐標信息,構建深度標注的《左傳》知識庫,實現了一系列基于詞語、實體和時間地理信息的統計與可視化。相同的思路也被應用于南京師范大學《史記·本紀》和《史記·世家》數字人文知識庫的構建當中。

《史記》在漢籍當中至關重要,因此相關數字化研究很受重視。1987年,哈爾濱工業大學建成《史記》全文檢索系統,這是中國對古文獻全文進行字檢索的開創性成果?!抖π愎偶返裙偶洳財祿鞂ⅰ妒酚洝肥珍浽趦?,提供全文檢索功能,完成了《史記》的表層數字化工作。隨著《史記》數字化走向深層階段,《瀚堂典藏》數據庫收錄《史記》,并運用人工智能分詞技術,實現了古籍文本基于詞的檢索。2014年中華書局推出收錄《史記》在內的《中華經典古籍庫》,提供專名查詢(包括人名、事件、地名、紀年、職官機構)、聯機字典、紀年換算等檢索功能[17]。

近年來,《史記》專書數字人文研究亦有發展。張琪等人[18]探究基于深度學習方法的古籍分詞詞性一體化標注技術,并將其應用于《史記》,統計出《史記》中人名、地名、動詞、時間詞4種詞類的高頻詞。劉忠寶等人[19]提出面向《史記》的歷史事件及其組成元素抽取方法,并基于此構建《史記》事理圖譜。南京師范大學開發的《史記·本紀》數字人文知識庫,提供詞匯、人物、地點與地理信息系統(geographical information system,GIS)信息檢索功能。

綜上可知,《史記》專書深層數字化和數字人文研究已有一定成果,詞匯級別的、提供實體信息查詢的《史記》數字人文知識庫正在逐步建設當中。本文有效結合詞匯、實體信息、GIS技術等方面,完成《史記》中《列傳》部分的內容標注與知識挖掘,為建成完整的《史記》數字人文知識庫補充大量語料,也為后續進行綜合性、多層次的《史記》全文文本知識挖掘、計量分析與可視化檢索提供可能。

2 《史記·列傳》數字人文知識庫的建設

知識庫是存儲、組織和處理知識以及提供知識服務的重要知識集合[20]。數字人文視域下的古籍知識庫建設是在古籍文本錄入的基礎之上,對生文本進行詞性、句法、語義等不同層面的標注,提取時間、地點、人物、事件等不同類型的實體,通過大數據技術重組古籍文獻知識,并支持可視化分析。為建設《史記·列傳》數字人文知識庫,首先對《列傳》進行自動分詞和人工詞性標注,再為每個人物、地點指定唯一的ID編號,進一步完善命名實體信息。人物方面補充人物別名、性別、國別,地點方面補充今地名和GIS坐標,由此實現了《列傳》詞類標注基礎上的歷史時間、地點、人物信息全面標注,得到6張數據表:文本表、文本標注表、人物表、地點表、人物同現表、人地同現表。進而以6張一維線性序列表為基礎,構建多維《列傳》知識網絡,打通人物庫與GIS庫,使《史記·列傳》數字人文知識庫成為基于詞和實體的、結構化、一體化的知識集合。

2.1 數據來源與分詞和詞性標注

《史記·列傳》數據庫的原始數據來自《史記》(點校修訂本)[21]的《列傳》部分。首先使用南京師范大學開發的古漢語分詞與詞性標注規范和自動分析工具[22],對《列傳》全文24萬余字進行自動分詞和詞性標注,詞性標記共分為32類:形容詞(a)、連詞(c)、副詞(d)、方位詞(f)、詞綴(i)、兼詞(j)、數詞(m)、普通名詞(n)、書名(nb)、國名(ng)、年號(nh)、民族(nn)、官職(no)、人名(nr)、地名(ns)、專名(nx)、介詞(p)、量詞(q)、代詞(r)、擬聲詞(s)、時間詞(t)、助詞(u)、動詞(v)、使動用法(vs)、為動用法(vw)、意動用法(vy)、標點(w)、其他語素和字(x)、語氣詞(y)、形容詞作狀語(za)、名詞作狀語(zn)、動詞作狀語(zv)。再根據《二十四史全譯》[23]等工具書,對自動分詞和詞性標注結果進行人工校對。在人工校對的基礎之上,對《列傳》全文進行二次實體信息人工標注(標注內容包括人物信息和地點信息等),由此形成了《列傳》高質量、多層次的標注文本。多層次標注樣例見表1。

表1 多層次標注樣例

2.2 實體信息標注

2.2.1 人物信息標注

《列傳》中人物和名稱往往不是一一對應的,異名同指(一人對應多個名稱)、同名異指(一個名稱對應多人)的情況時有出現。人物與名稱的參差對應使后續計量分析的準確性受到很大影響,因此本文采取為每個人物標注唯一人物ID編號的方法,選取其最具代表性和概括性的、為人們所熟知的稱呼為“正名”,其余歸為“別名”,同一人物的不同名稱都指向同一個ID。如果某人物在《史記》的《本紀》和《世家》部分出現過,則沿用其先前被匹配的人物ID,如果是在《列傳》中出現的新人物,則為其標注新的ID。除人物ID、正名、別名之外,《史記·列傳》數據庫中收錄的人物信息還包括每個人物的性別、國別、備注,人名表示例見表2。

表2 人名表示例

2.2.2 地點信息標注

《史記·列傳》知識庫收錄的地點信息包括文中每個地點的地點ID、地名、今地名、類別(一般地名、諸侯國名、河流、山名等)、百度地圖GIS坐標,地名表示例見表3。同樣,如果某地點在《史記》的《本紀》和《世家》部分出現過,則沿用其先前被匹配的地點ID;如果是在《列傳》中出現的新地點,則為其標注新的ID。筆者參考《史記地名考》[24]等文獻以考證文中古地名的今地點,在此基礎上利用百度地圖應用程序接口(application program interface,API)解析今地點,獲得對應的GIS坐標數據。

表3 地名表示例

2.3 數據庫架構

在經過二次校對的分詞和詞性標注、人物信息標注、地點信息標注的基礎之上,完成了《列傳》文本的歷史時間、地點、人物信息的全面標注,形成 文本表、文本標注表、人物表、地點表、人物同現表、人地同現表,構建了《史記·列傳》數字人文知識庫,知識庫結構如圖1所示。

圖1 《史記·列傳》數字人文知識庫結構

3 《史記·列傳》數字人文知識庫與地圖平臺

3.1 檢索框架

本文構建的《史記·列傳》檢索平臺包含全文檢索、人物檢索、地名檢索三大功能,全文檢索包括“文本”“詞頻詞性”檢索功能,而人物和地名實體查詢需要依托實體ID,其中人物檢索包括“人物基本信息”“原文追蹤”和“人物關系”檢索功能,地名檢索包括“地點基本信息”和“人地同現”檢索功能。檢索平臺結構如圖2所示。

圖2 檢索平臺結構

3.2 全文檢索

在全文檢索方面,本檢索平臺除提供基礎的文本字符匹配檢索之外,還提供詞頻詞性檢索。詞頻詞性檢索可以基于詞,如檢索“者”,可得“者”在《列傳》中以助詞(u)詞性出現2 714次,以代詞(r)詞性出現1 812次,以名詞(n)詞性出現86次。從不同詞性的應用比例來看,在《列傳》中“者”主要以助詞和代詞形式出現,尤以助詞為主,這可以為《史記》的詞匯研究提供支撐材料。詞頻詞性檢索也可以基于詞性,如檢索名詞(n),可得《列傳》中的名詞按頻次由多到少排列分別為“人、王、兵、臣、國……”,從高頻名詞可以看出,這是一段群雄交鋒、英雄輩出、戰爭四起的歷史歲月。詞頻詞性檢索示例見表4和表5。

表4 詞頻詞性檢索示例(詞:者)

表5 詞頻詞性檢索示例(詞性:名詞)

3.3 人物檢索

相較于傳統的人物檢索,本平臺的人物檢索功能更加全面、準確、直觀。人物檢索頁面能夠為用戶提供所查詢人物的基本信息(人物ID、正名、別名、性別、國別)、上下文信息(出現次數、原文追蹤)以及人物關系(交往人物、交往頻次)。以檢索“公孫敖”為例,首先在人物檢索頁面輸入“公孫敖”,繼而呈現“公孫敖”的人物基本信息,可知其人物ID為7731。以人物ID為線索,進一步檢索可得“公孫敖”在《列傳》中以各種稱謂出現的24個文段?!肮珜O敖”人物檢索示例見表6,原文追蹤示例見表7。

表6 “公孫敖”人物檢索示例

表7 “公孫敖”人物原文追蹤示例

3.4 地點檢索

地點檢索頁面供用戶檢索《列傳》中所有地點的基本信息(地點ID、地名、今地點、類別),并使用百度地圖API,添加地圖控件,將《列傳》中出現的地名還原為精確的地圖坐標,并做出相應標記,使用戶能夠從地圖上直觀感受《列傳》地名的具體位置。

3.5 人物地圖——人地同現軌跡圖

人物游歷軌跡是歷史研究中的重要問題之一,但用傳統方法進行研究往往需要進行大量考證,且文字描寫不夠直觀。為了用更加簡潔且直觀的方式來展現《列傳》中人物的游歷軌跡,運用近似計算和可視化方法,根據人物和地點在文本中的同現信息(在用逗號或句號分隔的一個句子中同時出現)生成人地同現軌跡圖,并在檢索平臺網站上提供地圖信息查詢功能。

以“李廣”為例,平臺檢索“李廣”的高頻同現地點見表8。由此可以推斷出“李廣”的游歷軌跡,生成人地同現圖,為“李廣”事跡研究提供可視化線索。

表8 平臺檢索“李廣”的高頻同現地點

4 數據分析與可視化

《史記·列傳》數字人文知識庫及檢索平臺進行了歷史典籍的結構化探索,在數據的豐富性和檢索的層次性上遠超傳統全文檢索數據庫。本節將在此基礎上,對《列傳》進行詞匯、人物、地點、實體同現等層面的知識挖掘與計量分析。

4.1 《列傳》詞匯基本面貌

不同于以往基于字的古籍數據庫,本文構建的《史記·列傳》數據庫以經過大量切分和標注工作得到的《列傳》分詞標注文本為基礎,實現了基于詞的檢索,能夠從詞匯層面對《列傳》全文進行窮盡式的統計,將《列傳》全文的計量分析從單字層面拓展到詞匯層面。據統計,《列傳》共有216 942個詞(247 540個字),其中單字詞有189 683個,雙字詞有23 175個,三字及以上詞語有4 084個,全文以單字詞為主,平均每詞1.1個字。

運用《史記·列傳》數據庫可以進行以往基于字的數據庫無法完成的多字詞統計,這是沒有分詞的數據庫無法實現的工作?!读袀鳌犯哳l多字詞(前10位)見表9。構詞方面,《列傳》中的多字詞以雙字詞為主;詞性方面,《列傳》中的多字詞以名詞為主,其他詞性較少出現;詞義方面,高頻多字詞均與國家、政治體系、軍事、民族等相關,符合《史記》記敘朝代興替、帝王與人臣事跡的文本特點?!读袀鳌犯哳l多字詞詞云如圖3所示。

圖3 《列傳》高頻多字詞詞云

表9 《列傳》高頻多字詞(前10位)

除了對詞匯長度進行統計,還可以從詞性角度對各詞性內部的詞匯分布進行計算,得出各詞類的高頻詞。如《列傳》全文中副詞共出現16 956次,其中最高頻的前5個副詞見表10,由此可知文中最常用的副詞是“不”,頻次高達4 453次,遠遠超過其他副詞。

表10 《列傳》高頻副詞(前5位)

4.2 《列傳》實體信息統計

4.2.1 人物分布

不同于《本紀》和《世家》,《列傳》主要記錄人臣事跡,所涉人物必然相應地與前兩部分有所不同。對文中記錄的歷史人物進行頻次層面的梳理,有助于把握《列傳》的重點人物和事件。據統計,《列傳》出場人物共1 787位,其中未在《本紀》《世家》出現的《列傳》特有人物共1 092位。

統計《列傳》高頻人物有助于把握《列傳》的人物事件主基調,而高頻人物往往有多個不同稱謂,這給人物統計增加了難度。本文使用的為每個人物標注唯一人物ID的方法,不僅在很大程度上降低了“異名同指”和“同名異指”問題對人物統計造成的負面影響,還為《列傳》人物研究提供了人物的不同稱謂頻次方面的研究材料?!读袀鳌分邪闯鰣鲱l次排序前10位的人物如圖4所示,由內圈至外圈分別為人物ID、人物主名以及該人物的不同稱謂占比。

圖4 《列傳》高頻人物及稱謂分布(前10位)

4.2.2 地點分布

傳統的古籍地點研究往往以某地在文本中出現的若干處例句為對象,研究方法以列舉、歸納為主,研究結果也多停留在文字層面。而通過窮盡式的統計與可視化的檢索,本文可收集《列傳》任意地點的所有出處,并將其定位至百度地圖,這為《列傳》地點研究提供了更精細的語料、更高效的方法、更直觀的結果。

據統計,《列傳》共提及地點1 173個,按頻次排序前10位的高頻地點(不包括諸侯國)見表11,出現范圍最廣、次數最多的地點多為河流、古都城。

黃河作為頻次最高的地點,在《列傳》乃至《史記》全文中的地位一目了然,這印證了北方黃河流域是《史記》所記載歷史的主要地理背景。表11中排名第二的邯鄲為趙國國都,排名第八的咸陽為秦國國都(秦朝都城),再次為趙國和秦國的影響力提供了佐證。值得注意的是,《列傳》中邯鄲的頻次高于咸陽,與《本紀》中情況相反,這正體現了秦國和趙國的不同歷史地位:趙國為戰國七雄之一,但后被秦軍攻滅;而秦國兼并六國進而完成統一大業,建立了中國歷史上首個統一封建王朝,因此在以王朝更替為主的《本紀》之中,秦國都城的出現頻次自然比趙國都城高得多。這足以證明從《史記》地名的分布規律中可以窺見歷史信息,為古籍研究提供材料。

表11 《列傳》高頻地點(前10位)

《列傳》中出現的1 173個地點中,有556個未在《本紀》和《世家》中出現過。為了更好地探索《列傳》獨特的歷史地理信息,本文統計得出《列傳》獨有的高頻地點前5位(不包括諸侯國),具體見表12。

表12 高頻《列傳》獨有高頻地點(前5位)

《列傳》獨有高頻地點前5位中包含“烏孫”“康居”兩個西域地名,可見《列傳》有許多前文較少涉及的與西域相關的歷史事件描寫,這值得相關學科的研究人員特別關注。

4.3 實體關系

傳統古籍研究很難自動地、全面地挖掘人物、地點等實體間的關系,并以客觀統一的標準對其進行衡量。本文在對《列傳》進行全文實體標注的基礎上,計算實體ID間的同現情況并進行統計,實體同現次數越多則相關度越高。據此本文進行了《列傳》人物關系密度和廣度、人物的同現地點數、地點的同現人物數的統計和匯總。

4.3.1 人物關系密度

兩個人物之間的同現次數可以作為估算人物關系的指標,往往聯系越緊密的兩個人同現次數越多。本文在《列傳》中選取表13所示的3對同現人物進行分析,高頻同現人物對多與歷史事件、血緣親族、君臣關系等相關。漢高祖劉邦和項羽在《列傳》中為最高頻同現人物對,這正是“楚漢爭霸”的縮影;漢文帝與漢景帝是父子關系,并共同造就“文景之治”;秦昭王和藺相如同現多次,這源于“完璧歸趙”和“澠池會盟”。由此可見,統計《列傳》中的高頻同現人物對可以為眾多歷史人物和歷史事件的研究提供量化參考。

表13 《列傳》高頻人物同現對

為了更好地展現《列傳》眾多人物間的關聯以及交往密度,本文選取《列傳》同現人物高頻前120對,借助ECharts技術繪制人物關系網絡(如圖5所示)。圖5中節點表示人物,邊表示交往關系,根據圖中節點大小、關系網疏密,可以直觀地把握人物交際網絡。從整體上看,《列傳》中的人物交際關系網主要以漢高祖、秦始皇、韓信、項羽、秦昭王等人物為核心。

圖5 《列傳》同現人物關系網絡(前120對)

4.3.2 人物關系廣度

廣度同樣是衡量人物交往情況的參考依據。某一特定人物對的同現頻次可以顯示兩人之間的關系疏密,而某一特定人物擁有的同現對數量,則可以顯示該人物的交往范圍。統計出某一特定人物共擁有多少對人物關系后,可以進一步細化查詢該人物分別與哪些人物有過幾次同現,在研究歷史人物生平時便可比較完整地把握其人際關系。借助ECharts繪制的“李廣”在《列傳》中的人物關系圖如圖6所示。中心節點為“李廣”,周圍節點為與其有同現關系的人物,節點越大說明同現關系越多,也即關系越緊密、相關度越高。由圖6可見,“李廣”在《列傳》中共與29人有過同現,其中相關度最高的是“公孫敖”,“衛青”“李敢”“程不識”3人次之。

圖6 “李廣”在《列傳》中的人物關系圖

4.3.3 人地關系

人物-地點關系是古籍研究的重要問題之一,有助于探究歷史人物生平經歷、把握歷史地點重要程度。但使用傳統研究方法很難從量化的角度讓人們對古人游歷情況有直觀的了解。本文在計算人物-地點同現關系的基礎上估算《列傳》人物游歷地點,分別從人物角度計算人物的同現地點數量、從地點角度計算地點的同現人物數量,這可以作為推斷某特定人物在《列傳》中所記錄的游歷軌跡、某特定地點在《列傳》中的重要程度的參考。

《列傳》中同現地點數最多的前5個人物和同現人物數量最多的前5個地點見表14??梢钥闯鏊腥嗣偷孛c前文統計得到的高頻人物、高頻地點、廣交人物、密交人物多有重合。

表14 《列傳》高頻共現人物、地點(前5位)

5 結束語

古籍數字化不斷向深層方向發展,將傳統典籍的文本轉換為高度結構化的新型數字人文知識庫,將文本中詞匯、人物、地理實體等要素有機組織起來,推動古籍文本可視化、文本信息挖掘等工作,對我國古籍的研究與傳承意義重大,對語言學、歷史文獻學、歷史地理學等學科具有積極的推動作用。本文為進行歷史典籍的結構化探索、推動《史記》深層數字化工作,以《列傳》為對象,將傳統典籍的文本轉換為高度結構化的新型數字人文知識庫,主要完成了以下工作。

● 對《列傳》進行詞性、實體標注,完善《列傳》人物表、地名表等6張數據表,在此基礎上建成了基于詞和實體的、結構化、一體化的《史記·列傳》數據庫。這對南京師范大學開發的《史記·本紀》《史記·世家》數字人文知識庫起到了重要的承接作用,為《史記》整體數據庫的構建做了豐富的內容補充。

● 基于數據庫開發線上檢索系統,檢索功能包括全文檢索以及傳統數據庫無法實現的基于深度標注的詞頻詞性檢索、人物檢索、地點檢索等,并結合百度地圖實現人物關系、人地關系的可視化。

● 在數據庫和檢索平臺的基礎上,本文進行了一系列數據統計和可視化分析。首先描寫《列傳》多字詞的基本面貌,計算得到《列傳》平均每詞1.1個字。其次統計《列傳》人物、地點分布情況,列出了《列傳》的高頻人物和地點,得出《列傳》共出現人物1 787位、地點1 173個。且較之《本紀》和《世家》,《列傳》特有人物共1 092位,特有地點共556個,量化了《列傳》與《本紀》《世家》的差異。最后,量化《列傳》人物關系和人地關系,對人物-人物、人物-地點的交往密度和廣度進行計量。

但受制于時間、人力等因素,本文研究仍存在不足之處有待在未來的工作中不斷改進,具體如下。

● 完善標注規則,提高標注準確性。本文數據正在持續校對當中,后續將對細節問題進行補充和校正。在此過程中需要及時記錄并整理所遇到的問題,相應地對標注規則進行細化。亦可通過開放在線標注校正系統,為邀請各界專家學者加入標注校對工作提供便利條件,最終形成系統性的標注規范,使《列傳》標注文本具有更高的準確度。

● 后續將繼續擴大數據規模,將《本紀》《世家》和《列傳》三部分數據庫進行整合,形成更加完整的《史記》數據庫。

● 嘗試運用多種數字化技術,對包括人物關系、人地關系在內的實體關系計算進行改進,使其突破限于近似估算的水平。

● 嘗試設計交互可視化系統,使可視化效果更加多維、豐富。優化檢索平臺性能,使檢索平臺更好地為社會服務,起到科研和科普作用。還可以與其他學科和數據庫聯動,拓寬研究思路,得出更加多層次、寬領域的研究成果。

猜你喜歡
知識庫古籍史記
少年品讀 史記
少年品讀 史記
中醫古籍“疒”部俗字考辨舉隅
關于版本學的問答——《古籍善本》修訂重版說明
少年品讀 史記
少年品讀 史記
基于TRIZ與知識庫的創新模型構建及在注塑機設計中的應用
關于古籍保護人才培養的若干思考
我是古籍修復師
高速公路信息系統維護知識庫的建立和應用
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合