?

邊疆學數字體系建設的基本內涵與核心內容

2024-05-02 11:36陳建紅苗威
新文科理論與實踐 2024年1期
關鍵詞:數字人文新文科

陳建紅 苗威

摘要:新文科的發展,尤其是數字人文實踐的深入展開,為邊疆學數字體系建構創造了契機。利用數字技術實現全球邊疆文獻的多維聚合,可以更好地凝聚資源,構建邊疆學的文獻基礎;通過人文數據生產平臺進行邊疆研究數據的持續生產和標準制定,可以構建邊疆學的數據基礎;通過地理信息系統建設邊疆多維空間呈現框架和與之相匹配的基礎空間數據體系,可以構建邊疆學數字空間基礎。三者通過網絡平臺實現邊疆學文獻資源聚合、人文數據融合和史地空間綴合,進而形成邊疆學智能增量,層疊遞進數字體系。

關鍵詞:邊疆學;數字體系;數字人文;新文科

DOI: 10.20066/j.cnki.37-1535/G4.2024.01.08

基金項目:本文系國家社會科學基金項目“東北邊疆史數字人文平臺構建與研究”(23VRC036)、教育部重大攻關項目“新時代推進新文科建設的理論與實踐研究”(21JZD058)的階段性成果。

自20世紀80年代第三次邊疆研究熱潮以來①,邊疆學的建構已取得相當的成效。從學科頂層設計到邊疆理論建構②,再到一系列具體邊疆問題研究的展開,一眾學者著力通過回答什么是邊疆學③,怎樣建構邊疆學④,建設怎樣的邊疆學才能滿足當前國內外環境下的時代需求⑤,形成具有中國特色的邊疆學科體系⑥、學術體系和話語體系⑦,進行了深入的探討⑧,取得了一系列重要成果①。但時至今日,邊疆學“三大體系”建設尚未完成②,“其學科地位有待被承認,在有關中國邊疆學理論與方法等諸多問題上學界還存在較大分歧,取得共識尚任重道遠?!雹圻吔芯康目鐚W科特性、研究區域的分散性、研究資源的零散性、研究人員的分散特性,在相當程度上影響了“邊疆”作為一個學科的凝聚性。新文科的發展,尤其是數字技術在人文領域的應用,為邊疆研究領域的學科融合、資源整合和科研團隊凝聚等提供了良好契機,為邊疆學學術資源體系的架構提供了新的嘗試路徑。本文主要從邊疆學文獻資源聚合、數據生產平臺建設和空間數據體系構建三個方面,探討新文科視野下中國邊疆學數字體系建設的基本內涵和核心內容。

一、邊疆學數字體系的基本內涵

我國的新文科建設發端于2018年,教育部高教司在“四新”建設中明確表述為“新文科”。2019年5月“六卓越一拔尖”計劃2.0正式啟動后,新文科建設引起社會廣泛關注④。新文科在形式上體現了需求導向下多學科的交叉與融合,在學理上追求科學性與價值性的統一,在研究范式上注重新技術、新思維引導下的方法創新。這種守正與鼎新相輔相成的時代特征,與邊疆學的建構機理高度契合。邊疆學建構的本質是在“治國必先治邊”的時代使命指引下,凝聚資源、人才,形成學科陣地,科學地厘清中國邊疆、邊界和周邊國際環境的歷史與現實問題,創造性地解決邊疆未來發展問題⑤。

研究資源的統合、共享是邊疆學建設的重要基礎。從新文科的視角來看,數字基建薄弱是邊疆研究資源高速增長背景下面臨的問題,具體包含三層邏輯:一是,全球文獻數字化進程越快,共享程度越高,中國邊疆文獻的潛在增量就越大,類型就越多元,在沒有建構相應數據收集、整理與管理體系的情況下,中國邊疆數據的相對分布狀態就越零散;二是,數字技術越發展,全球文獻數據化程度越高,從數據權屬到數據話語的轉換程度越快,在缺乏相應技術體系和數據標準的情況下,中國邊疆研究相對的數據基礎就越薄弱,國際數據話語權被稀釋的可能性就越大;三是,邊疆文獻越多、數據體量越大、參與研究的學者越多、學術成果越多,邊疆學構建的邏輯就愈發復雜、多元⑥,在缺乏凝聚性邊疆數字空間平臺的情況下,整合難度就越大,分歧大于合力的風險就越高。這種狀態是由邊疆研究內部復雜性和外部的局限性所造成的。

在邊疆文獻內部存在著基于空間、時間和內容三個層面的零散性。在空間層面,邊疆研究的領域被約定成俗地分為“東北邊疆”“西北邊疆”“北部邊疆”“西南邊疆”“海疆”等多個模塊,這些模塊又以黑、吉、遼、蒙、甘、新、藏、云、桂等省級行政區劃進行細部分類,至于以邊疆民族為基礎的分類則更加細碎。這樣的分類在專題研究方面固然有利于專注、深耕,形成術業有專攻的專學效果。但實體空間上的連續邊疆,因“人力有時窮”而被迫切割成模塊。從邊疆文獻整理的角度來看,當前各類邊疆文獻的整理成果也多是依據上述空間模塊進行分類,這就造成了已出版的邊疆文獻重復、隔斷,“繁而不全”,有盲點而不知的馬賽克形態。邊疆學的目的是構建完整的邊疆研究體系和人才培養體系,缺乏完整的、有機統一的數據資源體系,邊疆學科體系的建構在基礎上就相對薄弱。

在時間層面,現有的邊疆研究基本是分段的,粗略可分為古代邊疆問題、近現代邊疆問題、當代邊疆問題三個大段。三大段又可細分若干小段,或各類帶有時間節點的專題,如古代邊疆研究,通常依據中原王朝更迭分為先秦、秦漢、魏晉南北朝、隋唐、五代、宋遼金、元、明、清等階段;近現代時段劃分,專注不同疆域空間的研究者各有理解。時間是線性連續的,時段劃分是人為的產物,邊疆歷史的時間與傳統的中原王朝更迭盡管存在著一定程度的關聯變動,但不同歷史階段和不同方位的邊疆,其聚居民族、歷史文化、宗教信仰、社會風貌以及自然環境、生產力水平、生產方式和生活方式都不盡相同①,不同區域的邊疆時段劃分自然也存在差異。很多邊疆問題恰恰就出現在一些不相一致的時間拐點,因此,研究資源的時間隔斷,不利于研究者從整體視角解決問題。

在內容層面,邊疆史料呈碎片化分布狀態,類型上經、史、子、集皆有,不同時代各有特色。唐末五代以前的中國邊疆民族地方政權,大多缺乏系統的史事記錄,相關歷史文獻散見于中原王朝正史、私家野史、筆記小說、詩詞唱和等文本之中,屬于缺席者的轉述,或者“觀察者”的描述②。即便像渤海國這樣建制成熟的邊疆地方政權,也沒有史書傳世,需要系統輯佚,連綴拼接才能形成史料專題。初步統計,渤海國1662條史料散布于133種文獻之中,分布情況為中國24種,朝鮮半島46種,日本24種,另有金石文獻39種,其散碎狀態可見一斑。宋遼金以降,又有諸如西夏文、契丹文③、蒙文、滿文等資料④。近代邊疆文獻類型更加龐雜,除史志外,還有諸如外交檔案、報刊、地圖等,不僅包含境內材料,還涉及相當一部分境外資源,除紙質檔案外,還有音、視頻等媒體數據⑤。當代邊疆文獻資源及研究成果,隨著大數據的發展呈級數增長,以學術論文和專著為主。在這種情況下,傳統的以“時間—區域”專題為基礎的文獻整理和出版,難以適應數量驟增、類型多元的文獻數據“井噴”狀態;同時,整理出版的文獻成果,本身仍然處于“信息孤島”狀態,不能形成連續的時空體系,不利于構建完整的邊疆文獻體系。

在研究數據方面,以文科學者群體為主的邊疆學研究者,對外部的技術環境認知存在一定的局限性。隨著多種類型的數字化研究資源的積累,以及諸如數據處理、數據管理、數據挖掘、數據可視化、機器學習等技術的應用⑥,為邊疆研究的數據體系建構提供了必要技術條件。社交網絡分析、空間分析、情感分析等研究方法,在研究過程科學化、結果客觀化、呈現方式現代化方面的優勢,為邊疆數據體系建構提供了需求動力。數據的生產過程本身包含的一定程度的知識生產過程。掌握邊疆數據的生產主動權,便在掌握邊疆研究資源的同時,也在一定程度上掌握了邊疆話語的主動權。建構具有中國特色的邊疆數據體系,對于改變當前“文獻在國內,數據在外國”的被動狀態,建構中國邊疆學的數據優勢,形成話語優勢,具有重要意義。

當前邊疆研究領域,已經出現了以數據分析①、文本分析為主要研究方法的研究成果②,且對數據分析的研究方法進行了總結③。但在傳統研究仍占主流的背景下,數據的重要性在邊疆研究領域尚未形成共識,生產數據的技術路徑和使用數據進行研究的方法尚處于探索階段,當前的邊疆研究的數據基礎設施相對薄弱??傮w來看,數據生產仍呈現出基于研究需求的個案化數據處理狀態,隨著研究的結束,數據生產的過程也隨之停止,產生的數據以及生產數據的方法,一般也都保存在研究者個人手中。邊疆研究領域的數據尚未形成可持續的規?;a,現有邊疆研究體系中的數據標準待定,數據管理與共享體系尚未建立。邊疆學的構建在理論上強調學科體系、學術體系、話語體系的建構,這種建構在基礎設施建構方面,應該充分考慮當前大數據發展趨勢,重視數據體系建設;具體而言,就是要落實基礎數據積累、數據標準制定和數據共享體系建設。

在數字空間方面,邊疆學亟需一個承載文獻、數據和現代研究成果體系的數字化空間平臺。邊疆本質是一個包含歷史疆域、現實疆域、數據疆域的多維空間④??臻g在邊疆問題研究中屬于客觀載體,在跨越現今國界的古代政權、民族歷史脈絡的敘述中,空間視角具有擱置爭議,推動研究深入的可行性。同時,數字空間又是權屬界線清晰化、精確化的重要數據依據,一些引發爭議的空間細節,可以通過空間測量、空間定位明晰模糊的界線和爭議的區域。對于文獻研究而言,文獻之分布、數量、內容涵蓋范圍的空間可視化,是邊疆研究數據區域分布評估的重要顯性載體。邊疆學文獻體系較為理想的承載方式是以網絡歷史地理空間為底層框架,搭載文獻、數據存儲,呈現研究成果、研究人員的空間分布狀態的多要素空間可視化體系。如此,對于邊疆學的學科建設而言,可以實現三個方面的核心支撐:其一,有利于中國邊疆文獻、數據在邊疆虛擬空間中的聚合。通過可視化呈現可以清晰地展現邊疆區域文獻、數據的分布情況,分析優勢地區和薄弱之處。對于現代研究成果、研究人員的空間化展示,則可以實時分析邊疆研究整體狀態,查找優勢領域和薄弱環節,以此為基礎,優化原有的分區域研究,推動基于邊疆空間的整體性研究、跨區域研究、常規分區的結合部研究;其二,有利于推動多學科交叉融合。數字化空間平臺本身就是多學科交叉的產物,其在資源上的包容性、空間上的整合性,可以實現多學科資源的凝聚,也為多學科視角下的邊疆研究提供空間參照,尤其在資源凝聚方面,為多學科交叉融合的邊疆學建構提供底層數據基建支撐;其三,推動人才的凝聚與邊疆研究團隊的優化。在新文科背景下,多類型人才凝聚,已然具備理論上的可行性,在包括邊疆領域在內的很多研究領域已經付諸實踐。對于邊疆研究而言,基于空間的邊疆研究成果和與之相對應的人才關系網絡的建構,邊疆研究新的興趣點(POI)在空間中的呈現,有利于推動基于興趣點的新的研究團隊組合。

新文科建設中的新和舊,在內容、形態、路徑、目標等方面既有不可忽視的差異,又有一脈相承的延續①。邊疆研究在數字人文技術的加持下,凝集傳統邊疆研究優勢,形成新的發展動力,以空間為載體,把文獻、數據和人才日益融合為一個整體,把邊疆學頂層設計的“規劃圖紙”落實到“底層地基”之上,具有實踐上的可行性。

二、邊疆數字文獻的多維聚合

近年來, 信息聚合已成為網絡信息組織和社會化信息分享的主要方式之一,主要是利用技術手段對多源異構信息進行轉換、組織、集成和合并,生成符合特定需求的聚合結果②。 這與文獻學在理念上具有相通之處。文獻學研究的目的在于:全面認識文獻,學會在浩如煙海的文獻中,用較少的時間,找到盡可能全的自己所需要的文獻資料,而且有能力對原始文獻作整理加工,除自己使用以外,還可以供更多的人使用③。當前,文獻數字化進展迅速,全球資源共享已成趨勢,基于數字文獻的聚合實踐已經展開。國內已經在館藏資源④、數字文獻⑤、網絡信息資源等方面有了一定程度的應用⑥;在歷史檔案⑦、地方志⑧、學術期刊⑨、書目等專題資源整理中有了初步實踐⑩。國外已出現了諸如韓國歷史信息集成系統等運行成熟的專業文獻聚合平臺。借鑒海內外經驗,通過數據平臺實現邊疆研究資源的多維聚合,構建具有中國特色的邊疆文獻體系,可以為邊疆學科體系、學術體系和話語體系建設提供必要的基建支撐。

從數字人文的視角來看,邊疆文獻多維聚合的整體模型包括資源搜集、資源整合、數據庫建設、服務管理與內外應用四個層面,這四個層面又通過邊疆研究資源數據統合與規范,實現內外數據標準的統一與數據資源建設的持續增量(模型參見圖1)。

在資源收集層面,邊疆文獻資源的存儲單位主要包括公共圖書館、科研機構、出版機構以及學術團體等。公共圖書館包括中國國家圖書館以及邊疆地區各級各類圖書館、高校圖書館等收藏有邊疆相關文獻,多數文獻可以實現書目查詢,部分已完成數字化;邊疆科研機構的文獻資源各有特色,具有地域性特點,其中有很多尚未公開出版的檔案、手稿等珍貴灰色文獻。近年來部分學術出版機構將自身出版的學術文獻進行數字化加工,并通過數據平臺共享,其中也包含有邊疆文獻。邊疆研究團隊主要通過長期積累、文獻整理類課題及相關數據庫建設進行邊疆資源的搜集與整理,具有明顯的專題性特點??傮w來看,各機構資源仍處于散布狀態,尚未構建統一的數據標準和共享機制。海外漢籍與中國邊疆相關的檔案文獻資源數字化發展迅速,如韓國國史編纂委員會等相關機構所公布的資源中包含有中國邊疆研究相關的數字化資源,日本近代對中國邊疆的調查情報和檔案資源,美國哈佛燕京等圖書館所藏中國漢籍、方志及地圖資源,美國國會圖書館邊疆會議項目(Meeting of Frontiers)①和藏族口述史項目(TOHAP)等都是中國邊疆研究不可忽視的重要資源②。其余還有諸如俄羅斯科學院東方文獻中心等漢學機構所藏中國邊疆相關資源,歐洲諸國圖書檔案機構所藏中國邊疆研究資源等。邊疆數字化文獻資源體系的構建,主要是通過國內公共文獻資源題錄采集、海外公共資源監測、國內研究機構自建數據資源統合、海外研究機構開源數據采集、灰色文獻收錄與數字化整理、音視頻資源收集與整理,逐步形成全球邊疆文獻資源動態監測體系,為文獻資源聚合框架的搭建提供基本的數據基礎。

資源整合層,主要是通過資源采集和數字化加工,實現海內外邊疆資源的多維融合。由于邊疆文獻類型多元,研究應用范圍廣,在文獻信息采集過程中需采取最全、最優原則,即對于可以采集原本圖像、文本全文和文獻詳細目錄的數據,相關信息要一并采集,盡量提高信息的完整度。對于同一文獻出現在多個資源平臺的情況,優先選擇權威性較高的平臺,同時兼顧其他平臺,并在數據關系中對多個文獻位置進行標注,以便做好資源備份,確保數據質量。采集后的數據通過工具、程序沙箱進行數據整理,根據邊疆研究文獻引用、分析習慣和后期數據庫元數據設計需求,形成標準數據。

數據庫層,通過構建交互性文獻存儲體系,實現文獻的按需分類和個性化管理;通過邊疆基礎文獻庫、研究成果庫、海外資源庫、為基于歷史研究者個性化需求的邊疆專題庫的建立提供基礎數據和技術支撐。數據庫的核心功能主要包含:在數據格式上兼顧數據標準化和數字資源的特殊性,實現更多層次、最大范疇間的文本融通①。數字化文獻統一采用支持PDF附件下載、文檔及其目錄在線顯示的技術框架,并通過接口實現全文檢索;文本文獻統一支持TXT格式,統一存放在底層,通過文獻分類結構,以四庫為標準構建出經、史、子、集的古典文獻分類和現代文獻的細部分類,并實現跨文件檢索。在整體功用上兼顧人文學科實用性和數字人文的前沿性。對于人文學科而言,要實現資料檢索結果的快速響應和標準化數據輸出,要通過編目和內部目錄實現文獻的體系化瀏覽,并在二者的基礎上通過拓展解釋體系實現從文獻閱讀到知識學習的無縫銜接和多元拓展。在數字人文技術方面,要把數據關聯、知識圖譜和數據可視化理念融入到文獻數據庫的設計之中,在設計上預留足夠的拓展接口,為實現以文獻為基礎的古史知識體系的構建奠定基礎。

以深度學習的基本理念架構數據庫的成長邏輯,通過文獻增量機制和知識關系進化機制,實現文獻數據總量、專題文獻子庫數量、知識關系網絡與數據庫操作記錄共同成長。如此打破傳統數據庫的“上傳—供給”機制,體現了“操作即建設”的智能成長邏輯。在文獻數據庫的基礎上,通過交互操作實現研究者按照個人需求構建專題文獻數據庫的愿望。

服務應用層,主要是根據文獻資源的內容和權限性質,通過用戶分級實現合理化的資源分享。文獻的權限主要是指文獻本身授權情況,按照《著作權法》第二十一條規定,“公民的作品,其著作權截止于作者死亡后第五十年的12月31日。如果是合作作品,截止于最后死亡的作者死亡后第五十年的12月31日”。因此,一般而言,古籍的版權歸于公共領域,但電子書的版權根據各自處理的情況不同,所有權需要區別考量。尤其是經過系統的數字化加工和校訂的數據,其開發單位通常會主張版權②。明確的開源數據一般可以直接使用,比如韓國公共數據中心就明確提出,“作為向國民開放的公共數據集中的空間,任何人都可以使用公共數據門戶網站”③;研究機構的公開數據,一般默認可以用于非商業用途,在學術研究中是可以規范引用的,如中國歷代人物傳記資料庫(CBDB)④、中國歷史地理信息系統(CHGIS)數據都配有引用說明⑤。大多數學術論文的電子版數據都發布在商業性收費網站之中,這些數據有的有專門的數據格式,如中國知網(CNKI)的CAJ格式,超星的PDG格式。有的則為通用的PDF格式,有時PDF格式也會通過加密或水印方式標注版權,這些數據一般只有付費后才能使用。非公開數據是指一些科研機構或者個人手中所掌握的灰色文獻數據,這些數據原則上所有權歸其所有者,但超過版權保護期的文獻數據,一般很難主張版權。在邊疆數據管理過程中,需要嚴格區分數據權限,在做好數據安全防范的同時,也不宜侵犯他人產權。根據文獻的權屬情況和內容性質,通過分類導航、用戶認證、權限分級,實現用戶與資源的合理配置。外部應用面向大部分邊疆學習與研究者,以實現開源資源的共享和學術信息的發布。同時通過文獻傳遞平臺,滿足中間用戶的部分特殊文獻需求。內部應用主要面向特定邊疆研究群體,通過內網灰色文獻平臺和非公開資源平臺,實現特種文獻的定向供給。

三、邊疆學數據生產平臺建設

邊疆研究,特別是邊疆重大綜合性問題的研究,需要從大量復雜的文獻堆疊中高效提取研究所需信息,這就需要進行文本計算。文本計算的前提是在邊疆數字文獻的基礎上進行深度處理,建構邊疆研究的數據基礎(Data Infrastructure)。一般認為數據基礎主要包括:數據資源及其容器,用于管理和提供數據共享的標準和技術,為數據資源和數據基礎設施的使用和管理提供參考的指南和政策,管理數據基礎設施的組織,參與貢獻、維護數據基礎的團體,以及對數據基礎擁有重要影響力的用戶群體①。這里重點探討邊疆文獻資源的聚合、生產與應用平臺的架構。

邊疆數字人文平臺建構的基本理念是專業化、通用化、平臺化和簡便化。專業化是指平臺以邊疆研究為服務對象的定制設計,其技術、文獻、文本、數據和研究模型都是以邊疆為中心的,并且在邊疆研究中不斷完善進化;通用化主要是在邊疆數據處理、研究嘗試等專題實踐的基礎上,不斷完善各種常用的操作范例和算法模型,明確邊疆研究的數字人文需求,實現常用功能的復用和專業內通用;平臺化是指這些專業的通用功能,通過數字人文平臺統一呈現,實現基于互聯網或局域網內的共享使用;簡便化主要是針對人文學者群體而設計,即沙箱化文本計算的編程環節相對簡捷,人文學者只需點擊、拖拽即可完成大部分基礎操作。

基于上述理念,邊疆數據生產平臺的基本架構邏輯是以邊疆研究者為核心,以跨境跨語言數據爬取、基于文本庫的數據抽取、文本智能標點、分詞及詞性標注、圖譜分析、歷史地理坐標生成、機器翻譯等模塊為核心功能層,以滿足邊疆數據采集→專題文獻輯錄→文本標準化加工→中外語言障礙破除→文本數據化→數據分析→數據可視化→空間可視化等一整套邊疆數據生產技術需求②(基本架構參見圖2)。

基于邊疆數據基礎薄弱的現狀,數據生產平臺的基本架構邏輯包含五重內涵:一是基礎數據的積累與供給。數據生產平臺后端數據庫中存儲邊疆數字化研究所需的大量公共數據和專題數據,在數字人文實驗室的支撐下,這些數據會持續更新和增添,使數據體量逐漸增大,逐步涵蓋邊疆研究的各個方面。同時,通過文本計算、深度學習和專家校驗,使數據內部結構和數據信度不斷優化,數據供給質量逐步提升;二是數據模型與操作樣例的供給。平臺的主要功能包括盡量詳細地提供操作步驟說明、數據請求樣例和輸出結果應用示例,未來逐步添加研究成果展示。使研究者只需要通過修改數據樣例,導入自己的數據,即可獲得自己想要的分析結果,并可以下載平臺內的成品數據;而對于數據在研究中的應用,可以找到國內外較為成功的參考樣本。三是程序和算法的沙箱化??紤]到邊疆研究群體的文科特性,平臺在設計過程中極力避免代碼編輯,程序和算法都通過服務器存儲于后端,并且可以通過前端的操作請求多線程并發啟動。為了克服前端通用程序在處理特殊數據和特殊需求上的局限性,在前端設置了數據請求上傳功能,研究者可以根據自身的需求,將數據或任務請求上傳至平臺,平臺將以實驗室為依托啟動定制服務。四是前端互動操作沙箱化。前端功能基本上只保留數據樣例展示、數據上傳、結果下載、功能選擇等幾個核心按鍵,將各種功能集約打包形成功能沙箱,力爭做到一鍵解決絕大部分問題。后期隨著全網應用的展開,功能將根據需求逐步優化升級,確保數據一次性輸出的成品率。五是多種數據樣例可選擇性??紤]到不同研究者使用的數據閱讀工具、分析工具的不同,每種數據都盡量允許輸出多種數據格式,如txt、json、csv、xml、kml、shpfile等,為了照顧常用辦公軟件的使用者,部分數據還支持doc、xls等文檔格式輸入輸出。如此,在盡量讓數據平臺保持高效、簡潔的同時,更接近人文學者的日常操作習慣。

邊疆數據平臺的核心功能主要包括圖像文獻文本化、基于文本庫的專題文獻輯錄、文獻的跨境跨平臺抽取、智能標點、本體模型構建、機器翻譯等。隨著后期應用成熟數據模型的增加,平臺功能將逐步增加或實現功能融合①。

圖像文獻文本化在平臺中主要體現的是其高效性和高信度的特點。第一,平臺先期完成邊疆基礎文獻的文本數據提取工作,并持續推進,對于利用率較高的古史文獻,當客戶端發送的請求與已入庫文本匹配時,可以直接反饋,提供成熟文本輸出;第二,平臺先期積累一部分命名實體數據,尤其是生僻、易錯字詞的匹配邏輯,對于所識別的文本可以進行批量的錯誤校正①;第三,對于需要手動校正的文本,使用平臺多線程在線文本對照審核系統,可以快速完成文本數據結果的輸出,同時,輸出文本又可以進一步豐富文本數據庫。如此可以實現文獻文本化的高效率和良性循環。

多平臺抽取功能可以拓展邊疆研究群體的資料獲取路徑和方法。路徑方面,研究者可以通過平臺,克服語言和網絡障礙,了解更多的海邊疆文獻及數據資源。方法方面,相比于傳統的逐一翻查、逐個下載,批量按需抽取的效率會出現質的飛躍。如此,可以很大程度上提升研究者使用數字人文方法的興趣,同時,也可以提高平臺的吸引力。文本計算方面,專題文獻的抽取,基本原理是通過全文文本庫集約邊疆文獻文本,通過通用程序實現平臺化操作。如此,可以實現文本數據的集約與增量。隨著邊疆文獻數據化工作的推進,文庫中的數據會越來越完善,研究者從文本庫中抽取到更加全面的資料。同時,省去了復雜的程序調試和運行環節,通過服務器,一次性完成從請求到結果的工作,使操作更加簡便。

在線翻譯,主要是針對邊疆研究領域域外資料翻譯方面的需求。東北古史資料主要涉及韓、日方面,兼有英語需求,中國常用的百度翻譯不夠準確,而中國知網在線翻譯只在專業詞匯翻譯方面比較有優勢。在實際的使用中,日語翻譯最為理想的在線翻譯平臺是Excite②,韓國語更為常用的是Papago③,英語則以谷歌在線翻譯更加流暢。一方面這三個網站在中國使用不夠穩定,另外,研究者常用的慣例,通常也是多種翻譯進行比較對照,對歷史專業的命名實體,也需要遵循各國的翻譯慣例④。同時,基于頁面的翻譯,通常也只支持粘貼復制,限制字數且不能保持翻譯文檔的原有格式,給整篇、整本或多文本批量翻譯造成了較大的麻煩。針對上述需求,實現多個在線翻譯平臺的集中,并通過后臺算法實現前端或上傳數據,后臺連續操作,完成文檔翻譯的基本功能。當使用者上傳文檔時,后臺根據所需翻譯平臺約束字數,采用段落優先原則,切割文本,分段、連續翻譯,且在寫入文檔時,保留原有文檔格式。當格式為表格時,機器則采用逐一讀取表格—翻譯—轉寫入表格的方式,保持翻譯的準確性和格式復原。

數據可視化,主要是采用交互操作相對簡便的neo4j模型完成實體關系可視化⑤,采用數據樣例相對豐富的Echart模型實現文本分析數據可視化⑥。為了便于操作,在平臺中設計了數據示例樣表并共享代碼。初級研究者只需要下載數據示例量表,然后根據需要修改數據名稱和數據值,即可相對簡便地實現自己所需要的數據可視化效果;略熟悉后,研究者可以通過修改代碼樣例,進行更為便利的操作。

通常情況下,邊疆數據生產、文本計算、統計分析和數據可視化都要在實驗室中完成??紤]到邊疆數據基礎薄弱、文科研究者參與度低、可資借鑒的研究樣例少等現實問題,可以先期設計邊疆數字化研究示例體系。通過已經驗證的成熟的數據,展示由文本分詞→序列標注→文本分析→數據可視化的基本過程和各類研究分析實例。后期,通過實驗室數據支持,逐步完成基礎數據和計算模型的積累與推廣。

四、邊疆空間數據體系的建構

地理空間是人物與事件的基本載體,一定時期的歷史是特定歷史人物在特定地理空間中活動的集合,研究者追尋歷史真相的主要任務就是探尋時間、空間、人物與歷史事件的契合。無論是追尋特定歷史人物的活動空間,還是厘清特定空間中歷史人物的關系,對歷史空間的探究都是不可或缺的??たh州府、地方民族政權在邊疆空間中的交錯、疊加,各民族的變革與興衰更迭,構成了邊疆歷史的一大特色。邊疆歷史的形成與變遷、中國與周邊、邊疆與邊界、跨界民族與政權等邊疆史的核心議題都與歷史空間有著緊密的聯系①。歷史地理信息系統可以把傳統地圖的表現手法與計算機制圖、數據庫管理與信息查詢等現代化手段緊密地結合起來②,通過矢量歷史地圖和基于歷史地理文獻的歷史地理信息編碼,把邊疆歷史空間以時間軸為基礎分段、逐層疊加。通過矢量地圖與文獻的關聯,形成研究所需的專題歷史地理信息數據體系,精確地呈現特定歷史空間狀態,輔助研究者拓展研究深度,優化研究結果表達。對于中國邊疆歷史研究而言,在研究的前期準備、研究過程校驗和研究結果表達等方面對歷史地理信息的需求主要包含以下兩個方面:

一是邊疆史地文獻的空間可視化。邊疆歷史地理資料在文獻中分布相對分散,脫離地圖的地理信息描述失于直觀與精確。因此,需要打通歷史地理文獻到歷史地理信息數據,再到歷史地圖的技術通道,實現歷史地理文獻的數字化閱讀,提高研究者查找、閱讀歷史地理文獻的效率。從數字人文的視角來看,這種問題的解決較為直觀的方法是以歷史地名為基本索引,將歷史地名呈現在基于WEB的歷史地圖上,然后通過地名關聯組建基于地名的基礎地理信息圖譜,再通過通訊機制將地名與關聯的歷史地理文獻連接起來,即通過數字地圖頁面實現歷史地理信息的空間化建構,以此為基礎實現文獻的數字化閱讀。

二是邊疆空間基礎數據體系的構建。邊疆空間基礎數據體系主要包括歷史地理信息、文獻內容空間注釋、數據空間可視化三個核心模塊。歷史地理信息方面,主要是建構明確的點、線、面空間信息體系。點,是指由一組坐標數據和歷史屬性數據構成的空間位置信息,如歷史地名、山峰位置、遺跡的數據等③;線,是由一組規律的坐標信息表示的線狀矢量數據,如河流、交通、邊界、行進路線圖等;面,是邊疆研究中用于表示一定區域的空間矢量數據,如邊疆古代地方政權的疆域范圍,邊疆郡縣、羈縻州府的基本統轄區域,以及不同時期的邊疆空間范圍等。邊疆文獻內容的空間注釋,主要是對邊疆文獻中出現的地名、人物、事件等帶有空間屬性的實體信息進行基于WebGIS的空間位置標注,如邊疆歷史地名空間位置及其變遷、遺跡—地名關聯關系、人物及其關聯群體空間活動軌跡等,使研究者更加精確、直觀地理解相關信息;數據空間可視化,是指空間數據分析結果的輸出形態,如高句麗移民的空間流向與分布形態①,遼金元城址的空間分布②,東北與東亞交通網絡等③。歷史地理信息支持三維編輯和顯示,以便于更加細致地復原諸如特定的歷史地域的自然環境、特定歷史三維場景,或者將已經通過其他形式復原的歷史建筑效果融入特定的歷史地理環境的三維場景之中,以支持邊境、疆界的微觀形態研究或研究成果的呈現。

構建研究者可以便捷實用的地理信息數據體系是邊疆研究的現實需求。邊疆空間數據保存形式多元,多是模糊、不規則的非量化數據,在信息調用的過程中,需要通過既定的空間數據基礎,降低數據獲取的難度和數據分析模型的易用性,由此,貼近邊疆研究群體的操作習慣和技術現狀,搭建無障礙閱讀環境④。上述需求,從數字人文的角度分析,主要包含SQL數據庫、GIS內核、屬性功能、系統間通訊協議、信息實時增量儲存算法等一系列技術模塊。這些技術模塊通過網絡平臺的組織架構,形成可供人文學者使用的WebGIS編輯環境、圖層屬性管理、注釋屬性管理等功能模塊。

WebGIS編輯環境主要是指基于Web界面的歷史地理信息編輯功能的集合,包括地圖操作、圖層管理、要素標繪等功能。地圖操作是對已有數據的瀏覽、觀察與篩選呈現,包括對地圖界面的縮放、過濾、平移、定位、動畫播放、2D-3D視圖切換等功能以及3D模式下圖層旋轉等。例如,通過WEGGIS界面查看渤海歷史地圖時,通過逐層放大,能夠依次看到渤海國在東亞地區的空間位置、渤海京府州縣區劃、城址位置、具體城市遺址的輪廓線圖等各種信息。邊疆空間的整體變遷,可以通過地圖操作實現從宏觀到微觀的呈現。切換功能是指在遺址、遺物、人物、事件、民族分布不同專題矢量圖層間切換,也支持現代地圖、衛星圖、歷史地圖的切換,方便研究者進行對比。

圖層管理主要包括圖層加載、移除,圖層順序調整、透明度設置等。不同專題的歷史地理信息數據在WebGIS前端中是以圖層形式呈現的。邊疆空間數據體系是由一個個的專題數據共同組合而成的,因此,其在前端顯示為數個地圖圖層的疊加。例如,唐代渤海國數據由五層矢量數據構成。第一層為渤海國的五京、十五府、六十二州、一百余縣的坐標點;第二層為《中國歷史地圖集》渤海國歷史地圖;第三層為渤海國遺跡數據;第四層為高句麗遺跡中與渤海國重合部分;第五層為遼代東京道州縣與渤海國原有疆域重合部分、沿用州縣、改遷州縣等數據。在研究應用中,不同研究選題的數據需求不同,需要重點觀察某一項或者幾項數據,加載所需圖層,或者移除無用圖層,以便作出更清晰的判斷。圖層比較的參照視角不同時,需要調整圖層的順序,一般來說,作為研究使用的關鍵圖層置于上方,參考圖層置于下方。多圖層綜合判斷時,為了看清楚時空差異,需要調整圖層透明度進行直觀比照。

要素標繪主要是根據歷史地圖的繪制需要,對不同時期,不同類型的點、線、面要素進行區別繪制,以達到在同一顯示界面中內容不同的效果。邊疆地圖標繪體系建設是邊疆空間數據建設的重要工作之一。其主要內容包括:基本圖元,即點、線、面及對應的屬性字符標注;區域標繪,即在一般性多邊形面的基礎上通過風格渲染形成區別性顯示;箭頭標繪,即通過線性、顏色、粗細等標繪不同的歷史發展動態;行政區級別、文物類別以及其他象形符號標繪,即在點要素的標繪基礎上,實現多元化的要素呈現①。標繪庫設計的基本原則是綜合通用性與地方歷史信息的特殊性。通用性方面,參照《中國歷史地圖集》和《中國文物地圖集》相關繪制標準制設計統一樣式,以便實現數據融合;特殊性,主要是指對通用標繪中未曾涉及的邊疆特有信息,需要根據實際的操作需求,增添設計。

圖層屬性管理主要是對圖層要素中的點、線、面所包含的歷史信息進行屬性標注,涉及字段屬性設置和樣式定制。字段屬性設置具有一定的靈活性,圖層要素的注釋內容不同,其屬性的數量和內容可以不同。字段文本框除了支持字符輸入外,還支持超鏈接標簽,以實現屬性注釋的解釋拓展。樣式主要涉及字符樣式和圖標樣式。字符要素主要是實現不同級別的歷史地理要素在字體、字號、顏色上的區別;圖標樣式,主要是顯示歷史遺跡和歷史地名所具有的歷史屬性,如行政建制中郡、縣、府、州之間的區別,遺跡中的山城、平原城、關隘、墓葬之間的區別等,以此來實現數據的多元化呈現。

在屬性管理中,具有時空屬性的內容通過時間軸約束直觀呈現。即遺跡根據地點和建成、消亡時間時空化,遺物根據出土位置和年代時空化,人物根據其出生點和人生軌跡時空化,地名根據地理分布進行時空化,古籍和文獻根據創作時間和論述范圍時空化。各種時空化的知識內容通過通訊機制和文獻數據庫、專題數據庫、站內百科結合形成專題知識譜系。例如,一個渤海城址擁有確切的空間位置和城址輪廓線圖,全部遺址組成渤海國遺址數據專題,而從石器時代到明清所有遺址專題共同構成東北古代遺址數據。

五、結 語

在新文科背景下實現技術與人文的融合,在技術和人文的融合實踐中,降低技術門檻,增加交互性,部分實現通用化、功能模塊化,是一種較為有效的途徑。在邊疆數字基礎設施建設過程中,基于知識譜系的文獻全文檢索與知識呈現平臺是邊疆數字基建的文獻基礎;基于WebGIS基本功能的歷史地理空間數據平臺和基于歷史地圖興趣點(POI)的文獻知識圖譜,共同構成邊疆數字基建的空間基礎;基于數字人文技術的數據獲取、生產和分析模型建設是邊疆數字基建的人文數據基礎,也是邊疆研究數字方向的延展體系,為邊疆研究提供持續性的國際前沿學術動態數據的同時,也為部分邊疆疑難問題的解決提供新的路徑。三者深度融合,逐步形成一套數字人文服務于邊疆研究的數字人文環境。這一環境能夠在相當程度上承擔邊疆研究群體在文獻搜集過程中所需要付出的大量重復勞動,提高科研效率。在數字人文環境中,數字與人文是交互關系,數字技術必須理解邊疆研究群體的現實需求,創新開發邊疆研究所必需的技術體系,這本身是一個技術創新的過程。同時,這一過程所蘊含的與傳統文獻學不同的思路與方法,也在一定程度上有利于邊疆研究者視野的拓展、方法的創新,以及在此基礎上學術書寫方式的改進。

[責任編輯 黃海嘯]

① 馬大正:《中國邊疆學》(第3輯),北京:中國社會科學出版社,2015年,第315―349頁。

② 參見邢玉林:《中國邊疆學及其研究的若干問題》,《中國邊疆史地研究》1992年第1期,第1―13頁;邢廣程:《關于中國邊疆學研究的幾個問題》,《中國邊疆史地研究》2013年第12期,第3―16頁。

③ 范恩實:《問題意識、研究方法與中國邊疆學學科體系構建》,《云南社會科學》2022年第5期,第103―111頁。

④ 李國強:《建構中國邊疆學自主知識體系的思考》,《云南師范大學學報(哲學社會科學版)》2023年第1期,第20―28頁。

⑤ 吳楚克、趙環宇:《中國邊疆學的新時代特征和知識原理》,《云南師范大學學報(哲學社會科學版)》2020年第1期,第5―9頁。

⑥ 李國強:《中國邊疆學學科構筑的透視》,《云南師范大學學報(哲學社會科學版)》2008年第5期,第6―11頁。

⑦ 參見李鴻賓:《對 “中國邊疆研究” 概念的認識與界定——兼談“中國邊疆學”學術體系之建構》,《中國邊疆史地研究》2018年第3期,第30―37頁;苗威:《建構中國特色的中國邊疆學話語體系》,《中國邊疆史地研究》2018年第3期,第47―55頁。

⑧ 呂文利:《新世紀中國邊疆學的構建路徑與展望(1998—2018)——兼論中國邊疆理論的三個來源》,《中國邊疆史地研究》2019年第2期,第1―12頁。

① 在中國知網設置“邊疆學”主題進行檢索,再進行有效性篩選,共得到相關學術成果數據443條,其中著作4部,學術論文305篇,報紙數據13條,會議論文數據16條,學位論文14篇(其中博士7篇,碩士7篇),中國知網,https://kns.cnki.net/, 2023年11月18日。在“超星發現”中以“邊疆學”為主題進行檢索,共得到相關圖書數據452條,其中相關度較高的數據275條,數據中以資料集、輯刊類居多。超星發現,http://ss.zhizhen.com/, 2023年11月18日。

② 參見馬大正:《中國邊疆學構筑再思考—“三大體系”建設之我見》,《中國邊疆史地研究》2021年第3期,第1―8頁;李大龍:《試論中國邊疆學“三大體系”建設》,《中國邊疆史地研究》2020年第2期,第1―11頁。

③ 李大龍:《新文科建設視野下的中國邊疆學》,《云南師范大學學報(哲學社會科學版)》2021年第4期,第5―7頁。

④ 樊麗明:《“新文科”:時代需求與建設重點》,《中國大學教學》2020年第5期,第4―8頁。

⑤ 邢廣程:《開拓中國邊疆學研究的新局面》,《中國邊疆史地研究》2020年第2期,第1―4頁。

⑥ 據有關學者總結,當前邊疆學研究的原理諸如:主體原理、建構原理、靠界原理、疆界原理、比值原理、互動原理、伸縮原理、圈層原理、分合原理、層疊原理、牽制原理、均衡原理、類聚原理、折射原理、人本原理,以及具有中國邊疆特色的統一和諧原理、多元一體原理、居中馭邊原理、內聚建邊原理、因俗而治原理、以文化人原理等二十余種。參見羅中樞:《邊疆的個性與共性及邊疆研究的理論創新》,《理論與改革》2019年第2期,第107―118頁。

① 羅中樞:《邊疆的個性與共性及邊疆研究的理論創新》,《理論與改革》2019年第2期,第107―118頁。

② 苗威:《建構中國特色的中國邊疆學話語體系》,第47―55頁。

③ 參見清格爾泰:《契丹小字研究》,北京:中國社會科學出版社,2018年;清格爾泰等:《契丹小字再研究》,呼和浩特:內蒙古大學出版社,2018年。

④ 參見烏云畢力格:《滿蒙檔案與蒙古史研究》,上海:上海古籍出版社,2014年;吳元豐:《滿文檔案與歷史探究》,沈陽:遼寧民族出版社,2015年;王敵非:《歐洲滿文文獻總目提要》,北京:中華書局,2021年。

⑤ 陳建紅、史話:《數字人文在邊疆歷史研究中的應用》,《云南師范大學學報(哲學社會科學版)》2021年第4期,第31―38頁。

⑥ 劉煒、葉鷹:《數字人文的技術體系與理論結構探討》,《中國圖書館學報》2017年第5期,第32―41頁。

① 朱尖、苗威:《中國邊疆研究的文獻計量分析》,《中國邊疆史地研究》2015年第1期,第15―24頁。

② 邱偉云、嚴程:《數字人文視野下中國近代邊疆概念群研究》,《云南師范大學學報(哲學社會科學版)》2021年第4期,第21―30頁。

③ 朱尖:《學科交叉與融合視角下中國邊疆研究文獻計量分析的注意事項與遵循原則》,《四川師范大學學報(社會科學版)》2021年第6期,第134―141頁。

④ 白利友:《大數據時代的數字邊疆及其治理思考》,《云南師范大學學報(哲學社會科學版)》2018年第5期,第9―16頁。

① 武寶瑞:《新文科建設需要解決好的三個前置性問題》,《上海交通大學學報(哲學社會科學版)》 2020年第2期,第9―12頁。

② 曹樹金等:《國內外圖書情報領域信息聚合的發展趨勢分析》,《圖書情報知識》2018年第4期,第79―90頁。

③ 杜澤遜:《文獻學概要》,北京:中華書局,2001年,第5頁。

④ 參見趙蓉英等:《國內館藏資源聚合模式研究綜述》,《圖書情報工作》2014年第18期,第138―143頁;賀德方、曾建勛:《基于語義的館藏資源深度聚合研究》,《中國圖書館學報》2012年第4期,第79―87頁。

⑤ 呂元智:《數字檔案資源跨媒體語義關聯聚合實現策略研究》,《檔案學研究》2015年第5期,第60―65頁。

⑥ 曹樹金等:《面向網絡信息資源聚合搜索的細粒度聚合單元元數據研究》,《中國圖書館學報》2017年4期,第74―92頁。

⑦ 參見鄧君:《專題:數字人文視角下歷史檔案資源知識聚合與知識發現研究》,《圖書情報工作》2022年第7期,第3頁;陳海玉等:《面向知識服務的抗戰檔案資源聚合與可視化展現探究》,《檔案學研究》2021年第2期,第111―118頁;鄧君、王阮:《數字人文視域下口述歷史檔案資源知識發現模型構建》,《檔案學研究》2022年第1期,第110―116頁。

⑧ 李春明等:《基于地方志資源的知識聚合服務系統構建》,《圖書情報工作》2013年第18期,第44―47頁。

⑨ 許鑫等:《面向語義出版的學術期刊數字資源聚合研究》,《圖書情報工作》2016年第17期,第122―129頁。

⑩ 衛宇輝:《基于細粒度聚合單元元數據的書目資源聚合研究》,《國家圖書館學刊》2020年第6期,第90―101頁。

① 邊疆會議項目建立于1999年,最初數據為國會圖書館的珍貴書籍、手稿、照片、地圖和影音資料,后又與俄方合作,補錄了大量珍貴資料,其中有不少中俄邊界資料,如黑龍江烏蘇里江地區資料、薩哈林島資料、黑龍江鐵路專輯以及部分地圖和手稿等,是研究中國東北邊疆可資參考的文獻。邊疆會議項目,http://frontiers.loc.gov/intldl/mtfhtml/mfdigcol/, 2020年12月1日。

② 藏族口述史項目共上線403條錄音,其中政治歷史類361條,民俗類35條,寺廟僧侶7條,錄音時長約500小時。該口述數據的架構模式,可以為中國東北邊疆口述史資料庫建設提供較好的借鑒。藏族口述史項目,https://www.loc.gov/collections/ tibetan-oral-history-project/, 2020年12月1日。

① 劉石、李飛躍:《大數據技術與傳統文獻學的現代轉型》,《中國社會科學》2021年第2期,第63―81頁。

② 萬紅:《以〈著作權法〉第三次修訂為視角的圖書館電子書版權保護》,《 圖書館工作與研究》2015年第5期,第51―54頁。

③ 韓國公共數據中心, https://www.data.go.kr/ugs/selectPublicDataUse-GuideView.do, 2023年05月17日。

④ 中國歷代人物傳記資料庫, https://projects.iq.harvard.edu/chinesecbdb, 2021年4月10日。

⑤ 中國歷史地理信息系統, https://chgis.fas.harvard.edu/, 2024年2月22日。

① Leigh Dodds and Peter Wells, “Issues in Open Data - Data Infrastructure,” in The State of Open Data: Histories and Hori? zons , ed. Tim Davies et al. (Cape Town and Ottawa: African Minds and International Development Research Centre, 2019),260-273.

② 溫曉雅:《基于知識圖譜的數字人文研究平臺構建》,《信息技術與標準化》2021年第5期,第17―22頁。

① 蘇祺等:《古籍數字化關鍵技術評述》,《數字人文研究》2021年第3期,第83―88頁。

① 李娜:《面向方志類古籍的多類型命名實體聯合自動識別模型構建》,《圖書館論壇》2021年第12期,第113―123頁。

② Excite,https://www.excite.co.jp/, 2023年2月1日。

③ Papago,https://papago.naver.com/, 2023年2月1日。

④ 陽瓊:《在線翻譯質量文類差異:基于人工測評的比較分析》,《東方翻譯》2021年第4期,第54―59頁。

⑤ Neo4j平臺,https://neo4j.com/, 2023年2月1日。

⑥ Echart可視化示例,https://echarts.apache.org/examples/zh/index.html, 2023年2月1日。

① 李國強:《“東北工程”與中國東北史的研究》,《中國邊疆史地研究》2004年第12期,第3―8頁。

② 陳剛:《“數字人文”與歷史地理信息化研究》,《南京社會科學》2014年第3期,第136―142頁。

③ 在宏觀的東北古史研究中,通常使用的是精度較低的空間位置示意數據,因此一座山峰、一處遺跡、一個地名可以使用一組坐標數據作為示例,呈現基本的位置關系??脊叛芯客ǔt需要更加精細的數據,往往在一個空間位置都需要多個甚至多組空間數據進行標注。數據的詳細程度,需要根據不同的研究需求進行處理。

① 苗威:《高句麗移民研究》,長春:吉林大學出版社,2011年。

② 趙里萌:《中國東北地區遼金元城址的考古學研究》,吉林大學博士學位論文,2019年。

③ 王綿厚、樸文英:《中國東北與東北亞古代交通史》,沈陽:遼寧人民出版社,2016年。

④ 卜慶華等:《 WebGIS下的中國城市歷史地理信息平臺的設計與實現》,《測繪通報》2015年第12期,第70―73頁。

① 商文?。骸痘?Supermap Objects 的地圖標繪系統的設計實現》,《電腦知識與技術》2008年第28期,第137―139頁。

猜你喜歡
數字人文新文科
“新文科”背景下大學英語教學中跨文化交際能力培養路徑探析
“新文科”內涵探析及建設思考
新文科建設背景下的高校圖書館服務研究
新文科建設的理路與設計
新文科背景下公共管理學科大類人才培養模式的優化
“新文科”背景下新聞傳播教育的新形勢與新進路
數字人文時代公共圖書館經典閱讀推廣研究
數字人文目標下圖書館信息服務模式研究
數字學術與公眾科學:數字圖書館新生態
跨界與融合:全球視野下的數字人文
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合