?

數字化助推民國報紙知識資源生命延續

2023-07-28 00:55曹鑫新
文化產業 2023年20期
關鍵詞:民國報紙數字化

曹鑫新

現首先介紹民國報紙資源建設的意義,其次對當前民國報紙數字化資源利用存在的難點進行分析,再次總結數字化建設的方向,最后提出民國報紙數字化建設改造重點與知識資源建設實施路徑。希望對民國時期文獻知識資源建設提供參考。

近年來,圖書館業務形態從傳統圖書館到數字圖書館再到智慧圖書館的轉變,促進了圖書館相關業務的推陳出新。如何利用當前資源為讀者提供智慧化服務,進行智慧化轉型,成為圖書館在新階段需要思考的問題。民國文獻是對民國時期政治、經濟、文化、民生等方面的記載,在史料中有著十分重要的地位。民國報紙具有覆蓋地域范圍廣、出版周期短等特點,能夠從多方面立體地呈現出民國時期社會面貌及相關知識。因此,對民國報紙的加工與建設也成為民國文獻保護與利用的重要工作之一。

民國報紙資源建設的重要意義

為學科研究提供史料依據

筆者對中國知網“篇名=民國+報紙、篇名=民國+報刊”的中文文獻進行搜索,截至2023年2月,共獲得相關文獻351篇。對其內容進行分析研究發現,民國報紙的文獻研究涉及歷史、廣告、圖書館學等多學科,研究內容基本分為兩大類別,分別為報紙內容信息的利用和民國報紙館藏建設。數量龐大的民國報紙內容信息利用的文獻研究表明民國報紙在民國文獻中的重要價值,并從側面體現出各個學科的內容,挖掘民國報紙中的知識信息對歷史、文學、文化、藝術等方面具有的深遠意義。如陳雅莉以民國報紙對“國貨”意義的生產為例,闡釋了中國近代時尚觀念對民族意識的雙重構建問題[1]。

充分揭示館藏資源

民國不同階段的報紙資源建設文獻研究側重點不同。2014年至2015年初,圖書館強調民國報紙的保護和開發,側重報紙實體的保護與修復,對民國報紙數字化等再生性保護進行了初步探索,如上海圖書館、重慶圖書館等。2015年至2020年間,圖書館側重民國報紙的數字化工作,將縮微膠片進行數字化轉換,分地區、分主題進行數字化加工,有些圖書館開始嘗試對標題、作者等信息進行著錄,如國家圖書館、首都圖書館等。在此期間還出現了專題特色文獻數據庫的探索性建設、影印資源建設。2021年,隨著智慧圖書館概念的普及與推廣,圖書館開始注重對數字資源的語義標注,并引入細粒度標引,強調知識的關聯與可視化。

當前民國報紙數字化資源利用存在的難點

關于民國報紙建設的研究,有的圖書館注重數據庫的建設,也有的圖書館注重知識化抽取的探索。在數字化形式上有PDF格式的全文數字化,也有標題OCR文字識別[2]。在數字化成品利用上應注重數據庫的建設,如大而全且覆蓋范圍較廣的綜合數據庫、圍繞某一專題建設的特色主題數據庫[3]。

目前,檢索的結果很大程度源于搜索者對搜索主題的認識,因此這種檢索在一定程度上難以充分展示相關主題的館藏資源。當前各圖書館都在開展民國報紙數字化項目,該項目是建立在自身館藏資源與數字化建設基礎上的,在成品展現上各具特色?!鞍偌覡庿Q”雖然可以促進建設的良性前進,但與此同時也造成了資源的浪費,重復的資源建設所體現出的“投入與產出”顯然不太合理。

在智能化時代,通過對數字資源進行統計分析,在已有資源的基礎上進行決策,為已完成建設或即將投入建設的數字資源賦予新的生命力,使原有的已完成建設的“信息孤島”式的數據成品轉變為關聯數據庫數據或者匯編資源,知識資源建設可以更好地實現從信息到知識網的螺旋式上升?!笆奈濉睍r期,我國圖書館信息資源建設需要實現從認識到實踐的多維度轉變,即信息資源從藏到用、從單一紙質到多類型資源以及從信息資源的組織到語義化組織、從信息表達到向詞表數據治理的轉變[4]。對民國報紙數字資源進行知識抽取能夠最大限度地體現出民國報紙在民國歷史時期的作用,因此新時期民國報紙的建設要在原有的基礎上進行細化。

數字化建設方向

智慧圖書館的智慧化管理、智慧化建設與服務突出了智慧圖書館更加全面與個性化的服務。圖書館對資源的建設工作更加側重資源的統籌與數據的關聯性建設。智慧圖書館對內容的建設已經從最初的以收藏為主體轉變為以增值為目的[5]。

資源從數據向知識轉化

通常數字資源可以通過自建、合作共建、征集等方式獲取,文獻類型可以分為圖書、期刊、報紙等,體現了數字資源來源與建設內容的多樣化。以往數字化加工多針對某一主題的相關資源,在完成當前主題資源的加工與發布后,資源會進入庫房得到長期保存,變成一種“一次性數字資源”。王世偉指出,在數字圖書館建設基礎上,智慧圖書館使得以往文獻能夠按照一定的規則呈現給讀者,并為其提供豐富的服務,使文獻“活化”且更加智能化,有利于讀者更加便捷地獲取所需資源[6]。因此,如何讓文獻“活化”與智能化這個問題將成為智慧圖書館時代知識資源建設的核心工作。

知識資源共建化

智慧圖書館的檢索平臺主要提供知識的可視化與智慧服務。讀者不僅能夠一站式獲取相關資源,同時也為平臺帶來了產生更多信息增值的可能。讀者在享受精準化服務的同時,也能參與數據建設,并在其中扮演數據建設方、質檢方、文獻提供方等角色。依據用戶類型標簽及需求進行智能推送的同時,邀請讀者參與知識資源建設服務與勘誤工作,并通過收集用戶平臺行為確定新的建設方向,指導下一步知識資源建設工作。知識資源建設不再是“一勞永逸”的工作,而是一項隨著不同角色進入、調整、更新形成的“至臻完美”的工作。

數據類型多樣化

隨著新媒體、新技術的不斷迭代更新,數字資源也有了相應的改變,除了以往原生數字資源、館藏實體資源的再生資源以外,還涉及針對某一主題建設形成的AR、VR、MR等類型的新型數字資源。資源類型的多樣化與知識資源建設的個性化密切相關,需要在建設初期考慮后期閱讀推廣可能出現的問題,例如推廣針對的人群、推廣的平臺以及實踐模式與策略等。

民國報紙數字化建設改造重點

對民國報紙資源進行知識化加工,能夠在保護紙質資源的前提下,達到對數字資源利用最大化的目的。在梳理知識化加工的工作環節后發現,開展知識資源加工工作還面臨一些挑戰。

語料庫范圍的設定

民國報紙資源的語料庫主要以紙質資源為基礎,在原有的數字化前提下進行建設。因此,語料庫建設的批次與范圍需要具體斟酌,特色數據庫的建設是基于豐富的語料庫搭建的。就加工而言,需要區分不同內容主題文本篇目,如在文章分類上分為廣告、新聞、文學作品等。不同的分類元素是否需要加入語料庫則需要進一步斟酌。

多類型知識資源的描述

報紙的數字化涉及不同的文檔類型。在進行知識化加工時,如何描述不同類型的知識資源,以及在提質增效的同時最大限度地展現知識資源內容也是需要進一步思考的問題。

建設語料庫解決的是從哪里抽取、從多大范圍內抽取的問題,關鍵字段的抽取就是具體抽取誰,如何抽取的問題。這涉及對不同類型篇目的知識元分類,比如新聞性篇目的知識元分類、廣告篇目的知識元分類以及圖片篇目的知識元分類,一個好的知識元分類能夠涉及民國報紙中所有類型篇目的信息,并且能在不同類型信息上完成非必備字段的標引?!白詣映槿〖尤斯っ枋觥钡倪\用使得知識資源的描述更加科學化,有助于最大限度地對資源進行知識抽取。

識別準確率的把控

知識資源建設要基于全文內容進行檢索與抽取。在報紙文章構成上,有純文字篇目、文字加配圖篇目、圖片篇與漫畫篇目。這就意味著知識資源建設工作的要求要比以往的數字資源建設更加詳細與準確。不論是報紙信息的噪點處理、文字的識別工作,還是民國時期語言、語法的檢查等工作,都需要在標題識別的基礎上更加精準化。

民國報紙知識資源揭示與服務

知識資源數據類型決定了知識資源建設的服務形態,這意味著在進行知識資源建設的同時還需要考慮數字化成品的揭示與服務問題。不論是知識網絡、知識圖譜等的可視化呈現,還是形成針對某一主題的專題庫、針對不同類型讀者的有聲庫等,抑或是可以讓讀者身臨其境的VR資源,這些不同的服務形態資源的統籌與建設都是進一步開展知識資源加工需要考慮的問題。

民國報紙知識資源建設實施路徑

引入深度學習識別技術,提升識別準確率

傳統的OCR技術已經無法滿足文字方向不定、紙張噪點較多、文檔類型多樣的民國報紙知識資源建設的需求,因此應當引入深度學習識別技術,對語料庫進行更新與校正,降低人工成本,用機器識別代替大規模的人力投入,一方面能夠節省人力成本,另一方面也能最大限度地避免由于工作人員失誤所造成的資源提取缺失等問題的發生。

知識資源深加工與共建整合,推陳出新

對知識內容、主題詞、分類、作者、標題、地域、時間、事件等進行標引,細化加工粒度,方便后續開展資源的關聯性加工等工作。未來已經建成的數字資源成品不再是以某一項目主題為單位的建設,而是更加注重知識內容的深度挖掘,通過前期對資源的精細化標引,針對某一主題將多項目資源、多類型資源進行整合,對項目的揭示注重關聯性建設,從某項目資源轉向專題數據庫建設、多庫聯合以及知識圖譜的建設,通過這樣的轉變完成對資源的深度揭示,以便為專題領域的研究提供相應的史料參考。當前國內開展知識資源建設的單位應該聯合起來,發揮各家特長,在數字化、知識化與技術化等不同領域中貢獻力量,合力促成知識資源的共建共享。

聯合讀者互動建設,鼓勵創作

在智能時代,讀者不僅是知識的獲取者,也是知識的提供者,不同類型讀者的加入使得知識網絡更加立體。文獻不再是建設完成后的“一潭死水”,而是源源不斷的“涓涓細流”。各個專題庫與平臺間的標準化設計與簡易鏈接能夠助推讀者參與到知識資源建設當中。圖書館的讀者不乏具有各個專業特長的“大家”,將“讀者、專家、學者”引入圖書館知識資源建設中來,使其成為知識資源建設的一份子,幫助圖書館資源建設單位更精準、更客觀地呈現知識資源。

更新培養機制,識人善任

在智慧圖書館中,圖書館館員的角色也發生了變化,智慧圖書館館員在數據、數字人文、學術交流、出版、創客、智庫、閱讀推廣、健康信息等方面均能發揮作用[7]。在知識資源加工工作的每一個環節中,圖書館館員充當了決策者、執行者、質檢者、驗收者、管理者等多個角色。簡單來說,圖書館館員參與了知識資源建設工作的全流程,并在其中發揮了至關重要的作用。因此數字圖書館館員本身的素養,包括其學科背景與專業水平等在一定程度上影響著數字化建設中資源整合與揭示的程度。

對知識資源建設人才的培養要從人才引進策略、培養流程與機制以及激勵機制三方面著手,在高效率完成數字化工作的同時,保障長效持久且吸引人才的政策,完善人員構成,制定人才配置規劃。

在智慧圖書館背景下,知識資源建設工作是在原有數字化的基礎上進行深度整合,挖掘文獻知識信息,對相應節點進行細粒度標引,建立文獻數據庫,將以往獨立的信息或項目通過關鍵詞或知識項關聯起來,將不同類型的資源按照知識體系匯總成庫,為讀者提供一站式知識服務。隨著智慧圖書館的建設,未來知識資源建設工作必將有更加廣闊的發展空間。

注釋

[1]陳雅莉.中國近代時尚觀念對民族意識的雙重建構——以民國報紙對“國貨”意義的生產為例[J].新聞大學,2022(09):60-72+119.

[2]任靜,林衛東,李洪梅.公共圖書館民國報刊數字化建設現狀研究[J].山東圖書館學刊,2021(03):88-92.

[3]姚昕.智慧圖書館環境下圖書館報紙專題庫建設探討[J].河南圖書館學刊,2022,42(05):96-100.

[4]蘇力.“十四五”時期圖書館信息資源建設的發展轉向[J].甘肅科技,2021,37(14):84-85.

[5]吳建中.從數字圖書館到智慧圖書館:機遇、挑戰和創新[J].圖書館雜志,2021,40(12):4-11.

[6]王世偉.圖書館智慧體是對圖書館有機體的全面超越[J].圖書館建設,2022(03):4-9.

[7]顧品浩.圖書館智慧化轉型中館員角色轉變研究[J].圖書館學刊,2023,45(01):1-6.

猜你喜歡
民國報紙數字化
家紡業亟待數字化賦能
報紙
高中數學“一對一”數字化學習實踐探索
高中數學“一對一”數字化學習實踐探索
他們為何都愛民國?
賣報紙
可以吃的報紙
賣報紙
數字化制勝
民國人愛刷朋友圈
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合