?

新疆少數民族語言資源數字化建設與檢索平臺建設研究

2014-02-12 11:08王曙光新疆維吾爾自治區圖書館技術部烏魯木齊830011
圖書館理論與實踐 2014年9期
關鍵詞:資源庫檢索少數民族

●王曙光(新疆維吾爾自治區圖書館技術部,烏魯木齊830011)

新疆少數民族語言資源數字化建設與檢索平臺建設研究

●王曙光(新疆維吾爾自治區圖書館技術部,烏魯木齊830011)

少數民族語言資源;檢索平臺;數字化建設;資源庫建設

新疆少數民族語言資源豐富,但數字化仍處于起步階段。文章探討了資源數字化建設過程中存在的一些問題,使用何種標準開展數字化建設,同時剖析了資源檢索平臺在新疆維吾爾自治區圖書館實踐的基礎、主要建設內容、功能構成以及關鍵技術,以切實保障檢索平臺成功實施。

1 新疆少數民族語言資源數字化建設現狀分析

在文獻資源數字化建設中,少數民族語言數字化資源數量相對匱乏,仍是一片藍海。雖然標準和技術方面已不存在問題,但在少數民族語言的錄入、顯示、檢索、非圖片索引、拷貝、版權以及平臺對接等方面存在一定的障礙,這種情況在新疆尤為普遍。

其一,為解決好文字編碼問題,教育部、國家語委早在2004年11月發布了《民族語言文字規范標準建設與信息化課題指南》,[1]對民族語言文字術語數據庫、語料庫、知識庫等資源庫建設給予了重點資助。如今,我國民族文字編碼標準已基本成型,為各民族語言的信息化處理提供了基礎。

其二,經調研發現,新疆少數民族文字軟件處理系統主要包括維文、哈文、柯文排版系統,錫伯文、滿文文字處理和印刷系統,阿拉伯文及多文種排版系統以及多語種版本的Windows操作系統,這些軟件已廣泛應用于出版業,但在電子資源領域仍未涉及。

其三,國內外已研發出圖書館數字檢索資源平臺,但大多針對大語種的使用,少數民族語言類的資源庫則是鳳毛麟角,極為少見。這是因為資源的數字化需要投入大量人力與物力,而少數民族語言文字電子資源應用范圍較小,且缺乏統一的加工標注規范,至今未形成一個統一的電子資源檢索加工與發布的平臺。[2,3]

因此,加強少數民族語言資源數字化建設與檢索平臺建設,對于提高少數民族語言資源共享與處理技術,保護優秀而珍貴的少數民族語言資源,實現信息資源的文化傳承,具有現實意義。國家非常重視這方面的研究與建設工作,2011年,新疆維吾爾自治區圖書館成功申報了文化部文化科技提升計劃中的少數民族語言數字資源建設與檢索平臺[4]項目。希望通過該項目研究,填補圖書館界這一空白,使優秀的少數民族語言資源得到弘揚,維護民族精神,推動新疆各民族的進步,構建和諧社會。

2 新疆少數民族語言資源數字化建設與標準化建設

2.1 資源數字化建設

文獻資源的數字化建設是少數民族語言資源數據庫建設的重要內容,具體包括資源的選題、調查與征集、加工與譯制、審核與發布等。在數字化過程中要始終貫徹“藏以致用”和標準化的原則,即以“用”為出發點、以標準為準繩來建設少數民族語言資源庫。

在館藏資源數字化建設中,需要嚴格遵守我國數字圖書館標準規范之數字資源加工標準,對圖書、報刊、圖片、膠片、錄像帶、錄音帶等進行加工。對不同載體形式存貯的民族文獻信息進行數字化,需要采用不同的數字轉化方式??梢酝ㄟ^掃描將紙質文獻以圖像形式存放,并借助OCR識別系統對圖像進行處理,諸如版面分析、縱橫校對、版面還原,再把圖像還原成文字,然后再進行編輯、排版、標引等深加工,以保持少數民族文獻的原貌風格,真實反映出新疆地方文獻的民族特色。另外,在標引數據制作過程中,需要嚴格按照國家有關文獻著錄和標引原則,確立統一的著錄標準、標引方式。

2.2 數字資源標準化建設

標準規范是數字資源庫建設的基石,少數民族語言數字資源庫建設首先要建立統一的標準規范。多年來,我國由于數字資源庫建設標準不統一,再加上傳統的條塊管理體制,數據資源很難形成有效的流通和共享,建成后的數字資源庫大多處在分散管理、封閉使用狀態,有悖于新疆少數民族語言數字資源庫建設的初衷,也不利于新疆少數民族語言數字資源檢索平臺建設。

在數字資源建設的標準規范方面,新疆少數民族語言數字資源庫建設平臺選用了目前國內外主流的建設標準,主要體現在字符編碼、對象標識、數據格式、元數據、檢索服務、長期保存等方面。

目前,新疆少數民族文字出版物大多以維、哈、柯等語種為主,這些語種字符在Unicode 4.0版本中都分配有相應的Unicode編碼,它們是計算機處理少數民族文字信息的前提,也為新疆少數民族語言數字資源庫建設奠定了基礎。

3 新疆少數民族語言數字資源檢索平臺建設實踐

3.1 實踐基礎

新疆少數民族語言數字資源檢索平臺是在新疆維吾爾自治區圖書館豐富的少數民族館藏資源的基礎上搭建起來的多語種電子資源加工和發布的管理平臺。自治區圖書館現有藏書184萬冊(件),形成了以少數民族文獻及新疆地方文獻為特色的藏書體系,特別是少數民族文獻中包含有維吾爾文(老文字、新文字)、哈薩克文、柯爾克孜文、蒙古文、斯拉夫文等,都是新疆維吾爾自治區圖書館珍貴館藏。自治區圖書館以此為基礎,建設了《新疆農牧區實用技術資源庫》(維語)、《新農村社會主義文明建設資源庫》(維語)、《新疆影視資源庫》(維哈語)、《新疆舞臺藝術資源庫》、《新疆非物質文化遺產資源庫》、《新疆少數民族少兒“雙語”及基礎教育資源庫》(維漢雙語)、《新疆風光資源庫》、《新疆紅色資源庫》等多個資源庫。自治區圖書館擬通過少數民族語言數字資源檢索平臺建設,實現新疆少數民族語言文獻的加工、錄入、存儲、檢索、管理、發布與查看等功能。

3.2 主要建設內容

新疆少數民族語言數字資源檢索平臺主要建設內容包括:(1)開放的跨平臺資源加工管理系統;(2)資源的在線全文檢索和閱覽系統;(3)至少三種或以上(包括中文、維文、哈文)的文字錄入系統。

通過該平臺,可以在Ⅰnternet網絡或城域網絡上將少數民族語言文字電子化、數字化、網絡化,形成一個立體信息空間,提供民文文獻的錄入、存儲、檢索和查看等功能,提高圖書館資源、人才、財力、技術和服務優勢,增強圖書館資源管理的水平和效率以及信息傳遞能力,改善當前少數民族文獻數據庫稀缺的現狀,為圖書館儲備和保存多語種文獻,并滿足不同讀者的需求。

3.3 平臺功能構成

新疆少數民族語言數字資源檢索平臺采用JAⅤA技術進行開發設計,符合J2EE標準體系要求,具有高可移植性和可跨平臺性。這是因為J2EE平臺提供了多層的分布式的應用模型、組件再用、一致化的安全模型以及靈活的事務控制,不會被束縛在任何一個廠商的產品和APⅠ上,利用成熟的中間件技術可方便靈活地配置Web應用服務器。圖書館無需采購高性能服務器,無需安裝專用系統軟件,無需專業的計算機維護人員,大大降低投入成本,為平臺大面積推廣應用提供了可行條件。

平臺采用B/S架構,可以運行在業界任何主流操作系統平臺上。圖書館通過瀏覽器模式,利用該平臺就可以實現少數民族文獻資源在線檢索和閱覽、資源采集加工以及少數民族文字錄入等工作。平臺在搭建過程中注重各種格式、多文種文獻資源檢索與閱覽。全部采用圖片格式和國際化編碼標準,從而保證數字資源多種操作系統下的正確顯示。

平臺采用多層體系結構的模式設計,實現了網絡層、數據層、應用層面的互聯互通和資源共享,并在此基礎上可對海量且種類繁多的信息資源進行科學地收集、篩選、分類、存儲、檢索、及時更新和有效利用,真正發揮電子化、網絡化優勢,最大程度地提高信息資源的利用率。

由于少數民族文字具有一定的特殊性,例如,維文與中英文的閱讀和書寫方向不一致。因此,少數民族語種文獻的錄入、檢索和顯示就成為平臺需要解決的重點與難點問題。平臺底層支持Unicode(國際統一字符編碼),可以全面解決多語種錄入問題,允許多語種混排、檢索。

3.4 所采用關鍵技術

為實現上述功能,新疆少數民族語言數字資源檢索平臺在建設過程中主要采用了下述關鍵技術。

(1)模型-視圖-控制(MⅤC:Model-Ⅴiew-Controller)。MⅤC是一種交互界面的結構組織模型,可以分離數據訪問和數據表現。采用該技術可保持交互操作界面相對穩定,并能根據需要改變和調整顯示內容和形式。

(2)三層體系結構。平臺設計了數據庫核心層、邏輯業務層、Web用戶界面層,三層體系結構極大地提高了平臺的伸縮性和安全性。

(3)負載均衡。頻繁的檢索與閱覽將消耗較多的服務器資源,負載均衡將根據負載情況自動調整Web服務器負擔,當構建多臺Web服務器作為應用服務器時,如其中一臺機器負載過重則會自動把相應的請求轉發到其他機器上去。

(4)B/S體系架構。平臺采用XML、XSLT技術,具有良好的可伸縮性,適合以網絡為中心的計算模式和Ⅰnternet應用,用戶只需要瀏覽器連通網絡就可以登錄平臺開展工作。

(5)Java設計與開發。平臺采用Java設計,可以運行于PC機到小型機等多硬件平臺,同時支持跨操作系統平臺,包括Windows家族、Linux和各種主流的UNⅠX操作系統。

(6)標準的APⅠ接口。平臺采用開放的設計思想,提供標準的APⅠ接口,方便用戶二次開發。

(7)Unicode(國際統一字符編碼)。平臺最底層支持Unicode,全面解決多語種錄入問題,允許多語種混排、檢索。

[1]關于印發《民族語言文字規范標準建設與信息化課題指南》的通知[EB/OL].[2014-01-09].http: //www.moe.gov.cn/publicfiles/business/htmlfiles/moe/s235/ 200412/3902.html.

[2]紀照霞,繆建梅.論新疆民族地方文獻的開發和利用[J].邊疆經濟與文化,2011(2):59-60.

[3]張次第.少數民族文獻資源建設研究[J].中國圖書館學報,2011(5):115-119.

[4]自治區圖書館召開“國家文化科技提升計劃項目——少數民族語言數字資源建設與檢索平臺”開題報告會[EB/OL].[2014-01-11].http://www. xjlib.org/44ebc19e-760b-48f9-83b4-44eb6e134e851. htm l.

G250.74;G253

B

1005-8214(2014)09-0097-02

王曙光(1970-),女,副研究館員,新疆維吾爾自治區圖書館技術部主任,發文10余篇,合編出版著作2部。

2014-02-11[責任編輯]王崗

猜你喜歡
資源庫檢索少數民族
幼兒園課程資源庫建設之淺見
健身氣功開放課程資源庫建設研究
瑞典專利數據庫的檢索技巧
一種基于Python的音樂檢索方法的研究
我認識的少數民族
數控加工專業資源庫建設中存在問題及對策
基于共享資源庫的混合式教學考核模式研究
專利檢索中“語義”的表現
少數民族治療感冒的蕨類植物(一)
少數民族治療感冒的蕨類植物(二)
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合