?

貴州彝文信息技術研究概述

2017-11-30 04:02吳勰印金成
中國信息化 2017年8期
關鍵詞:輸入法字符古籍

文|吳勰,印金成

貴州彝文信息技術研究概述

文|吳勰,印金成

從上世紀80年代開始,我國少數民族語言文字信息化建設工作就啟動了,經過30多年不斷發展,取得一系列標志性成果。其中我國藏文、蒙文、維吾爾文、現代彝文等少數民族語言文字成績斐然,先后完成了“文字編碼字符集、字型、鍵盤等國家標準研制工作,并先后獲得了國際ISO/IEC 10646標準,即每個民族文字字符在Unicode編碼體系中的唯一性,實現與全世界多文種的統一編碼、同平臺顯示。通過民族文字信息處理學科的基礎研究工作的扎實推進,成功解決了民族文字信息技術的輸入、輸出難題。在現代移動通訊手機上也實現了民族文字的數字化傳輸與應用。近幾年,藏文、現代彝文等在語料庫建設、智能機器翻譯、民族語言文字網站、大數據云平臺等信息化產業方面獲得很大的發展,與現代社會信息技術發展共同進步。

運用現代信息技術充分發掘民族語言文字資源,開發的各種民族語言文字信息化產品在民族地區社會生產、生活等各個領域得到了廣泛應用。少數民族語言文字信息化建設,是民族地區信息化產業建設的重要組成部分,是基礎性建設工作。早在2008年北京語言大學黨委書記李宇明教授就指出,“民族語言文字是中華民族的寶貴財富,是非物質文化遺產的重要內容。對其進行規范化、標準化、信息化建設,成為當務之急,是信息時代提出的新任務”。

彝文是我國少數民族文字之一,開展彝文信息處理研究工作是現代信息社會發展的必然要求。開發彝文信息處理技術,實現彝文的數字化應用,才能更有效地發揮彝文傳承民族文化的載體作用。

彝文信息處理技術是隨著現代計算機信息技術的快速發展應運而生的一門新興的應用技術,是指利用計算機技術對彝文字符的音、形、義等信息進行處理。即對字、詞、句、篇章的輸入、輸出、識別、分析、理解、生成等的操作與加工技術,是實現彝文信息化的關鍵性技術。

貴州在彝文信息處理基礎研究工作中,目前主要以開發貴州彝文計算機輸入軟件為突破口,開發具有自主知識產權的核心專利技術,同時積極研制相關規范標準,開創了貴州彝語文信息化產業大繁榮、大發展的新格局。

一、主要研究進展及取得成果

(一)整理彝文字符,建立《信息技術 彝文編碼字符集﹒大字符集》

字符(Character)是各種文字和符號的總稱,包括彝文字符、標點符號、圖形符號、數字符號等。本文中“彝文字符集”(Yi Character Set)是指在貴州境內使用的彝文字、標點符號、圖形符號、數字符號等彝文信息交換所需的多個字符集合。

彝文字符整理是彝文信息處理的基礎研究工作。從2012年貴州開展貴州彝文字符整理工作,筆者通過負責貴州省2012年社科基金項目“貴州彝文編碼字符集研制”,在畢節市彝文文獻翻譯研究中心主任王繼超老師的支持下,以貴州《簡明彝漢字典》、《彝文字釋》為選字藍本,以貴州經典傳世彝文文獻《彝族源流》、《宇宙人文論》等為選字范本,在常用字整理工作中,采用“源自古籍,保持風貌,字形美觀,便于書寫,符合用字規律”原則來開展工作。對于異體字整理按照“最大限度剔除異體字數量,選擇使用頻率高的字形,充分遵循彝文的構字規律,選擇結構合理、筆畫簡易的字形”為選字原則。構建5000余字《信息技術 彝文編碼字符集.基本集》,為貴州彝文信息處理學科發展奠定基礎。

2014年根據貴州彝文古籍文獻數字化整理翻譯的用字需求,筆者與貴州工程應用技術學院(原畢節學院)的劉云老師合作,依據《滇川黔桂彝文字集?貴州卷》里彝文字符,同時參考貴州傳世彝文文獻。對彝文字符進行增補,對于同組異體字整理中盡量選擇結構合理、筆畫簡潔的字形,放棄彎曲復雜疑難筆畫,糾正有的使用者在日常使用中故意增加筆畫,或手寫錯誤字形,整理出4000余字,并對彝文字形進行矯正、規范,建立9000余字《信息技術 貴州彝文編碼字符集?大字符集》,能滿足彝文日常應用、彝語文教學、彝文文獻整理、翻譯等用字需求,達到彝文信息技術開發的用字需求。

(二)開發彝文印刷字體,建立彝文字庫

彝文印刷字體是以《信息技術 彝文編碼字符集.大字符集》為研究藍本,采用True Type這種新型數字化字形描述技術,根據彝文字體設計“易讀性、藝術性和思想性”的基本原理,按照“平、直、正、方、圓、勻”的要求設計彝文基礎筆畫。在此基礎之上設計True Type彝文“正體”字形,建立彝文字庫。

此外2014年在貴州省民委古籍辦支持下,筆者與研究團隊合作開發出“彝文楷書字體”。彝文楷書字體是以彝文經典古籍文獻為基礎,以彝文經典書法作品為依托,如“水西大渡

河建石橋碑記”,同時參照學界前期研究成果,如《簡明彝漢字典》,《貴州彝族語言文字》等學科著作,對彝文書寫規律、筆畫特征、字型結構、書寫筆順等研究成果,歸納彝文楷書字體的藝術特征及基本規律。按照“筆形塑造規范、字型重心平穩、文本編排合理”的要求,由貴州工程應用技術學院(原畢節學院)彝學研究院的王明亮老師用毛筆書寫而成,再用專業字體軟件Font Creator對彝文字形進行修整,建立彝文楷書字庫。彝文楷書字體實現與彝文傳統手寫字體風格相一致(見圖1),不僅能滿足彝文日常辦公應用,同時也能滿足彝文古籍文獻數字化整理的用字需求。

建立的彝文計算機字庫,實現彝文字體在計算機中的顯示應用,彝文字在計算機文檔中像其他文字一樣可進行排版和打印輸出,實現開發彝文輸出技術目標。

(三)研制貴州彝文計算機編碼輸入方案,設計彝文筆畫輸入方法,開發彝文計算機輸入法軟件

貴州彝文計算機編碼輸入方案主要包括以下幾個方面研究內容:第一,根據彝文構字規律、字型結構、書寫筆順等基本要素,在《彝文編碼字符集》基礎之上,整理彝文構字部件,建立彝文部件系統,設計出彝文部件碼,為設計彝文字形輸入碼打下基礎。第二,基于現有英文鍵盤字母區,根據人體工學原理對字母鍵盤的合理化要求,依據彝文部件與英文字母鍵形狀相似的特點,在英文鍵盤字母區,對彝文部件碼進行規律分布,設計出彝文筆畫鍵位圖。

第三,在上述研究基礎之上,根據彝文書寫筆順,設計出彝文筆畫“傳統和簡易”兩種輸入方法。同時根據彝文字形構字特征,設計彝文末筆結構識別碼,以減少彝文筆畫輸入碼的重碼率。

如上所述,彝文筆畫輸入方法是在彝文字形特征基礎之上,依據彝文基本字型結構,按照彝文書寫筆順,結合不同用戶使用需求,成功研制出彝文筆畫輸入方案,解決彝文字符輸入問題。

基于Windows平臺的核心組件輸入法管理器(IMM)-輸入法編輯器(IME)結構開發彝文輸入法程序,攻克“輸入法與操作系統的關系,IME用戶界面”等技術難題,采用VC++編程開發接口式貴州彝文輸入法,生成彝文輸入法安裝程序,實現彝文輸入法軟件在計算機中方便快捷的安裝使用,實現開發彝文計算機輸入法軟件目標。

彝文計算機輸入法軟件的成功開發,實現了彝文方便快捷的數字化輸入,徹底改變彝文手寫的歷史現狀,使得彝文以電子文本形式得以永久保存,為保護和弘揚彝文古籍文獻搭建數字化平臺。

二、彝文信息技術應用及實際效果

開發的貴州彝文信息技術在日常辦公應用、彝語文教學和彝文古籍文獻翻譯整理方面得到很好應用?,F在主要在貴州工程應用技術學院和貴州民族大學兩個單位的彝文古籍文獻數字化翻譯整理中得到有效使用,改變彝文手寫應用現狀,實現彝文在計算機中的數字化應用。

(一)用彝文輸入法軟件編輯出版《通用彝文字典》

由貴州工程應用技術學院(原畢節學院)承擔的教育部"國家語委民族語言文字規范標準建設及信息化項目“古彝文整理及計算機輸入軟件”,研究成果為“超方言古彝文輸入法軟件”。該軟件用于錄入、編輯排版了2016年出版的《通用彝文字典》,該部字典采用數字化整理方式,字典中的國際音標、彝文字、漢文以及標點符號等全部實現電腦錄入,編輯排版整部字典86萬字內容。比較以前出版彝文書籍,書中的彝文字均是在漢文、國際音標等字符已經排版好的前提下,在打印出的樣稿中手寫彝文字符,因此用彝文輸入法軟件編輯排版《通用彝文字典》,這不僅極大地減輕了彝文書籍編輯排版的繁瑣工作量,提高了彝文應用質量,更是開拓了彝文新興的應用領域。

(二)實現彝文古籍文獻數字化整理

貴州目前用彝文軟件整理的彝文文獻有貴州工程應用技術學院翻譯整理《彝族盧比精選譯著》,貴州民族大學與六盤水市檔案局合作翻譯整理《彝文通書》,這兩部彝文古籍都用貴州彝文軟件來編輯整理,其中彝文字符的錄入、編輯、排版與修改均采用數字化技術,文獻中的彝文字符、國際音標、漢字等字符實現了同平臺應用,開啟貴州彝文古籍文獻數字化整理新征程。

三、價值與意義

運用現代計算機技術對貴州彝文字符進行全面、系統的開發,著力解決了“彝文的輸出、輸入技術和基于IMMIME輸入法結構開發彝文輸入法程序”等3個關鍵性技術,自足開發出貴州彝文計算機輸入法軟件系統,具有重大的應用價值和長遠的社會意義。

通過開展彝文信息技術研究,開發彝文計算機輸入系統,解決彝文字符人機交際問題,實現彝文在計算機中方便、快捷、高效的數字化應用,使得彝文告別手寫應用現狀,使古老的彝文獲得新興承載方式,滿足了現代信息社會對彝文數字化應用需求。

在彝文信息處理學科基礎研究之上開發彝文信息技術,解決彝文字符信息數字化輸出和輸入的基礎性實用技術,構建彝文信息處理技術平臺,實現彝文數字化關鍵性技術突破,為貴州彝語文信息化產業的發展奠定堅實基礎,同時填補貴州彝語文信息處理技術的空白局面。

四、存在問題與發展建議

(一)存在的問題

首先,目前我國傳統彝文沒有國際標準化組織ISO的國際標準ISO/IEC 10646編碼空間,鑒于彝文這種情況,貴州彝文字庫只能借用其他民族文字的編碼空間,但會影響彝文計算機輸入法軟件系統使用的穩定性。

其次,隨著彝文古籍文獻數字化建設進程的加快,目前建立的彝文計算機字庫中彝文字還不能完全滿足彝文古籍文獻翻譯整理的用字需求。

第三,在學界現有研究基礎之上,貴州開發的彝文計算機筆畫輸入法軟件,僅實現了彝文筆畫輸入,彝文拼音、手寫、語音等輸入方法還沒有實現,限制彝文在相關領域的應用。

(二)發展建議

第一,目前我國傳統彝文沒有國際統一的編碼標準,需要相關單位繼續向國際標準化組織ISO,提交申請我國傳統彝文的ISO/IEC 10646的正式提案,實現傳統彝文與全世界多文種的統一編碼,同平臺顯示應用。

第二,隨著彝文古籍文獻數字化工作開展的需要,不斷增加彝文字符、包括生僻字、疑難字等,進一步完善彝文計算機字庫,才能滿足彝文計算機用字需求。

第三,今后需要另立項目來開展彝文拼音輸入方法研究工作。針對彝文讀音各按方音念讀,彝文讀音不統一,且采用了國際音標注音等情況,研制貴州彝文拉丁字母拼音輸入方案,開展彝文拼音輸入法技術開發研究工作,實現彝文在計算機中拼音輸入。

第四,隨著研究成果推廣應用,根據用戶在實踐中使用彝文輸入軟件反饋信息,需要對彝文部件碼、鍵位等作少量的微觀調整,進一步完善彝文筆畫編碼輸入方案,不斷提高彝文計算機使用效率。

五、未來展望

筆者從參加工作以來,就一直從事彝文信息處理基礎理論和彝文信息技術開發研究工作,多年實踐證明,彝文字符作為彝文信息處理的研究對象,筆者深知由于彝文字符數量極大,對貴州境內彝文字符整理與開發研究工作不可能一蹴而就,需要緊密結合彝語文學科建設、彝文古籍文獻翻譯整理等實際用字需求,進行合理、科學規劃,結合彝文信息處理學科特征,分階段、有步驟地有序推進。

從2012年到2015年,貴州彝文信息研究工作是在充分利用學界前期研究成果基礎之上,開展彝文信息技術研究工作,取得突破性成就,基本上解決了彝文字符輸入和輸出問題,實現彝文在計算機中的數字化日常應用。但上述研究成果僅是階段性的,還沒有完成彝文信息處理基礎研究任務。

從2016年開始,貴州彝文信息處理研究團隊從彝文古籍文獻數字化整理入手,在已建立《信息技術 彝文編碼字符字符集·大字符集》基礎上,繼續開展彝文字符整理工作。目前研究團隊對貴州經典傳世彝文文獻《西南彝志》全26卷進行數字化整理,《西南彝志》全26卷中僅彝文字就有30多萬字,不僅字量大,而且質量上乘?,F階段在計算機中用彝文軟件錄入彝文字,對《西南彝志》中彝文字符進行系統梳理,增補400多個彝文編碼字符集中沒有的字符,不斷擴充彝文編碼字符集、彝文字庫,完善彝文計算機輸入系統。目前以彝文古籍文獻數字化整理為突破口,尤其是像《西南彝志》這樣傳世經典文獻,繼續開展貴州彝文信息處理學科基礎研究工作,才能開發出高質量的彝文信息技術。這一階段通過研究團隊未來3至5年不斷努力,才能完成貴州彝文輸入和輸出信息技術開發研究工作。

貴州彝文信息技術開發工作,只有在扎實基礎研究之上,才能開發出實用數字化產品,真正解決彝語文、彝文古籍文獻數字化難題,實現彝文被越來越多用戶使用,真正發揮其傳承民族文化的載體作用,用科技力量助推民族文化的保護和弘揚。

作者單位:貴州民族大學

2016年國家語委語言文字科研項目優秀成果后期資助計劃項目“基于彝文古籍文獻的貴州傳統彝文字符整理及其輸入法軟件開發研究”(HQ135-7)成果之一。

猜你喜歡
輸入法字符古籍
中醫古籍“疒”部俗字考辨舉隅
要命的輸入法
西藏大批珍貴藏文古籍實現“云閱讀”
正則表達式快速入門
字符代表幾
圖片輕松變身ASCⅡ藝術畫
找回微軟拼音輸入法設置
輸入法順序聽我使喚
我是古籍修復師
百度被訴侵犯商標權和不正當競爭
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合