?

創建民族團結進步示范州載體研究
——以紅河州哈尼、彝、漢三種文字標牌翻譯軟件開發為例

2021-10-12 11:05常亞昕龍云飛
紅河學院學報 2021年5期
關鍵詞:詞庫紅河州標牌

常亞昕,龍云飛

(紅河州民族研究所,云南蒙自 661199)

一 問題的提出

紅河哈尼族彝族自治州境內居住著哈尼、彝、苗、傣、壯、瑤、回、布依、拉祜、布朗(莽人)等10個少數民族,少數民族人口占全州總人口的61.5%(2020年),其中哈尼族人口最多。我國憲法規定:各民族都有使用和發展自己的語言文字的自由。為認真貫徹落實《中華人民共和國民族區域自治法》《紅河哈尼族彝族自治州自治條例》,2011年7月,紅河州委州政府下發文件《關于規范使用哈尼之、彝之、漢之三種文字標牌的通知》(紅辦發〔2011〕87號),紅河州正式使用哈尼文、彝文、漢文三種文字(以下簡稱“三種文字”)標牌。

2019年,紅河州成功創建為全國民族團結進步示范州,“三種文字”標牌作為創建示范州宣傳工作的載體之一,以視覺文字的形式展現了紅河哈尼族彝族自治州民族文化特色,結合開展民族團結進步創建工作。截止2019年底,“三種文字”標牌已覆蓋范圍包括:州、縣(市)、鄉(鎮、辦事處)黨和國家機關、人民團體的名稱標牌;州黨代會、州人代會、州政協會及州委、州人大常委會、州政府、州政協召開的重要會議、重大活動的會標;州、縣(市)人民政府所在地事業單位的名稱標牌;州、縣(市)人民政府所在地城區主要道路、街道、公共設施的名稱標牌;州內主要旅游景點名稱標牌;州、縣(市)人民政府所在地的部分賓館、酒店;國有、私營企業;主要街道的商號、店鋪等等,以及各種重大節慶活動、民族團結宣傳月、宣傳周、民族團結進步創建活動等宣傳標語?!叭N文字”標牌自2011年啟動以來,粗略統計已翻譯6萬余條。

二 開發“三種文字”標牌翻譯軟件的必要性

(一)解決人員不足,提高工作效率

目前承擔全州翻譯工作的任務主要集中在紅河州民族研究所,且翻譯人員不足。因為翻譯任務是根據需要安排,不定時也不定量,所以在翻譯任務比較集中的時候不免出現翻譯人員無法按時完成任務的情況。筆者從2011年從事“三種文字”標牌翻譯工作至今,在多年的翻譯實踐中通過分析工作中遇到的問題,提出此開發“三種文字”翻譯軟件的設想,希望通過軟件的開發運用,提高工作效率,促進紅河州“三種文字”標牌翻譯工作長期有效地發展。

2019年7月州委州政府頒布了《關于貫徹全面深入持久開展民族團結進步創建工作 鑄牢中華民族共同體意識的實施意見》(紅辦發〔2019〕50號),意見提出的主要任務之一就是深化民族團結進步宣傳教育。同年12月,國家民委命名紅河哈尼族彝族自治州為“全國民族團結進步示范州”?!叭N文字”標牌作為我州創建全國民族團結進步示范州宣傳工作的載體之一,為進一步鞏固提升全國民族團結進步示范州創建成果,推進新時代紅河州民族團結進步創建工作由“創建型”向“示范型”轉變,不斷鑄牢中華民族共同體意識,開發一款適用于紅河州翻譯哈尼文、彝文、漢文“三種文字”標牌的翻譯工具,并將翻譯軟件推廣到各縣市民宗局,達到各縣市可以獨立運用翻譯軟件翻譯“三種文字”標牌的目的。這也是踐行國家相關民族語言文字政策的體現,同時有利于本民族人民增強文化自信,有利于樹立自覺學習、保護和發展民族語言文字的意識[1]。并且符合少數民族語言文字信息化、辦公自動化趨勢。

(二)創建哈尼文、彝文數據庫,提高標牌翻譯的規范化

1.“三種文字”標牌翻譯軟件的開發研究屬于少數民族語言文字機器翻譯技術的研究。機器翻譯(Machine Translation)是指利用計算機完成一種自然語言到另一種自然語言的轉換,它涉及多門學科,包括語言學、數學、計算機科學等,是一種多領域交叉學科[2]。而少數民族語言文字機器翻譯技術的研究更是一項復雜的工作,因為少數民族語言的句子結構與漢語存在巨大差異。受到市場規模、語料庫規模、研究人員數量、經費支持力度等多種因素的制約,目前我國少數民族語言文字機器翻譯技術整體上還處在初級階段[3]。此涉及的哈尼文、彝文兩種少數民族語言文字中,目前面世的彝語言文字計算機信息處理系統比較多,而哈尼語言文字計算機信息處理系統尚無。

2.大多數少數民族語言一般有小型詞典,但沒有完備的語料庫,在句法分析方面的研究也基本處于空白[4]。目前我們“三種文字”標牌翻譯的對象主要是名詞性的新詞術語,包括彝文和哈尼文在翻譯過程中我們大多采用音譯的方式。根據這個特點,我們就揚長避短明確問題,即軟件僅針對目前紅河州“三種文字”標牌翻譯工作,承擔哈尼文、彝文、漢文三種文字標牌的翻譯。由于少數民族語言獨特的性質,其句子結構與漢語存在巨大差異,為簡化和集中解決問題,軟件暫不承擔其他文章、古籍、對話等的翻譯。這樣我們在開發過程中就大大簡化了問題。

3.由于我們平時需要的標牌有橫向和豎向之分,所以“三種文字”標牌翻譯軟件需要輸出橫排和豎排兩種情況,即要考慮三種文字在橫向和豎向時的書寫方式。其中漢字比較簡潔,直接排版即可,彝文是傳統的表意文字,在標牌翻譯中可與漢字一一對應,而哈尼文是拼音文字,且在橫向書寫時,是以詞為單位相連在一起,詞與詞之間用空格隔開,而在豎向標牌中,則要單個字分開,如下面的例子。為顯正式與莊重,目前標牌翻譯中哈尼文都采用大寫字母書寫。

橫排:

蒙自市社會主義學院

豎排:

三“三種文字”翻譯軟件設計與實現

(一)軟件設計思路

首先把要翻譯的漢文內容根據橫排和豎排的需要進行分詞,在分詞的過程中后臺要通過分詞算法給出正確的分詞結果,然后進行翻譯,即從詞庫中尋找到漢文匹配的哈尼文和彝文。詞庫需要收錄日常使用的工具書《漢哈尼新詞術語集》《漢哈尼詞典》《漢彝大辭典》中的大部分詞匯及其之相應的譯文(哈尼文和彝文);還要收錄之前翻譯過的所有“三種文字”標牌詞匯;并盡量收錄紅河州各縣市、鄉鎮、社區、村委會、自然村的名稱和有可能需要掛牌的詞匯。詞庫是一個很重要的數據庫,詞庫里面收錄的詞匯決定了翻譯結果的正確性和完整性,如果詞庫里沒有收錄該詞匯,則出不了相應結果,這就需要及時補充和完善,為此該軟件還需設置詞匯新增功能,若有重復收錄詞匯的情況,系統也能自動識別避免重復。找到了匹配的哈尼文和彝文,則根據需要排版成橫排或豎排,以word文檔形式,根據用戶設置的路徑輸出到目標文件夾里,這里可設置單獨輸出橫排或豎排,也可同時輸出橫豎排,最后用戶只需對輸出的結果進行核查和微調即可。

(二)軟件總體架構

初步設想本系統提供以 B/S 架構(即瀏覽器和服務器架構模式)為主的 Web 應用,也提供可獨立運行的 C/S 架構(即客戶機/服務器模式)windows 客戶端應用。系統大致分為四個部分,第一部分為用戶交互層,提供 Web 網頁和 windows客戶端兩種方式,其中 Web 網頁支持電腦、Pad、手機瀏覽器通過互聯網訪問。Windows 客戶端支持斷網離線使用,也可以支持聯網后自動更新最新數據使用。第二部分為服務層,此部分主要是依托于IIS(Internet Information Services互聯網信息服務)提供服務,針對windows 客戶端提供了WCF(Windows Communication Foundation是由微軟開發的一系列支持數據通信的應用程序框架,可以翻譯為Windows 通訊開發平臺)服務進行數據更新。第三部分為標牌翻譯軟件核心模塊翻譯引擎,此部分主要是哈、彝、漢詞庫,根據詞庫自動生成中文分詞詞庫,分詞算法根據中文分詞詞庫對需翻譯的漢文進行詞法解析,然后根據詞法解析結果,對照詞庫進行翻譯并輸出結果。第四部分為數據存儲區域,本系統采用輕量級的免費數據庫,windows客戶端也提供了本地數據存儲。

圖1 軟件總體架構

(三)系統結構和各部分功能模塊

本系統設計功能結構模塊分為基礎功能、業務功能、系統管理、翻譯引擎四部分,如圖2。各模塊的詳細功能介紹如下:

圖2 系統功能結構圖

1.基礎功能主要是完成系統的登錄認證,進入系統首頁后能看到系統整體的使用概況,包括詞匯收錄情況,待譯數據情況等直觀圖表展示。

2.業務功能為本系統的重要組成部分,涵蓋了待譯詞匯的申請、翻譯處理、詞匯收錄、標牌翻譯以及收錄語料的搜索查詢。翻譯申請,考慮到哈尼文和彝文的不同翻譯以及對應不同的使用者,為協調進行翻譯工作的進行,在進行翻譯申請時,分別自動生成待譯哈尼文和待譯彝文清單。當哈尼文和彝文工作者翻譯完成時,系統將自動收錄漢文、及對應的哈尼文和彝文詞匯。翻譯處理,哈尼文和彝文工作者分別處理待譯清單內容。詞匯收錄,可以直接收錄漢文、哈尼文、彝文詞匯,并且可以對收錄詞匯進行增加、刪除、修改、查詢。標牌翻譯,此功能也是本系統最終的應用核心。該功能提供友好的輸入界面,輸入待翻譯的中文信息,點擊翻譯,系統將經過分詞算法對待譯中文進行分詞和翻譯,并將分詞結果和對應的哈尼文和彝文返回界面。系統提供將翻譯結果導出至 word(橫排、豎排)文檔,與此同時可以將翻譯結果收錄至語料庫以便后續進行查詢。

3.系統管理主要包括用戶管理,權限管理,客戶端身份管理,日志管理等功能。用戶管理包括新增、刪除和修改用戶密碼。權限管理,用于給用戶授權不同的系統使用功能,可以進行增刪改查??蛻舳松矸莨芾?,主要用于windows 客戶端訪問者的身份驗證,以確保數據訪問的安全性。日志管理,主要進行系統操作的日常記錄,以便審計和排查問題。

4.翻譯引擎是系統的關鍵模塊,它通過分詞算法的運算和與詞庫內詞匯的匹配,提供翻譯服務。如下為此系統采用的翻譯規則和算法,如不滿足算法規則則不能出結果。

基本翻譯規則:漢文語句分詞取決于收錄詞匯,未收錄詞匯只能被解析為單個字;漢文分詞算法:雙向最大匹配(詳見下方算法資料);漢文語句能夠按照算法進行分詞,然后再根據分詞結果進行翻譯;針對詞匯,翻譯成哈尼文時橫排中間沒有空格,豎排是哈尼文單詞與漢文單詞對齊即可;漢文與彝文字符一對一翻譯,不考慮一對多或者多對多的翻譯;考慮到標牌翻譯多為名詞組合,為簡化問題,不考慮語法語序問題,按照漢文的先后順序一一對應。

算法包括正向最大匹配算法和逆向最大匹配算法,詳細解析如下:

(1)正向最大匹配算法:第一步,從左向右取待切分漢語句的 m 個字符作為匹配字段,m 為翻譯引擎詞庫中最長詞條個數。第二步,查找翻譯引擎詞庫進行匹配。若匹配成功,則將這個匹配字段作為一個詞切分出來。若匹配不成功,則將這個匹配字段的最后一個字去掉。剩下的字符串作為新的匹配字段,進行再次匹配,重復以上過程,直到切分出所有詞為止。

(2)逆向最大匹配算法:該算法是正向最大匹配的逆向思維,匹配不成功,將匹配字段的最前一個字去掉。實驗表明,逆向最大匹配算法要優于正向最大匹配算法。

(3)雙向最大匹配法:是將正向最大匹配法得到的分詞結果和逆向最大匹配法得到的結果進行比較,從而決定正確的分詞方法。如果正反向分詞結果詞數不同,則取分詞數量較少的那個。如果分詞結果詞數相同,就說明沒有歧義,可返回任意一個。

(四)系統安裝和使用

1.系統安裝包括系統環境和系統部署。系統環境目前普通辦公電腦即可,電腦系統要求windows7及其以上。系統部署主要是外網服務器和內部網絡部署,由專業人員安排部署。

2.系統使用:分為普通用戶界面和高級用戶界面。高級用戶的權限要比普通用戶的權限大。

(1)統一使用同一個登錄界面,用戶權限根據后臺分配的賬號類別而定,用戶在登錄時選擇自己的賬號和密碼登錄即可。

(2)普通用戶界面主要是針對縣市民宗局和其他需要翻譯的各單位部門工作人員提供的操作界面,有翻譯標牌、翻譯申請、關鍵詞搜索幾個功能。翻譯標牌即直接輸入漢字,點擊翻譯,即可輸出相應的“三種文字”標牌,同時可選擇橫豎排。翻譯申請是在遇到翻譯結果有誤,或部分漢字未翻譯出來的時候,向翻譯老師提交申請的渠道,在此處提交申請,專門負責補充詞庫的哈尼文、彝文老師就會在高級用戶界面的待譯哈尼文、待譯彝文模塊查看到需要翻譯的內容,并予以處理,處理后的詞匯將自動收錄進詞庫,提交申請的用戶也將收到反饋信息。

(3)高級用戶界面主要是針對專業人員,如專門負責審查補充詞庫的哈尼文、彝文老師,目前主要是指州民研所的翻譯人員。除了擁有普通用戶的權限外,高級用戶界面還可以新增收錄詞匯、修改和刪除詞匯、對普通用戶提供的翻譯申請進行處理和反饋。另外可以對用戶進行簡單的管理和維護。

3.系統評測,即對其功能性、穩定性和實用性等方面進行考察。

為驗證技術原理的可行性,目前我們初步做了一個測試版的“三種文字”標牌翻譯軟件,翻譯結果顯示,常用的標牌標語都能翻譯出來,若詞庫未收錄所需翻譯的漢字信息相對應的譯文(哈尼文和彝文),則能輸出橫排,而不能輸出豎排,橫排所缺的漢字對應的譯文用空格顯示。根據目前的測試結果來看,需要開展專門的詞匯補充工作,使得輸出結果得到全面改善。軟件正式開發完成以后,也是需要一段時間的積累和優化才能最終投入使用。

四 結論與討論

縱覽中國發展史,可以說,得益于包括民族語言翻譯在內的國家翻譯機制,中華文明形態得以發展和改觀,尤其是在和平年代,各國政府為了國境安定、行政暢通,專門設置負責民族語言翻譯的機構、機制和官職[5]。創建少數民族文字的初心:一是改變少數民族地區文化事業落后的狀況,使其盡快適應社會主義的建設和發展。二是盡快提高少數民族地區人民的教育水平和文化素質。三是更好地發展和傳承少數民族的語言文化[6]。紅河州哈尼文、彝文、漢文“三種文字”標牌作為我州創建全國民族團結進步示范州宣傳工作的載體之一,開發“三種文字”標牌翻譯實操性軟件,不僅可以提高工作效率,也將為紅河州進一步鞏固提升全國民族團結進步示范州創建成果助力。

猜你喜歡
詞庫紅河州標牌
暑假打工記
暑假打工記
打工記
一“吃”多用
創享空間
輸入法詞庫取證比較研究
新時代紅河州法治政府建設研究
說謊和開玩笑
輸入法詞庫乾坤大挪移
標牌如畫
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合