?

漢語-哈薩克語平行語料庫構建及技術研究

2023-06-05 09:15古麗孜熱艾尼外曠志寰
關鍵詞:信息量段落語料

古麗孜熱·艾尼外,曠志寰

(1.伊犁師范大學 教師工作部,新疆 伊寧 835000;2.南京大學 自然語言處理實驗室,江蘇 南京 210023)

0 引言

機器翻譯是自然語言處理(NLP)領域最具挑戰性的任務[1],在信息檢索、信息安全等許多領域發揮重要作用,也是跨語言信息處理中不可或缺的技術之一,同時也在日常生活中為普通用戶提供了多方面的數字信息化服務,包括ATM 自動取款機交易、手機銀行轉賬、電子商務等,極大地推動了經濟貿易的效率[2-4]。近年來,隨著互聯網信息技術的迅速發展和計算機能力的飛速提升,大規模的多種語言平行語料庫得以建立與發展,平行語料庫的研究價值得到越來越多的認可,國內外很多研究機構都致力于相關任務的研究與應用。

在大數據時代的背景下,數字旅游、數字醫療等電子文檔的應用頻率在逐步增加,我國與沿線各國的經濟貿易、互聯互通、區域合作醫療、金融合作、旅游文化交流與合作等更加密切,如何利用信息技術和新媒體手段,通過“數字一帶一路”的建設,進一步確保電子商務與信息安全,促進信息化建設、實現共同發展顯得十分必要。目前,新疆地區信息處理和網絡信息安全方面都存在著巨大需求,開展漢-哈(漢語-哈薩克語)機器翻譯的相關研究也變得至關重要。而語料庫的構建是多語言平行語料庫相關研究的立足之本,大規模漢-哈文平行語料庫的缺乏已經成為相關研究工作的瓶頸。因此,提出一種創建漢-哈文平行語料庫的有效方法在漢-哈文機器翻譯領域至關重要。

現有的漢-哈文平行語料庫的構建方法主要有兩個問題:第一,數據資源缺乏。哈薩克語的語料的來源較少,主要是“天山網”“新疆日報”等數字報刊網站,加之漢-哈文平行語料庫的構建主要依靠人工方式,費時費力,數據資源的缺乏大大影響了漢-哈文平行語料庫的規模,同時,也無法滿足漢-哈機器翻譯的時效性要求。第二,數據處理方法單一?,F有的工作中對平行文本的收集僅僅是對漢語、哈薩克語兩種語言的數據進行簡單的累積,沒有進行篇章和段落的對齊加工,因此這些語料庫對后期的研究價值有限。而漢-哈篇章、段落多層次自動對齊技術研究還處于起步階段。

為了解決這些問題,本文利用自然語言處理的相關方法提升平行語料庫構建質量,通過分析現有的詞對齊方法,針對性地提出一系列文本預處理和段落(句子)對齊方法,并開發設計了輔助工具軟件Corpus 對漢-哈文自動段落對齊的可視化界面。并根據段落對齊進行數據的自動編排存儲,進一步提高了漢-哈文平行語料庫的構建質量和效率。

1 相關工作

國內外語料庫構建已有三十多年的歷史,近幾年來,面向機器翻譯的平行語料庫的建設和應用研究更是得到了國內外研究者的廣泛重視。自然語言生成平行語料庫的構建技術是語言學橫向發展的新趨勢[5-6]。語言研究者已經清楚地認識到高質量平行語料庫的構建對機器翻譯研究和智能信息處理等方面的巨大作用,對多語平行語料庫也開展了較多的研究。

目前,國內外對于語料庫的研究已經取得了不少顯著成果[7-10]。加拿大議會會議記錄是國外著名的法英平行語料庫,也稱為Canadian Hansards Corpus,早期很多關于語料庫的研究都是以此為基礎開展的。

在國內,從20 世紀90 年代后期眾多語言學和翻譯學學者也建成了諸多大、中、小型平行語料庫。香港科技大學對香港立法委的會議記錄進行了搜集、整理,建立了一個漢英平行語料庫。1980 年起,我國開始了漢語語料庫的構建工作,至今已經構建了一些大規模的語料庫。例如,北京大學中國語言學研究中心所建立的包含了現代漢語語料庫、古代漢語語料庫和漢英平行語料庫的CCL 語料庫,復旦大學、哈爾濱工業大學等高等學校、人民日報、新華社等出版機構建立的漢英平行語料庫。由翻譯研究所等科研單位研發的跨語言的機器翻譯系統,也有一個較為完善的平行語料庫。

目前在語料庫的語言種類上,國內學者更多的是關注中英、中日語料庫的建設。相比之下,我國低資源語料的基礎研究水平還比較薄弱,新疆大學多種多語信息處理實驗室研究語料庫建設工作,產生出大量的研究成果,奠定了多語言信息處理研究基礎。于清等[11]提出的漢維醫療語料庫中已建成110 多萬字、3000句對漢維平行對齊語料,對構建中小型語料庫有重要參考價值。

而在我國各種少數民族語種之中,對于哈薩克文的自然語言處理研究也相對落后。新疆大學艾山·吾買爾等[12-13]自20 世紀90 年代中期開始對包括哈薩克文在內的多種語言信息處理技術和語料庫建設方法開展了研究,新疆大學古麗拉·阿東別克等[14-20]對哈薩克文分詞方法、詞性標注等方面進行了研究。

但是目前,漢-哈文信息處理的相關研究還處于初步階段,大規模漢-哈文平行語料庫構建的研究相對較少,平行語料庫的缺乏成為漢-哈文機器翻譯的最大障礙。

此外,由于其他平行語料的構建方法不完全適用于漢-哈平行語料的構建[7,8-10,21],直接套用會影響最終的語料庫質量。在平行語料的構建中,早期平行文本的收集僅僅是文本的累積。如果不進行后續的段落對齊加工等技術處理,都會影響累積的文本量后期的研究和使用價值。所以,在漢-哈平行語料庫構建及機器翻譯中,段落語料多層次的自動對齊加工非常重要。因此,本文提出了一種有效的漢-哈文平行段落對齊語料庫的構建方法。

2 漢-哈文平行語料庫構建方法

段落是組成篇章的基礎,多層段落之間的對齊效果,直接影響到篇章機器翻譯整體上的語義效果[22]。目前的漢-哈機器翻譯關注多層次段落對齊的技術應用環節較少。本文針對目前漢-哈文平行語料庫構建存在的問題進行研究,提出了一種基于信息量比值的段落自動對齊方法。本文主要工作如圖1 所示。

圖1 漢-哈文平行語料庫構建流程圖Fig.1 Flow chart of constructing Chinese-Kazakh parallel corpus

收集數據和預處理:針對漢-哈兩種語言之間的機器翻譯面臨的個性化技術需求,從技術共享與應用互補的角度,本文綜合分析了目前支持漢-哈文平行語料庫所采用的構建方法,提出了漢-哈平行語料的收集方法,結合哈薩克語的特點,提出了相關的數據預處理技術,包括對漢-哈薩克語料統一格式、刪除多余標記等,并對漢語和哈薩克語的數據進行篇章對齊。

漢-哈文段落對齊及平行語料庫構建:針對段落對齊,本論文采用了一種基于段落信息量比值的段落對齊方法,該方法建模的基礎是互為翻譯的文本有固定信息量比值,即在對齊的兩個篇章中,源語言(漢語)相鄰段落之間的信息量變化等同于目標語言(哈語)相鄰段落之間的信息量變化。對確定“1∶1 型”、“1∶n型”的信息量比值的段落對齊結果進行編排存儲,將段落編排中“1∶n型”段落合并生成為一個段落,從而最終得到基于信息量比值的“1∶1”的段落對齊結果。

在漢-哈平行段落自動對齊研究的基礎上,開發了輔助軟件Corpus,對漢-哈文段落進行可視化,有效地提高了段落語料的效率和質量。

下面分模塊介紹本文的主要工作。

2.1 數據收集與預處理

漢-哈文檔篇章對齊的質量直接決定了后續能否得到正確的對齊段落,因此,收集數據和預處理是篇章對齊研究中的一項重要的技術。本文選擇了語料質量較好、規模較高的新聞網站文本作為數據來源,并進行相關的漢-哈文翻譯工作人員人工識別確認,保證語料的質量。

通過分析可知,平行新聞網頁之間存在相似性,且網頁結構簡單、噪聲內容相對較少,提取篇章文檔較為容易,可以最大程度地保證文本質量。因此,本文采用新聞網頁作為漢-哈文本平行語料來源。利用網絡交互式爬蟲,對包含漢-哈文信息的新聞網站進行網頁爬取,并將網頁文檔html 下載到本地,利用正則表達式進行正文信息的提取。根據漢-哈文新聞網頁相似性,生成漢-哈篇章文檔。從漢-哈新聞網站上人工選取數據,通過URL 查找相似性網站,下載漢文-哈文新聞信息,生成一組漢、哈篇章文檔。對于每一個漢文文檔,利用篇章對齊的交互式方法,在哈文文檔中檢索對譯篇章。

在預處理的過程中,漢語、哈薩克語篇章需要根據對應的語言特性統一格式;例如,需要將哈薩克語處理為拉丁化的字符表示等。其中,漢語作為主流語言,其處理流程已經非常成熟。因此,本文主要根據哈薩克語的語法特性,對哈薩克語進行篇章級文檔處理。

“天山網”(https://www.ts.cn)上包含了國內官方權威新聞《人民日報》的哈薩克語版。本文采用“天山網”上的中-哈文平行數據進行對齊研究。收集和預處理數據包括以下幾個步驟:

1) 從網頁中抽取篇章文檔html 文件,并將其存儲到本地;

2) 從html 文件清理得到原始文檔數據,清除空行、亂碼和圖形圖片等非文本內容;

3) 將清洗后的文檔按照語言類別分別歸檔到A、B 兩組,文件格式分別為 Ai.txt(中文文檔)、Bi.txt(哈文文檔)進行存儲,其中i為索引號;

4) 根據索引號i進行漢-哈文檔的匹配,生成漢-哈文篇章對齊。

2.2 漢-哈文自動段落對齊輔助軟件Corpus

針對漢-哈文對齊任務,通過分析爬取的漢-哈數據,本文開發設計了一款輔助使用的工具軟件 Corpus,利用該工具實現漢-哈文段落對齊的可視化界面,并對具有特定漢-哈文篇章對齊結構的源文檔進行自動編排。Corpus由 PHP 編程語言實現,能夠從html 和xml 文件中提取格式化數據,實現漢-哈文的段落對齊功能。Corpus 初始界面如圖2 所示。

圖2 Corpus輔助漢-哈對齊的初始登錄界面Fig.2 Login page of Corpus

Corpus 輔助軟件提供了導航、漢-哈文自動段落對齊和詞典搭配統計分析功能,是構建漢-哈文平行語料庫技術的基礎。Corpus 段落對齊基礎功能包括:段落之間合并、段落冗余刪除、自動校對、段落自動對齊。段落對齊語料結果最終構建并不斷擴容新的漢-哈文本平行語料庫。自主研發工具軟件Corpus 實現漢-哈文本段落自動對齊功能,將交互式收集的漢-哈篇章對齊網頁語料導入(https://www.tilmuhyt.com/;http://47.108.77.137/index.php/index/login/index.html)界面,初步編排序列漢文數據A(A1、A2、A3、…)和哈文數據B(B1、B2、B3、…),使之對應。示例如圖3 所示。

圖3 漢-哈文本段落對齊界面的實現示例Fig.3 Implementation example of Chinese-Kazakh text paragraph alignment interface

2.3 基于信息量比值建模段落表義邊界

當給定一段原文后,確定其對應譯文的表義邊界,就得到了此段落的對齊邊界。由于哈薩克語的變態語序特性,即使確定了標點句讀,句段的相對位置對應漢語依然可能存在錯位。因此,本文從漢-哈文段落互譯角度出發,將若干形成互譯關系的連續段落,統一視為段落層級對齊的數據,將相鄰連續段落之間的信息量比值作為漢-哈文段落對齊的邊界。

本文研究的仙神河大橋是一座較為典型的獨塔預應力混凝土部分斜拉橋,地處山西省和河南省交界處,橋墩高150.07 m,采用的是正八邊形薄壁空心高墩結構,為典型的薄壁空心高墩,橋墩布置如圖4所示。主墩截面八邊形內切圓直徑為墩頂10.04 m,墩底16 m,自墩頂到墩底截面采用直線斜率變化,墩壁厚度均為1.2 m。該橋所在的地域屬于晉城市山區河谷地區,晝夜溫差變化較大,而且由于地形地貌等條件的限制,沿墩身各部分接受太陽輻射的時間也不一樣,對于墩頂部分一天中接受太陽輻射時間要多一些,而墩底部分則受日輻射作用很少。因此溫差對空心墩的影響比較大。

首先,利用固定的字符作為對齊邊界,劃分漢、哈文段落的結束位置;其次,在互譯評分大于一定閾值的漢-哈文文檔中查找同時滿足平行連續對齊的段落,并將滿足驗證條件的文檔作為對齊數據自動編排保存。

具體而言,利用回車符和標點兩類標記確定段落邊界,接著根據信息量比值進行段落層級對齊?;诖?,使用以下對齊策略:

1) 切分段落時,漢語的切分標點為“?!薄?,”“:”和“;”。哈薩克語的切分標點為“.”和“,”“:”和“;”。其中對于前后字符都是數字的冒號,不能作為切分符號。切分后,對大致對齊的段落匹配其中包含數字信息的片段(例如匹配小數點“.”,連續數字串等),并以這些信息量比值的分段邊界,將其前后分屬的切分段納入漢-哈文本段落對齊中。

2) 對漢語和哈文段落生成對齊。對于同一條文本,中文表達通常比哈薩克語表達包含更多的字符,因此,切分算法以漢語的切分單元為基準,來匹配哈薩克語。對齊過程限制哈文分段(j<n≤255)對應的哈文段落信息量值不能超過len(P哈j)≤255 個字符。以漢語為準,逐步增加平行語料匹配所用的切分段,匹配時,按照序列長度比例接近“1∶1 型”和“1∶n型”信息含量比值的段落對齊結果,以匹配累積最快的片段達到信息含量比為段落級對齊。值得說明的是,在累計段落較長時需要引入人工對齊的方法,如圖4 所示。

圖4 Corpus漢-哈文本段落對齊的界面Fig.4 Chinese-Kazakh paragraph alignment interface of Corpus

比如,Corpus 平行段落層的對齊實際操作中,段落生成后,原來P漢i+1原信息量值為513字符,分割為三個段落P漢1,P漢2,P漢3。其中,第三個段落P漢3的信息量值為68 字符,P哈3信息量值316 字符,對齊異常。其原因是對齊中哈文段落信息量比值已超過255 字符。

3) 值得注意的是,在對齊的段落內,不同的語言中公用的數字和代碼字符,可以極大便利段落對齊工作。在數字代碼字符的數量高達20% 左右,可以將其視為現成的段落對齊依據。因此,在上文策略的基礎上,額外加入數字配對信息作為多層分段對齊的依據。

在此過程中,本節針對漢-哈文的段落對齊,提出了使用信息量比值的段落層對齊方法。信息量比值是基于序列長度定義的特征,在給定篇章內自動生成為段落后,可通過“1∶1型”顯著的邊界符號,例如:漢文段落邊界“?!睂亩温溥吔绶枴?”。此特征大致確定對應的漢-哈段落序列邊界,得到初步的段落對齊關系。

2.4 基于段落對齊的數據編排存儲

段落對齊的編排存儲的實際意義是人工對段落對齊數據進行進一步優化。上述的對齊過程并不能完美覆蓋所有可能情況下的段落對齊,因此,研究人員必須對初步結果進行人工對齊保證語料質量,為后續構建更細致的段落對齊數據作準備。針對漢-哈文料的構建需求,開發對應的段落對齊軟件,用于存儲和對齊語料,如圖5 所示。

在對齊的兩個篇章中,先把漢語篇章導入到對齊軟件中的A列,再把對應的哈薩克語篇章導入到對齊軟件中的B列中;導入后自動分成兩組對應的段落模塊A=(A1,A2,…,An)和B=(B1,B2,…,Bj…,Bn);以換行符為區隔,對數據進行自動生成為漢-哈文對齊的段落序列A和B。

通過上文介紹的基于信息量比值的對齊,對段落內的進行對齊分析。在漢-哈文段落對齊中,超過字符255 的段落進行人工移到下一行,不足字符的移上一行,移除空行。本文研究傳統的excel 軟件段落對齊功能基礎上,提供使用了可視化擴展軟件“Corpus”,它覆蓋了以上段落自動對齊功能的優化。該軟件段落自動對齊同時可以自動編排存儲已對齊的段落平行語料數據,也提高了段落對齊的速度和質量。

3 實驗及結果分析

3.1 實驗設置

3.1.1 數據集

本文實驗使用輔助工具對齊軟件Corpus 和PHP 語言來實現的漢-哈文本對齊,它針對特定漢-哈文篇章對齊結構的源文檔設計,適用于從html 和xml 文件中提取格式化數據。PHP(Personal home page)是目前最流行的網站開發語言,據統計有80% 的網站由PHP 開發。因此,本研究構建的漢-哈語料庫的文檔對齊方法使用PHP 進行開發。

本文通過跨語言網頁《天山網新聞》的(https://www.ts.cn)和(https://www.kazakh.ts.cn)獲取漢-哈文本新聞文檔數據,包括段落對齊后的漢-哈文段落句。以下幾個步驟:

(1)從本網頁中抽取篇章文檔鏡像存儲到本地;

(2)需要數據文檔生成為兩組文件格式A*.txt、哈文文檔B*.txt 格式存儲;

(3)根據題目和內容進行漢-哈文檔的匹配;

(4)通過搜索新聞,不斷獲取更新和收集數據。

本文選擇了語料質量和規模比較高的新聞網站文本數據,人工識別確認。因此可以保證從新聞網文本有一定的翻譯質量。

3.1.2 實驗環境

1) 硬件環境:T14i7-10510u、8 GB 內存、512 GB 固態硬盤。

2) 軟件環境:軟件環境:Windows 10,64 位操作系統,記事本txt、excel 等辦公應用軟件及數據庫軟件作為構建漢-哈文篇章平行語料環境。同時,在約定網站上下載漢文、哈文文檔的網頁存儲到本地生成篇章對齊文本數據。同時通過擴展漢-哈文本語料對齊軟件“Corpus”漢-哈文段落對齊語料構建系統,提供了段落對齊的優化功能,該軟件方便機器翻譯和平行語料研究者使用,方便在后續實驗工作中增加新的功能或借鑒使用現有的一些軟件,也方便預處理和語料構建的結果。此外,該對齊系統也擁有直觀、簡潔的用戶界面。

3.1.3 評價指標

本文采用召回和正確率評價算法的有效性。召回率和正確率的計算公式如下:

3.2 實驗結果分析

本節實驗隨機選取漢-哈文新聞網頁獲取數據,篩選80~100 篇章對齊觀察,并總結信息量比值的分布情況。具體實驗情況如下:(規模小,實驗單一)

通過實驗共識別篩選出806 條段落句對齊數據的“1∶1 型”比較漢-哈段落數長度計算比較,人工段落對齊發現較長的漢語段落171 字符單位對應的哈語段落540 字符單位,如圖6所示。

圖6 文章對齊效果統計Fig.6 Statistics of alignment results

從實驗結果中可以看出本文的段落對齊方法有較多的1∶1 和1∶2 及2∶2 類型,而1∶3和1∶4 類型較低,說明數據文本所含雜質數據極少。

(1) 在漢-哈平行篇章內的不同信息量比值的段落都有較高的準確率和召回率。信息量比值對齊段落包含了人工識別對齊的段落(句)4967 個條,將近正確率93%,召回率為100%。并且采用本文提出的信息量比值方法使段落對齊的準確率有所提高。以此進行自動對齊時,對齊篇章、段落文本長度比值相近,如圖7—8 所示。

圖7 段落長度比值Fig.7 Statistics of paragraph length ratio

圖8 相鄰段落長度信息量比值Fig.8 Statistics of information ratio of adjacent paragraph

(2) 段落對齊結果對應的信息量比值分布所示,從統計實驗數據及分析分布區間可以看出漢-哈文的段落長度以近似形似正態分布集中落于[1,7]區間,其中,區間[2,6]占到所有段落的95%。而哈文段落間比值和中文文段落間比值差值范圍依然是[0,0.5],其中,區間[0,0.3]占到所有段落的94%,如圖9 所示。

圖9 信息量正態分布情況Fig.9 Normal distribution of information

由于各個實驗方法的信息量的不同,直接對比段落對齊映射進行充分的比較,段落對齊的映射過程,漢-哈文相鄰段落比值差變化不低于87.5%。該結果表明漢文段落與哈文段落的相對長度比值范圍較為穩定,可以用于漢-哈文段落對齊,如表1 所示。

表1 篇章/段落對齊實驗評價結果Table 1 Evaluation of chapter/paragraph alignment experiment

從表1 可以看出,漢-哈篇章手工對齊、漢-哈段落自動對齊、漢-哈段落自動對齊的召回率達到了100%、漢-哈自動對齊正確率稍有差異。漢-哈篇章手工對齊的正確率94.5%。

對于大規模語料庫,使用相似度計算方法,結合小規模漢-哈文平行語料庫的統計結果,可以發現本文提出的段落對齊方法仍然存在一些不足。但在大多數情況下,本文的方法不會影響原始漢-哈文平行語料庫的規模和質量,能夠提高對齊工作的效率。

4 結論

本文收集了漢-哈文篇章新聞網頁的數據,提出了數據的預處理和信息量比值的段落對齊方法。其中,本研究針對文本預處理需求和對應流程,利用拓展開發的Corpus 軟件進行語料預處理和自動段落對齊,實現了漢-哈文對齊邊界,并對語料數據自動進行編排存儲。實驗結果表明,根據文本對齊質量和語料規模限制的漢-哈平行篇章與段落手工對齊正確率達到94.5%,95.2%;自動對齊正確率達到87.5%,89.3%,成功構建了適用于機器翻譯的篇章或段落對齊漢-哈平行語料庫。此外,相比于傳統的段落對齊方法,該方法簡單方便,能幫助研究人員加快高效地構建翻譯平行語料,降低翻譯數據獲取成本,幫助漢-哈開展文字互譯與信息交流,有利于我國人工智能領域發展,為跨國大數據建設提供支持。

猜你喜歡
信息量段落語料
【短文篇】
心理小測試
基于信息理論的交通信息量度量
夏天,愛情的第四段落
基于語料調查的“連……都(也)……”出現的語義背景分析
如何增加地方電視臺時政新聞的信息量
弄清段落關系 按圖索驥讀文
華語電影作為真實語料在翻譯教學中的應用
基于多尺度互信息量的數字視頻幀篡改檢測
《苗防備覽》中的湘西語料
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合