?

語法信息與韻律結構的分析與預測

2010-06-05 08:35王永鑫蔡蓮紅
中文信息學報 2010年1期
關鍵詞:單音節連詞韻律

王永鑫,蔡蓮紅

(清華大學 計算機科學與技術系,北京 100084)

1 引言

高自然度和高表現力的語音合成離不開韻律預測。韻律是指語音的超音段特征,是從語音所抽象出的節律、重音和語調特性,在感知上表現為語音的音高、速度和音量隨時間的變化,在聲學參數上的表現為基頻、音段時長和能量隨時間的變化。此外韻律還是言語的自然屬性和固有特征,隱含了語法、語義、語用等多種語言功能。它不僅體現了說話人對文字的表達和理解,還反映說話人的態度、期望、情緒等高層信息。連續語流中一個重要的現象就是韻律層級結構的存在。韻律結構之間在感知上存在著邊界,這種邊界對應的聲學表現可能是停頓、音高曲線的變化以及邊界之前的音段延長。漢語韻律結構主要包含韻律詞、韻律短語、語調短語三個層次。

為了實現更加自然的韻律預測,首先要得到更加準確的韻律結構?,F在對韻律結構進行預測,主要是基于語句的詞法信息,如詞性、詞長等[1~6],也有研究者使用語法樹、語法短語等特征[7]。在這些研究中,有些使用從錄音語料得到的韻律標注,語料規模從1 000句到6 000句不等[1~8]。使用從錄音標注得到的語料庫,可以得到自然語音中的韻律短語結構,但是由于錄音、標注的過程比較復雜,使用錄音語料通常語料庫的規模比較小。也有研究者使用通過文本標注的方式得到的語料庫。由文本直接標注時標注過程可以得到簡化,從而可以得到規模比較大的語料庫[2,6],覆蓋更加廣泛的韻律現象。

現在的韻律結構預測多數是從語法信息出發對句子的韻律結構進行預測。在韻律預測的研究中,研究者通常比較關心預測所使用的特征與算法,以提高預測的準確率。如果可以對語法與韻律的關系進行分析,得到漢語韻律結構的生成特點,可以加深對漢語韻律結構的了解,為韻律預測技術的發展提供支持。

本文通過人工標注建立了一個含有十萬句新聞文本的漢語韻律語料庫。通過在標注過程中制定詳細的標注規范和對標注者長時間的訓練保證標注結果的一致性和正確性。在這一語料庫的基礎上,基于語料庫中語法信息的標注對韻律結構的組成進行了分析,并在這一大語料庫的基礎上進行了韻律預測的試驗。通過分析與試驗,發現通過語法信息進行韻律結構預測可以得到較好的效果。但是同時也發現,韻律結構除了與語法信息有關之外,還會受到語義的影響,要進一步提高韻律預測的準確性,需要對韻律與語義的相互關系進行研究。

2 漢語的韻律結構

本文關注漢語韻律結構中的韻律詞、韻律短語、語調短語。較小的韻律成分包含在更大的韻律成分中,由此形成了一個層級結構。

韻律詞是語流中節律的基本單位也是語音—語法界面上的基本單位。在韻律詞內部沒有靜音段,在韻律詞邊界處停頓不是必須的。從語音上來說,韻律詞總是作為一個音步出現,即內部只有一個連調域,不會出現韻律分界現象。漢語的標準音步是兩個音節,單音節音步是退化音步,三音節音步是超音步,實驗觀察發現絕大多數的韻律詞為2~3個音節。包括輕聲的韻律詞可能延長到4~5個音節。

韻律短語由一個或幾個韻律詞組成,是介乎韻律詞和語調短語之間的韻律單位,邊界表現為能感知到的停頓。韻律短語具有相對穩定的短語調模式和短語重音配置模式[9]。韻律短語的長度與語速關系很大,當語速快的時候韻律短語也會相應變得更長。通常韻律短語為7個音節左右,一般最長為9~10個音節。語調短語相當于語法上較短的子句,是音系規則作用在句子層面上的轄域[9]。其邊界主要服從于語義,通常出現在比較完整的語義成分之后。在實際應用中,往往將句子中的某些標點直接作為語調短語邊界的標志。

在語音合成應用中,通常更關心韻律詞與韻律短語邊界,而使用標點作為語調短語邊界的標志。本文中也將對韻律詞邊界與韻律短語邊界進行考察。

3 具有語法信息與韻律結構標注的語料庫

為了可以得到更準確的韻律結構預測結果,從而提高合成語音的質量,現在的韻律結構預測多使用機器學習的方法,從句子的語法信息出發對韻律結構進行預測。建立一個大規模的同時具有語法信息與韻律結構標注的語料庫不但有助于對漢語的韻律結構進行進一步的分析,加深對漢語韻律結構組成規律的認識,還可以提高韻律結構預測的準確性。

3.1 原始文本與標注過程

本文標注的原始文本來自2001年全年的《人民日報》。北京大學自然語言處理實驗室對其進行了語法分詞與詞性標注[10]。本文隨機抽取十萬句語料,從文本上直接進行韻律結構的標注。在文本上直接標記韻律結構,需要標注人根據自己對句子的讀法對句子的韻律結構進行標注。這樣可以加快標注速度,并可以通過標注人之間對標注規則的探討保證標注結果的一致性。

本文選用三位標注人(大學學歷)。首先在專家的指導下對標注人進行為期三個月的訓練。三名標注人共同標注了一萬個語句,在標注過程中反復比較異同,指出錯誤,討論問題,共同理解語法結構與韻律結構在語言表達中的作用與不同、韻律詞與韻律短語的生成原則、語法、語義對韻律的約束原則。要求他們排除個人朗讀習慣對標注的不良影響。實驗表明僅依據少數規則和語法信息,標注人能夠很好地把握韻律詞劃分粒度,三位標注人韻律詞邊界劃分的一致性達到97%。韻律短語邊界劃分的一致性為86%。經過分析我們發現,韻律短語劃分的不一致主要是由于韻律短語本身的靈活性導致,各份標注結果均無明顯的錯誤??梢姌俗⑷艘罁渥诱Z法、語義和韻律的理解能夠較準確地分辨出句子的韻律結構。在訓練的基礎上,由兩位標注一致性比較高的標注人分別標注了其余九萬句語料,抽查結果表明,標注的一致性很高。

3.2 語料庫與標注結果

在標注完成的九萬句語料中,語法詞的平均長度為1.77個漢字,韻律詞的平均長度為2.21個漢字,韻律短語的平均長度為5.61個漢字。語法詞、韻律詞、韻律短語長度的詳細分布情況如圖1所示。

圖1 語法詞、韻律詞與韻律短語的長度分布

從圖1可以看到,漢語中存在大量的單音節語法詞,但韻律詞的長度以兩個音節為主,單音節韻律詞的數量很少。同時,四字及以上的多音節韻律詞的數量也很少。事實上,在由語法詞生成韻律詞過程中,大多數單音節語法詞都會和他前面或后面的語法詞合并生成韻律詞,而兩個音節以上的語法詞除了可以和單音節語法詞合并之外,很少和其他的語法詞合并成為韻律詞。這完全符合漢語的標準音步為兩個音節,單音節詞只在極少數情況下成為一個韻律詞[9]的規律。

在標注結果中,韻律短語的長度一般為四到九個音節。其中,四個字韻律短語出現最多,接近韻律短語總數的四分之一,而七到九個字的長韻律短語則相對比較少。這是因為本文的韻律短語標注粒度較細,同時漢語文本中存在大量的四音節結構??紤]到漢語的長短語內部大多包含多個小短語,在人工標注中,本文傾向于將它們劃分開來,為下階段的韻律預測提供便利。另外,標注結果中單音節韻律短語的數量極少,因為單音節韻律短語基本只出現于單字句中。十音節及以上的韻律短語也屬于特殊情況,多半包含了結構助詞“的”或連詞“和”之類本身帶有分界信息的成分。

4 韻律結構分析

漢語韻律結構與語法結構雖然不同,但是存在著一定的關系。這也是從語法信息預測韻律結構的基礎。通過對標注語料庫的分析,可以揭示韻律結構與語法信息的關系。

在進行韻律結構劃分的時候,可以認為所有的韻律詞邊界都出現在語法詞邊界處。在實際語料中,會出現四個音節以上的語法詞。這些語法詞應該被切分為多個韻律詞。但是,由于這樣的語法詞數量非常少,僅占語法詞總數的0.7%,因而可以暫時認為這些語法詞獨立成為韻律詞,這樣可以極大的簡化標注與分析過程。

漢語韻律結構劃分中韻律組詞的過程,實際上是單音節語法詞與其他語法詞組合生成韻律詞的過程。在標注語料庫中,單音節韻律詞的數量僅為單音節語法詞的24.2%,即75.8%的單音節語法詞通過合并生成了韻律詞。而任何兩個非單音節語法詞合并都會導致韻律詞長度達到或超過四音節,突破韻律詞的詞長限制,因而是不可能出現的。連續的單音節語法詞出現時,它們總是會互相合并生成韻律詞。連續的單音節韻律詞出現很少,在九萬句語料庫中僅出現了4 881例。

在單音節語法詞與其他語法詞合并時,根據具體語法詞的不同,會出現不同的合并規律??偟膩碚f,但單音節語法詞與雙音節語法詞合并時,傾向與附著在雙音節語法詞之后。在由兩個語法詞組成的三音節韻律詞中,“雙音節+單音節”結構的數量,是“單音節+雙音節”結構的2.5倍。輕聲的單音節語法詞總是和它前面的語法詞合并生成韻律詞。比較典型的如“的”、“著”、“了”等。這些語法詞在標注語料庫中,與前一語法詞合并的比例都為100%。

在語料中出現的單音節語法詞中,助詞所占的比例最大,其次是介詞、動詞和連詞。助詞、介詞與連詞由于不是實詞,會更傾向與黏附在其他詞上。因而本文重點考察了這些詞類對韻律結構生成的影響。

助詞沒有自己的實體意義,在語流中也不會重讀,有很多的輕聲詞。助詞通常用于協助前詞形成一定的語法成分,因而,助詞通常都會與前詞結合生成韻律詞。在標注語料中,助詞與前詞結合的比例占到了94.2%。

連詞可以分為并列連詞與非并列連詞。并列連詞用于連接前后兩個并列的成分,實際上無論在語法與語義上與前后詞都沒有非常緊密的聯系。因而,單音節并列連詞只有在前后成分僅含有一個音節時才會與其合并,多數情況下都獨立的形成韻律詞。但相對來講,并列連詞與后詞的聯系更加緊密,因而通常在詞前會比詞后有更高等級的停頓。

以連詞中出現次數最多的“和”為例?!昂汀彼B接的成分通常比較長,因而獨立形成韻律詞的趨勢比較明顯。56.9%的“和”前都有一個韻律短語邊界,并且獨立形成一個韻律詞。另有30.5%前后各有一個韻律詞邊界??偟膩碇v,“和”獨立形成韻律詞的比例達到了87.5%?!昂汀弊窒蚯昂喜⒁还渤霈F了0.8%,而向后合并的情況也只有11.8%。從上面的結果中可以看到,并列連詞在語音上并不輕讀,可以獲得獨立形成韻律詞的資格,在語法上并列連詞只起到連接的作用,所以并不傾向與附著在某一方上,在語義上并列連詞用于引出下一個并列成分,因而與下一成分的關系要相對更緊密一些。與“和”相比,“與”所連接的成分相對較短,因而其周圍韻律短語邊界出現比較少,僅有33.4%,而兩邊均為韻律詞邊界的情況達到了42.1%。它與前后詞合并的比例都有所增加,但總的來看,獨立形成韻律詞的趨勢還是比較明顯的。

非并列連詞的韻律構成上的表現與并列連詞就有很大的不同。當連詞所連接的兩個成分的地位不相同時,連詞要引出其后的成分,并指明兩者之間的關系。此時連詞與其后的成分連接更加緊密。同時,非并列連詞所連接的通常并不是詞語,而是短句,因而連詞之前會有更容易出現韻律短語邊界。以表示轉折的連詞“但”為例,它有99.5%的情況前面出現了韻律短語邊界。

漢語中,介詞與動詞的在韻律組詞的表現上比較類似,也比較復雜。介詞用于表示其后的詞的語法作用,他總是與其后的詞或詞組組成介詞短語,所以他與其后的詞有著自然的聯系。因此,當介詞的賓語只有一個音節時,介詞與其賓語總是會合并形成一個韻律詞。

同時,單音節介詞與出現在它前面的單音節副詞或副詞作用的詞有很強的合并趨勢。副詞與介詞短語在句子中的語法地位是相同的,于是在介詞沒有單音節賓語時,單音節的副詞與引導介詞短語的單音節的介詞緊密的結合在一起,甚至形成了一種副詞+介詞組成的復合介詞的結構。(如“省委/n /〈PW〉宣傳部/n /〈PPH〉也/d 于/p /〈PW〉 近日/t /〈PW〉召開/v /〈PPH〉新聞界/n /〈PW〉座談會/n”)在標注語料中,單音節的副詞與介詞連續出現,合并的比例為94.5%。

介詞前可能存在其他介詞,此時兩個介詞的轄域雖然不同,但它們之間也可以合并成為韻律詞。(如“李/nrf 保東/nrg /〈PPH〉在/p 就/p /〈PW〉 少數/m 人/n /〈PW〉 權利/n /〈PW〉 議題/n /〈PPH〉 發言/vi 時/Ng /〈PW〉 說/v”)。

當句子的主語是單音節詞時,介詞還可以附著在句子的主語之后。當介詞的賓語比較長時,介詞與主語可以形成獨立的韻律短語。這種韻律結構組成方式,與動詞很相似。從上面的分析也可以看到,在介詞的韻律組詞中,也要循序韻律約束(韻律結構長度限制)、語法約束(介詞與前后詞的語法關系)等多種因素的限制,在它們的共同作用下形成句子的韻律結構。

在由韻律詞生成韻律短語時,同樣需要同時考慮韻律、語法、語義等多方面的影響。與韻律詞的劃分相比,在韻律短語劃分時語義約束將起到更重要的作用。韻律短語的劃分要符合句子的語法結構,因而,韻律短語邊界經常出現在句子較高層次的語法邊界上,但由于韻律短語的劃分還要滿足長度的限制,因而不能總是完全按照語法結構劃分。同時,韻律短語結構對語義表達有更重要的作用,因而也要受到語義表達的約束。

5 自動預測試驗

分析標注語料庫可以發現韻律結構與語法結構雖然不同,但是存在著較多的聯系。因而從語法信息進行韻律結構的預測是可行的。本文在標注語料庫的基礎上,進行了韻律結構自動標注的試驗。

試驗中,使用兩名標注人分別標注的九萬句語料作為試驗語料,并選取其中的一半作為訓練集,一半作為測試集。對于語料中的每一個語法詞邊界,將該邊界前后各兩個語法詞,共四個語法詞的詞性與詞長信息組織成為一個八維的特征向量。對于詞性特征,使用文獻[10]中的詞性定義,詞長信息則分為單音節,雙音節,三音節,四音節及以上四個等級。對于位于句首與句尾的邊界,其前方或后方第二個語法詞不存在,在特征向量中使用特殊的標記表示。同時標點也被分別賦予了不同的詞性與詞長標記。每個特征向量對應的輸出為語法詞邊界、韻律詞邊界、韻律短語邊界三類。試驗使用wagon決策樹進行訓練與預測。本文試驗的預測結果與其他一些同類工作的預測結果如表1所示。

表1 韻律邊界預測結果比較

從對比結果可以看到,使用語法信息對韻律結構進行預測可以得到比較好的結果,特別是對韻律詞邊界預測,所得到的預測精度已經比較高。但是在韻律短語預測方面,由于其劃分與語法結構及語義有關,因而僅通過詞性等語法信息預測的精度還比較低。

雖然本文沒有使用復雜的預測算法,但是在一個標注一致性比較好的大規模語料庫上,仍然取得了與其他工作類似的結果。一個大規模的語料庫可以包含更加豐富的韻律現象,可以更加真實的反映漢語韻律結構的特點,從而從中得到的分析結果也更加真實可信。同時,本語料庫在建設過程中,通過對標注人的訓練,減小了韻律結構劃分靈活性對韻律標注的影響,在保證韻律結構標注正確的基礎上,提高了語料庫標注的一致性。

6 語法及語義信息對韻律結構的約束

語音、語義跟語法是人類語言中的幾個獨立又互相制約的平面。純語法理論已不再是漢語語法研究的唯一目標,語音、韻律、語法等研究相互滲透。韻律預測是語音、語法和語義的一個非常好的結合點。韻律預測的發展歷程也是一個很好的例證。最初,韻律預測是基于機械式的語法分詞和規則處理;進而引入語法信息,基于統計生成規則;目前基于人工標注的大規模語料庫,引入語法和語義信息,再利用機器學習算法實現韻律預測,取得了很好的結果。標注人能根據對文字的理解,很好的平衡語音、語法和語義的關系,準確地表達文字要表達的信息,但機器處理距離這一要求還有不小差距。例如:

語法分詞結果韻律切分結果走|法治|的|道路走△法治的道路練|體操|的|經歷練體操的△經歷

句中三角形表示韻律詞邊界。上面的兩個短語有相同的詞性組合,但由于語義不同,語法詞之間的關系也不相同。第一句中,“道路”為“走”的賓語,“法治”與“道路”的結合更為緊密,因而“走”只能單獨成為韻律詞。但是在后句中,“練體操”卻是一個整體,因而“練體操的”形成了一個獨立的韻律詞。在自動預測結果中,后句就多出了“練”后的一個韻律詞邊界。上面兩句的區別無論是用語音信息還是詞性的信息都難以區分。上例表明語言中韻律要為語義表達服務,僅依據詞性特征和語音平衡對韻律結構進行定界和預測還存在很大的不足。

再比如:榮獲本屆“□文華大獎”的劇目□還有□陜西省□戲曲研究院的□眉戶劇《遲開的玫瑰》、□重慶市川劇院的□川劇《金子》、□湖南省湘劇院的□湘劇《馬陵道》等□戲曲劇目。

句中方塊表示韻律短語邊界。如果僅考慮語音與詞性信息,“還有”應該與“陜西省”合并成一個韻律短語,這樣使得韻律短語的長度比較平衡。但是考慮后面出現的排比句式,該韻律短語的邊界則應該調整至“還有”之后。類似的情況還有:

□體操技術□委員會的委員□

□中國體育□代表團的□

上面兩個短語,在自動切分長短語時,依照語音平衡原則都被劃開。但是兩個短語中的詞結合比較緊密,朗讀時應屬于同一個韻律短語。這類長短語是否應該進一步劃分很難通過詞性信息判斷,必須綜合考慮句子的語義。

在進行韻律短語劃分時,對同樣的文本,根據語義表達的不同需要還可能出現多種不同的韻律短語劃分方式。如在下面的例子中:

孝義市經濟實力□顯著增強

孝義市□經濟實力顯著增強

兩句都是合理的短語劃分方式,但前一句強調增強的程度,后一句強調增強的是經濟實力而不是其他。也就是要,在句子中沒有明顯的語義重音的時候,韻律短語邊界處的詞語由于基頻重置會獲得一定程度的強調。

文獻[7]中將句子的語法樹加入韻律結構預測的特征集,雖然在一定程度上提高了預測精度,但其利用的是人工標注的語法結構信息,還很難在大語料庫及自動預測中應用。

可見,在韻律結構的劃分中,語法和語義信息起著至關重要的作用。如何將語法和語義信息融入韻律結構的預測過程中,將成為進一步提高韻律結構預測精度的關鍵問題。

7 結論

本文在一個已完成語法分詞與詞性標注的語料庫上,進一步進行了韻律結構的標注,得到了一個含有十萬句文本語料的人工標注的同時具有語法信息與韻律結構信息標注的語料庫。語料庫標注過程中通過對標注人訓練,保證了語料庫內部標注高度的一致性。

在這一語料庫的基礎上,本文進行了對漢語韻律結構的分析。從分析中可以看到,韻律結構雖然與語法結構不同,但是韻律結構與語法信息還存在著比較緊密的關系。文中通過對漢語文本中出現較多的單音節語法詞的韻律組成規律進行分析發現,助詞總是和前一個語法詞組成韻律詞,并列連詞除和單音節并列成分合并之外,傾向于獨立形成語法詞,非并列連詞傾向于與后詞組合形成韻律詞,介詞則通常與其單音節賓語或詞前的單音節副詞合并。通過對語料庫的分析,可以得到韻律詞與韻律短語的劃分規律。因而使用語法信息進行韻律結構的預測是可行的,從文中進行的預測試驗的結果也可以看出這一點。

從預測實驗的結果可以看到,現在的韻律結構預測中,對韻律詞邊界的預測結果更好,但對韻律短語邊界的預測結果稍差。這主要是由于韻律短語劃分不但與韻律約束相關,還與句子的語法、語義等多種因素相關。只使用句子中的語法信息不能完全描述韻律短語劃分的全部約束條件。

本文還在這一語料庫的基礎上,分析了韻律結構與句子語法結構、語義表達的關系。韻律結構的劃分是為準確的語義表達服務的,因而韻律結構的劃分必須符合語義表達的需要。在韻律預測算法中加入語義的約束將成為提高韻律結構預測,特別是韻律短語邊界預測精度的關鍵。

[1] Min Chu, Yao Qian. Locating Boundaries for Prosodic Constituents in Unrestricted Mandarin Texts [J]. International Journal of Computational Linguistics and Chinese Language Processing, 2001, 6(1): 61-82.

[2] Xiaonan Zhang, Jun Xu, Lianhong Cai. Prosodic Boundary Prediction Based on Maximum Entropy Model with Error-Driven Modification [C]//Qiang Huo, Bin Ma, et al. Eds. Proceedings of the 5th International Symposium of Chinese Spoken Language Processing. Germany: Springer Berlin, 2006: 149-160.

[3] 趙晟,陶建華,蔡蓮紅. 基于規則學習的韻律結構預測[J]. 中文信息學報,2002,16(5): 30-37.

[4] Honghui Dong, Jianhua Tao, Bo Xu. Prosodic Word Prediction Using the Lexical Information [C]//Proceedings of 2005 International Conference on Natural Language Processing and Knowledge Engineering. Publishing House, BUPT, 2005, pp.189-193.

[5] Honghui Dong, Jianhua Tao, Bo Xu. Prosodic Word Prediction Using a Maximum Entropy Approach [C]//Qiang Huo, Bin Ma, et al. Eds.Proceedings of the 5th International Symposium of Chinese Spoken Language Processing. Germany: Springer Berlin, 2006: 169-178.

[6] Heng Kang, Wenju Liu. Prosodic Words Prediction from Lexicon Words with CRF and TBL Joint Method [C]// Qiang Huo, Bin Ma, et al. Eds. Proceedings of the 5th International Symposium of Chinese Spoken Language Processing. Germany: Springer Berlin, 2006: 161-168.

[7] Zhao Sheng, Tao Jianhua, Jiang DanLing. Chinese prosodic phrasing with extended features [C]//Proceedings of 2003 IEEE International Conference on Acoustics, Speech, and Signal Processing, Vol. 1. 2003: 492-495.

[8] Min Chu, Yunjia Wang. Rhythmic Organization of Mandarin Utterances A Two-Stage Process [C]// Qiang Huo, Bin Ma, et al. Eds.Proceedings of the 5th International Symposium of Chinese Spoken Language Processing. Germany: Springer Berlin, 2006: 138-148.

[9] 曹劍芬. 基于語法信息的漢語韻律結構預測[J]. 中文信息學報, 2003, 17(3): 41-46.

[10] 俞士汶, 段慧明, 等. 北京大學現代漢語語料庫基本加工規范[J]. 中文信息學報, 2002, 16(5): 49-64.

猜你喜歡
單音節連詞韻律
連詞that引導的賓語從句
語文單音節詞教學初探
春天的韻律
基于閱讀韻律的高中英語默讀朗讀教學實踐
在農村小學語音教學中提升學生認讀拼讀能力初探
表格大團圓,連詞學得全
韻律之美——小黃村
偶感
西夏語中的對比連詞 djij2
《穆斯林的葬禮》中單音節動詞重疊考察
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合