?

基于復述的中文自然語言接口

2016-05-14 09:34張俊馳胡婕劉夢赤
計算機應用 2016年5期
關鍵詞:復述機器學習

張俊馳 胡婕 劉夢赤

摘要:針對傳統以句法分析為主的數據庫自然語言接口系統識別用戶語義準確率不高,且需要大量人工標注訓練語料的問題,提出了一種基于復述的中文自然語言接口(NLIDB)實現方法。首先提取用戶語句中表征數據庫實體詞,建立候選樹集及對應的形式化自然語言表達;其次由網絡問答語料訓練得到的復述分類器篩選出語義最相近的表達;最后將相應的候選樹轉換為結構化查詢語句(SQL)。實驗表明該方法在美國地理問答語料(GeoQueries880)、餐飲問答語料(RestQueries250)上的F1值分別達到83.4%、90%,均優于句法分析方法。通過對比實驗結果發現基于復述方法的數據庫自然語言接口系統能更好地處理用戶與數據庫的語義鴻溝問題。

關鍵詞:數據庫自然語言接口;詞向量;復述;自然語言表達;機器學習

中圖分類號:TP391.1 文獻標志碼:A

Abstract:In this paper, a novel method for Chinese Natural Language Interface of Database (NLIDB) based on Chinese paraphrase was proposed to solve the problems of traditional methods based on syntactic parsing which cannot obtain high accuracy and need a lot of manual label training corpus. First, key entities of user statements in databases were extracted, and candidate tree sets and their tree expressions were generated. Then most relevant semantic expressions were filtered by paraphrase classifier which was obtained from the Internet Q&A training corpus. Finally, candidate trees were translated into Structured Query Language (SQL). F1 score was respectively 83.4% and 90% on data sets of Chinese America Geography (GeoQueries880) and Questions about Restaurants (RestQueries250) by using the proposed method, better than syntactic based method. The experimental results demonstrate that the NLIDB based on paraphrase can handle the semantic gaps between users and databases better.

Key words:Natural Language Interface of DataBase (NLIDB); word vector; paraphrase; natural language expression; machine learning

0 引言

隨著現代信息技術的發展以及數據的海量式增長,人們希望以更自然、便捷的方式從數據庫中獲取信息,數據庫自然語言接口(Natural Language Interface of DataBase, NLIDB)應運而生,旨在幫助用戶使用熟悉的自然語言(如中文)從結構化存儲系統中獲取信息,消除計算機與人之間的“隔閡”。

Rodolfo等[1]從不同角度分析、總結了目前主流的NLIDB系統,大體分為兩類:一類是以規則匹配、句法分析或語義規則[2-6]等為主要技術手段,分析用戶查詢語義然后轉換為結構化查詢語言(Structured Query Language, SQL),即自然語言到SQL的直接映射;另一類是首先將自然語言翻譯成一種中間層表示的邏輯查詢語言,再轉換為SQL[7-9],這種方法由于具有數據庫無關、領域適應性等特點,成為近年來該領域研究的熱點。然而,以上方法的難點在于需要直接處理用戶靈活多變的查詢語義,由于目前詞法分析、句法分析技術尚未達到足夠高的正確率,語義分析階段的錯誤將導致最后生成的SQL不符合用戶查詢意圖。

近來,一些學者將NLIDB轉換為最優結構篩選問題,即對用戶輸入首先生成可能的候選結構集,再借用規則或統計學方法對其排序,最后取分數最高的候選結構轉換為SQL[10-13]。目前上述方法主要依賴人工編寫規則以及標注語料,不便于跨領域使用。根據文獻[1]總結的查詢問題發現,僅依靠輸入語句與數據庫模式很多情況無法篩選出正確結構,例如,問句“有多少人居住于亞拉巴馬州?”“亞拉巴馬州有多少公民?”“亞拉巴馬州的人數幾何?”查詢目標都應匹配到數據庫屬性“人口”。為彌補這種語義差異,文獻[14-15]使用信息抽取方法從大規模文本中學習出詞匯與知識庫實體之間的映射關系,但實際中,該方法受限于知識庫的大小以及信息抽取的準確度。

綜合以上問題,本文提出了一種基于復述的中文自然語言接口(Paraphrase Natural Language Interface, PaNLI)實現方法。PaNLI使用網絡問答平臺提供的大量“類似問題”“相關知識”作為復述(paraphrases)訓練語料,這些語料涉及領域廣泛且來自用戶的真實提問,訓練得到的復述分類器能更好地解決NLIDB語義鴻溝問題。PaNLI首先提取出句子中可映射到數據庫元素的實體詞,并通過子樹遍歷等操作得到候選樹集與初始排序;其次根據候選結構匹配的屬性句法類別結合規則模板生成若干個形式化的自然語言表達;最后利用訓練得到的支持向量機模型(Support Vector Machine, SVM)分類器計算輸入語句與形式化自然語言表達的語義相關度,重新排序候選樹集,將得到的最優候選樹轉換為SQL。

使用機器學習方法處理分類問題時,關鍵點在于對問題抽取合適的特征表示,以往句子表示通常使用詞袋模型,即不考慮詞語順序以及關聯信息。本文提出一種富語義的句子級特征表示方法,使用Word2Vec工具[16]在大量未標注文本上訓練得到詞語的低維向量表示,結合依存句法分析結果,得到句子的多維語義特征表示。實驗表明該特征表示方法能有效提高復述分類精度。

1 系統組成

數據庫自然語言接口PaNLI系統結構如圖1所示,主要由以下4個模塊構成:1)候選集生成;2)形式化自然語言表達構造;3)最優自然語言表達與候選樹篩選;4)候選樹轉換為SQL語句。

1.1 數據庫預處理

數據庫預處理包含索引以及模式圖建立。為提高查全率,首先,采用基于信息檢索的細粒度分詞方法[17]對數據庫中的模式及實例分詞建立索引;其次,將數據庫模式G(V,E)視為一個有向圖結構,其中V包含關系名以及屬性名兩種節點,E分為關系屬性邊和主鍵外鍵邊。對E中每條邊e賦予一個0~1的權值ω(e),值越高表明連通性越強,本文依據包含e的實例數量與實例總量的比值來設置邊的初始權值。

1.2 候選結構建立

文獻[10]以句子的依存句法分析為輸入,生成多個候選SQL語句,使用機器學習方法計算SQL與句子短語結構樹之間的相似程度,該方法不足之處在于SQL語句與自然語言從結構以及語法上都有很大差異,雖然可以將兩者以樹結構表示,但是其所表達的語義無法證明具有相似性。

本文中,該模塊使用預建立的詞表匹配出用戶輸入語句中的數據庫實體詞,以此生成包含正確語義結構的候選樹集。對每一個候選樹,根據其匹配屬性的句法類別結合規則模板構造出若干形式化自然語言表達,使得語義相似度計算發生在同類型語言中,計算結果更加合理。

1.3 復述分類器

該模塊利用網絡問答平臺提供的主題類似問題作為原始語料,首先使用分類方法過濾掉部分雜質語句,在篩選出的語料中人工標注少量復述問句對;然后應用半監督學習方法擴充復述語料;最后訓練得到一個基于支持向量機的排序復述分類器。本文使用該分類器對生成的自然語言表達按照語義相近程度排序,該方法提供了兩方面的優勢:1)復述方法避免了對用戶的原語句直接語義分析,使得轉換的正確率不會過于依賴預定義規則以及句法分析的正確率;2)用戶時常隱晦地表達查詢謂詞,例如,問句“有多少人居住在亞拉巴馬州?”其中“居住”與屬性“人口”有語義關聯關系,復述方法尤為適合解決這種語義鴻溝問題。

1.4 結構化查詢語句生成

SQL生成是將經過篩選的符合預定義的語義規則(見第2章)的候選結構樹,按照數據庫模式圖進行調整(包括插入路徑缺失節點、屬性關系名替換等)轉換為數據庫能直接執行的結構化查詢語句的過程。將候選結構樹轉換為SQL的方法與生成自然語言表達的方法類似,故本文不再單獨描述。

2 候選樹集生成

給定一個輸入查詢語句q及數據庫DB,首先抽取出若干可映射到數據庫元素的實體詞WD以及對應的數據庫元素S,其次由WD生成符合語義規則的候選樹集Tq。在關系數據庫中,定義數據庫元素S包括關系名R、屬性名A以及屬性值V。為簡化生成過程,預先將具有固定表達的聚類函數詞(如,最多、總和、平均值等)以及邏輯操作詞(如,大于、等于、并且等)分離出來。

生成算法的基本思想是通過子樹移動操作來遍歷(WD,S)可能的樹結構,考慮到候選樹集隨著WD增加呈指數級增長,在子樹移動的過程中根據模式圖以及語義規則裁剪掉不可能生成正確結構的子樹。候選樹生成算法表述如下:

3 形式化自然語言表達構造

以往的NLIDB系統側重于自然語言到結構化語句的單方向研究,而一個用戶友好的系統應同時具備逆向翻譯功能[19],即把執行語句以用戶熟悉的語言呈現。本文中,該逆向過程除了用于結果呈現,更重要的作用是作為候選樹篩選的“中間自然語言”,使用復述方法計算語義相似度。

文獻[20]使用基于圖的多種合并方法將SQL轉換為自然語言表達。這里,候選樹是由模式圖路徑生成得到的直觀結構,僅需使用若干固定模板即可完成轉換。表1中歸納了形式化自然語言表達構造模板(加粗的詞為表格中S(a)類別),其中關系名、屬性值、聚類函數、操作符由S(r)、S(v)、AGGR、OPR表示,S(a)為屬性名的句法類別。生成的問句分為兩類,分別以“……是多少”、“……是什么”結尾或以疑問詞“哪些……”開頭,然后關系名S(r)作為句子描述部分的起始詞,其后包含屬性值S(v)、聚類函數AGGR、操作符OPR,本文根據模式中屬性名S(a)所屬的句法類別(NP、VP等)構造句子順序并添加必要的結構助詞。

在生成的候選樹結構中,根節點關系名作為句子描述部分的起始詞,若其直接子節點包含屬性值則使用第一種類型的問句模板,否則使用以“哪些”開頭的第二種模板。屬性值S(v)通常作為條件限定where的組成部分,從而不包含S(v)子節點的關系名或屬性名作為句中的查詢目的,其在模板中緊靠疑問代詞。當候選樹的結構較復雜時,本文使用模板合并的方法構造長問句,例如圖2中的候選樹(c),結合表1的模板規則1、4生成問句“哪些州的面積大于猶他州的面積,其人口是多少?”,合并過程中使用代詞“其”連接多條規則,避免生成冗余的自然語言表達。

數據庫模式中每個主外鍵關系R都有一個R′與其互為逆關系(例如,“首都”和“所屬國家”)。對每一個候選結構樹t,本文生成具有相同語義的結構樹t′,其中關系R由R′替代。由逆關系建立的候選結構使用不同的規則模板生成自然語句,實體在規則中交換主語和賓語位置。最后將t′生成的自然語句添加到結構樹t的對應形式化自然語言表達集中。對美國地理問答數據集(GeoQueries880),每條用戶查詢,平均對應生成132條形式化自然語句。

4 復述方法

復述,通俗來講,就是對相同語義的不同表達[21],在機器翻譯、自動問答、信息抽取以及自然語言生成等領域有著諸多應用[22],但目前復述語料抽取方法不夠完善,構建一個含有大量復述句對的語料庫周期長且資源獲取困難。

在NLIDB系統研究中,本文主要關注問句形式的復述語料,通過對百度知道、搜狗問問等平臺的觀察發現,大量具有相同含義的提問以“類似問題”“相關知識”等形式在主題頁面中展現,

例如,百度知道用戶的提問“有多少人居住在上海?”,該頁面的其他類似問題包括“上?,F在住的人口有多少?”“居住于上海的,目前大概有多少人口?”等。對于搜索引擎本身,其后臺積累了大量用戶搜索、提問日志,通過聚類、挖掘等操作可以將具有類似語義的提問歸結起來,本文以頁面中的提問以及類似問題作為一個基本塊(平均包含1條主題問句以及5條類似問題),大量抽取以塊為單位的復述訓練語料。

4.1 語料處理

從網絡上抽取得到的原始語料中包含枚舉、事實、概念等多種問題類型,NLIDB系統不同于自動問答系統,不能處理例如“中國為什么要進行改革開放?”這種概念性問題。本文將問題類型分為可處理(枚舉、需求、事實、是非)與不可處理(概念、推薦、評價)兩類,使用復旦中文問答系統問題標注集作為語料,按照文獻[23]中的方法訓練得到一個二值分類器,過濾掉不可處理問題及其類似問題,由于該分類目的是篩選出不可處理的雜質語料,減少人工篩選工作量,其分類準確度不會影響最后結果。篩選出的可處理數據中以塊為基礎使用少量人工標注出語義相同(復述語料標記為1)以及語義不同(非復述語料標記問0)的問句對,最后得到4800條人工標注訓練集。網絡問答平臺中用戶提問覆蓋多個領域,對于自然語言接口系統,通過觀察發現領域相關聯的問答語料更能提升系統轉換效果,從而對訓練復述集,本文根據其在網絡平臺中的所屬類別將問句分類。實際應用時,針對不同的查詢領域本文選擇不同的分類復述語料。

4.2 訓練數據擴充

在人工標注的少量復述語料基礎上,本文使用基于協同訓練的半監督學習方法擴充訓練語料,其核心思想是:對于一個未標注樣本,如果SVM、隨機森林以及最大熵中兩個分類器的判別一致,則將該樣本進行標記,并將其納入另一個分類器的訓練樣本;如此重復迭代,直至所有訓練樣本都被標記或者三個分類器不再有變化。

4.3 向量空間模型

在模型訓練之前需使用合適的方法表示句子,傳統的文本處理方法詞袋模型(BagOfWords, BOW),將文本拆解為單詞,以單詞作為矢量空間的維度,以每個單詞在文本中出現的頻率作為文本矢量對應維度的值。BOW的缺點是忽略了詞語在文本中出現的先后次序,并且沒有考慮詞語的語義信息(實驗5.2節)。

詞向量模型最早由Hinton提出,它將所有詞映射到一個低維實數向量空間,語義相近的詞在向量空間中的距離也更近。本文使用文獻[16]所提出的Word2Vec工具設置窗口大小為5的CBOW模型以及hierarchical softmax方法,在中文維基百科上訓練得到詞語語義的Word Embedding模型。Word2Vec是一個無隱含層的神經網絡,直接訓練詞的N維(本文中設置N為50)實數向量與內部節點向量的條件概率。訓練結果中,任意兩個詞的語義相關程度可以通過計算兩個詞對應向量的余弦相似度得到。

除了詞向量,本文同時還考慮依存句法關系的低維向量特征表示。本文使用斯坦福依存句法分析器[24],依存弧標記δ={amod,tmod,nsubj,csubj,dobj,…}是相對離散的標簽集合,也有類似詞語的語義相關性。例如amod(形容詞修飾)與num(數詞修飾)更相近而不是nsubj(名詞性主語)。本文使用與詞語相似的方法,將訓練語料中的依存關系標記映射到向量空間模型,窗口大小設為3。

4.4 句子特征提取

特征提取是采用統計機器學習方法解決分類問題中至關重要的一個部分。本文所面向的處理對象是相對簡短的問句,問句中通常包含較少的詞,因此所含特征信息也相對較少。實際訓練中本文考慮問句3方面的特征:詞、詞性以及依存句法關系。由于問句長度為變量,而訓練特征維度固定,本文提出一種句子特征提取算法,結合Transitionbased句法分析[25]思想提取特征詞,添加對應的詞性以及依存關系特征,算法具體表述如下:

算法2 Feature_Selection。

輸入 經過分詞的復述問句對,詞性標注,依存句法關系,Word Embedding模型,特征詞數N。

輸出 K維特征。

第一步 候選詞添加。跟隨文獻[25],對arcstandard句法分析系統本文選擇棧緩沖區(stack and buffer)中前3個詞加入候選詞集,并將依存關系中的SUBJ、OBJ以及MOD類型所包含的詞加入隊列Queue1及Queue2。

第二步 特征詞添加。循環地從Queue1及Queue2中分別取出第一個詞性為核心詞性(名詞、動詞、形容詞或疑問代詞)的詞語w1和w2,計算其在詞向量空間上的余弦相似度θ,若θ大于閾值參數τ(0<τ<1),則將w1,w2分別添加到詞語列表wordList1與wordList2中,當詞語長度大于N時結束循環。如果計算得到θ小于參數τ,則加入備選列表backList1與backList2。

第三步 補足特征詞。若某個結果列表中的詞語數量小于3則分別計算其備選列表中的詞與另條問句中的核心詞性的詞向量距離,并取相似度最高的詞補足結果列表。若此時仍結果列表仍不足N個詞,則將句中剩余詞按上述方法添加。

第四步 特征生成。對每條問句,取結果列表中的N個詞的實數向量總和的平均值、對應的詞性標注以及依存關系類型以連接方式添加到特征向量中。

實驗中發現,特征詞數為3時,在系統運行效率以及準確度上的平衡最好。

4.5 最優結構樹篩選

根據第4.4節提取的特征,本文使用基于徑向基核函數(Radial Basis Function,RBF)的SVM模型訓練得到復述分類器。由于支持向量機為判別式模型,不能直接計算特征與類別的聯合概率,本文使用基于投票的SVM方法[26]得到語義相似度值P(Nt),從而候選樹的總得分由如下公式得到:

5 實驗結果與分析

5.1 實驗數據與設置

實驗包括2部分:首先是基于SVM的復述問句分類精度測試,主要觀察不同大小數據集以及不同特征組合對復述分類效果的影響,測試數據為從百度知道、搜狗問問等平臺抽取的“類似問題”“相關知識”經過問題處理、擴充最后得到57000條問句對,其中正例38150條(問句對為復述),反例18850條(問句對不為復述)。

其次,自然語言到SQL轉換的系統測試。由于目前中文方面缺少統一的NLIDB系統測試平臺,本文將英文中常用的問答測試集,美國地理問答語料(GeoQueries880)以及餐飲問答語料(RestQueries250)經過多人翻譯、校對得到漢語問答測試集,簡稱Geo880CN、Rest250CN。為對比本文PaNLI系統的效果,本文使用當時在英文GeoQueries880上取得最好成績的Precise [27]及基于句法分析的樹核函數系統[10]作為基準,測試在不同大小、不同領域數據集的轉換效果。

PaNLI以及對比系統實現使用Java語言編寫,JDK版本為1.8。實驗代碼運行于Linux系統FedoraLiveDesktopx86,CPU 2.6GHz雙核Inter Corei5,8GB 1600MHz DDR3L內存。

5.2 復述分類測試

特征詞數N是實現復述問句準確分類的重要因素,同時為保證系統實際運行有效性,實驗將測試上述因素對分類準確度及一條查詢語句轉換時間的影響。實驗使用數據集的80%作為訓練集,剩余20%作為測試集,使用LIBSVM作為訓練及測試工具,RBF核函數懲罰因子參數C設為1。

由表2知,隨著特征詞數增加,系統耗時等幅增加,意味著對用戶較長的等待時間,當詞數達到5個時分類準確率開始下降,此時過多詞數使得特征維數增加,并且引入數據雜質(如,句中“的”“是”等停用詞)。實際應用中本文選擇特征詞數為3,在系統運行效率以及準確度上的平衡較好。

表3給出了多種特征組合下,SVM采用不同核函數的分類精度,選取的特征包括問句詞袋模型表示(BOW)、詞向量模型(Word Embedding)、詞性標注(PartOfSpeech,POS)、依存句法關系枚舉表示(Dependency Relation)及實數向量表示(Dependency Embedding)。

由表3可以看出,使用詞向量模型、詞性及依存關系組合作為特征,在不同大小數據集上的分類精度都好于其他特征組合,相對于傳統的詞袋模型,詞向量特征對分類效果有顯著提升。依存關系枚舉表示與向量空間表示也對結果準確度影響,一種直觀理解是,具有相似的上下文句法關系的標記在語義上更相近,在分類時這種相似性如同詞語,能更好地捕捉句子特征。在4種核函數中,RBF核函數在數據量增大的情況分類效果更好,因而在系統測試中,使用基于RBF核函數的SVM作為復述分類器。

5.3 系統測試

該部分測試系統將自然語言轉換為SQL語句的效果,實驗中本文將數據Geo880CN按照句子長度以及句子數量切分為Geo100CN、Geo250CN、Geo500CN、Geo660CN、Geo880CN五種數據集,句子數量以及句子長度依次遞增,其中Geo880CN包含所有的880條問句,餐飲數據Rest250CN直接使用全部250條查詢作測試。評價指標選擇數據挖掘中常用的F1值:

F1=2*P*RP+R(3)

其中:P為準確度,即測試語句中正確轉換為SQL語句的數量占所有測試語句數量的比例;R為召回率,指正確轉換為SQL語句的數量與能夠正確識別并轉換的查詢語句數量比值。

由圖3可以看出本文提出的復述方法PaNLI與樹核函數法,Precise在Geo880CN五種切分數據集上F1值的變化。實驗結果表明在美國地里問答數據集上復述方法PaNLI在不同大小的數據集上優于樹核函數方法與圖匹配方法,當問句數量增加到880時,復述方法F1值為83.4%,與其他系統相比下降更平穩。樹核函數由于人工編寫語料有限,某些語義差異無法涵蓋?;谧畲罅髌ヅ涞腜recise系統主要依賴圖結構的搜索及字符串表層對應,而使用漢語數據集測試時同一個問題有多種表達方式,難以直接匹配,從而表現較差。PaNLI訓練語料來源于網絡平臺上用戶的真實提問,對復述問句捕捉更好,即使用戶表達方法不同,很多情況下本文也能篩選出正確的候選結構。

表4為本文所建系統在餐飲問答語料(Rest250CN)上的查詢轉換結果。相較樹核函數,PaNLI在準確度上略低1.7%,原因是Rest250CN包含更多復雜長問句,例如“在柏林市的弗雷德里希大街有哪些餐館的面條做的比較好吃?”,這些句子在短語結構樹上與文獻[10]提出的SQLTree相似度較高,更易篩選出正確SQL,但缺點是訓練階段需提供正確、完整的SQLTree。召回率方面復述方法比樹核函數高5%,PaNLI更易識別出具有相同含義的形容詞、動詞,比如復述語料“……好吃嗎?”與“……哪個更美味”其中“好吃”與“美味”有較隱晦的相似性,從而幫助系統更多識別出能夠轉換的查詢。綜上所述,相比其他NLIDB系統,本文提出的基于復述方法的PaNLI有如下幾點優勢:1)訓練語料來源于網絡,語義覆蓋面更廣,具有領域適應性;2)人工干預部分只需少量篩選復述語料,較編寫大量邏輯表達式以及語法規則成本更低;3)本文復述方法更適用于漢語多樣化的口語表達,能有效避免語言本身歧義性以及詞法分析、句法分析錯誤導致最后生成SQL錯誤,語義鴻溝問題更少。

6 結語

本文提出的基于復述NLIDB系統實現方法,避免了對用戶語句的直接分析,利用網絡問答語料訓練得到的復述分類器篩選出語義最相近的自然語言表達。網絡問答語料覆蓋面廣且易于獲取,避免費時的人工標注操作。在訓練過程中,提出一種結合依存句法分析器的句子級別特征提取方法。實驗表明該句子特征表示能有效提高分類準確度,在測試集上均超過現有取得較好效果的系統。在今后的研究中進一步引入機器學習中深度學習方法,提取句子深層次特征,提高分類準確度。

參考文獻:

[1]RODOLFO A, JUAN J, MARCO A, et al. Natural language interfaces to databases: an analysis of the state of the art[C]// Recent Advances on Hybrid Intelligent Systems. Berlin: Springer, 2013, 451:463-480.

[2]AHMAD R, KHAN M, ALI R. Efficient transformation of natural language query to SQL for Urdu[C]// Proceedings of the 2nd Conference on Language and Technology. [S.l.]: Society for Natural Language Processing, 2009:53-60.

[3]POPESCU A, ARMANASU A, ETZIONI O, et al. Modern natural language interfaces to databases: composing statistical parsing with semantic tractability[C]// Proceedings of the 20th International Conference on Computational Linguistics. Stroudsburg, PA: Association for Computational Linguistics, 2004:141-147.

[4]孟小峰, 王珊. 中文數據庫自然語言查詢系統NCHIQL設計與實現[J]. 計算機研究與發展, 2001, 38(9):1080-1086. (MENG X F, WANG S. Design and implementation of a Chinese natural language interface to database (NCHIQL) [J]. Computer Research and Development,2001, 38(9): 1080-1086.)

[5]RODOLFO A, JUAN J, MARCO A. Semantic model for improving the performance of natural language interfaces to databases[C]// Proceedings of the 10th Mexican International Conference on Advances in Artificial Intelligence, LNCS 7094. Berlin: SpringerVerlag, 2011: 277-290.

[6]許龍飛, 楊曉昀, 唐世渭. 基于受限漢語的數據庫自然語言接口技術研究[J]. 軟件學報, 2002, 13(4):537-544.(XU L F, YANG X Y, TANG S W. Study on a database natural language interface technique based on restrictive Chinese[J]. Journal of Software, 2002, 13(4): 537-544.)

[7]MINOCK M, OLOFSSON P, NSLUND A. Towards building robust natural language interfaces to databases[C]// Proceedings of the 13th International Conference on Natural Language and Information Systems: Applications of Natural Language to Information Systems. Berlin: SpringerVerlag, 2008, 5039:187-198.

[8]WARREN D, PEREIRA F. An efficient easily adaptable system for interpreting natural language queries[J]. Computational Linguistics, 1982,8(3/4):110-122.

[9]WEISCHEDEL R. A hybrid approach to representation in the Janus natural language processor[C]// Proceedings of the 27th Annual Meeting on Association for Computational Linguistics. Stroudsburg, PA: Association for Computational Linguistics, 1989:193-202.

[10]GIORDANI A, MOSCHITTI A. Automatic generation and reranking of SQLderived answers to NL questions[C]// Proceedings of the 2nd International Workshop on Trustworthy Eternal Systems via Evolving Software, Data and Knowledge, Volume 379 of the series Communications in Computer and Information Science. Berlin: SpringerVerlag, 2013: 59-76.

[11]LI F, JAGADISH H. Constructing an interactive natural language interface for relational databases[J]. Proceedings of the VLDB Endowment,2014,8(1):73-84

[12]POON H. Grounded unsupervised semantic parsing[C]// Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA: Association for Computational Linguistics, 2013:1-10.

[13]GIORDANI A, MOSCHITTI A. Generating SQL queries using natural language syntactic dependencies and metadata[C]// Proceedings of the 17th International Conference on Applications of Natural Language to Information Systems, LNCS 7337. Berlin: Springer, 2012:164-170.

[14]BERANT J, CHOU A, FROSTIG R, et al. Semantic parsing on freebase from questionanswer pairs[C]// Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2013:1533-1544.

[15]CAI Q, YATES A. Largescale semantic parsing via schema matching and lexicon extension[C]// Proceedings of the Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA: Association for Computational Linguistics, 2013:423-433.

[16]MIKOLOV T, SUTSKEVER I, CHEN K, et al. Distributed representations of words and phrases and their compositionality[C]// Proceedings of the Advances in Neural Information Processing Systems. Nevada: NIPS, 2013: 3111-3119.

[17]曹勇剛, 曹羽中, 金茂忠,等. 面向信息檢索的自適應中文分詞系統[J]. 軟件學報, 2006, 17(3):356-363. (CAO Y G, CAO Y Z, JIN M Z, et al. Information retrieval oriented adaptive Chinese word segmentation system[J]. Journal of Software,2006, 17(3):356-363.)

[18]ESPAABOQUERA S, CASTROBLEDA M, ZAMORAMARTNEZ F, et al. Efficient viterbi algorithms for lexical tree based models[C]// Proceedings of the 2007 International Conference on Advances in Nonlinear Speech Processing. Berlin: SpringerVerlag, 2007, 4885:179-187.

[19]SIMITSIS A, IOANNIDIS Y. DBMSs should talk back too[C]// Proceedings of the 4th Biennal Conference on Innovative Data Systems Research. [S.l.]: arXiv, 2009:62-70.

[20]KOUTRIKA G, SIMITSIS A, IOANNIDIS Y E. Explaining structured queries in natural language[C]// Proceedings of the 2010 IEEE 26th International Conference on Data Engineering. Piscataway, NJ: IEEE, 2010:333-344.

[21]BARZILAY R, MCKEOWN K. Extracting paraphrases from a parallel corpus[C]// Proceedings of the 39th Annual Meeting on Association for Computational Linguistics. Stroudsburg, PA: Association for Computational Linguistics, 2002:50-57.

[22]趙世奇, 劉挺, 李生. 復述技術研究[J]. 軟件學報, 2009, 20(8):2124-2137.(ZHAO S Q, LIU T, LI S. Research on paraphrasing technology[J]. Journal of Software, 2009, 20(8):2124-2137.)

[23]ZHANG D. Question classification using support vector machines[C]// Proceedings of the 26th Annual International ACM SIGIR Conference on Research & Development in Information Retrieval. New York: ACM, 2003:26-32.

[24]CHANG P, TSENG H, JURAFSKY D, et al. Discriminative reordering with Chinese grammatical relations features[C]// Proceedings of the 3rd Workshop on Syntax and Structure in Statistical Translation. Stroudsburg, PA: Association for Computational Linguistics, 2009: 51-59.

[25]ZHANG Y, NIVRE J. Transitionbased dependency parsing with rich nonlocal features[C]// Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies. Stroudsburg, PA: Association for Computational Linguistics, 2011:188-193.

[26]SHEN L, JOSHI A K. An SVM based voting algorithm with application to parse reranking[C]// Proceedings of the 7th Conference on Natural Language Learning at HLTNAACL. Stroudsburg, PA: Association for Computational Linguistics, 2003:9-16.

[27]POPESCU A M, ETZIONI O, KAUTZ H. Towards a theory of natural language interfaces to databases[C]// Proceedings of the 8th International Conference on Intelligent User Interfaces. New York: ACM, 2003: 149-157.

猜你喜歡
復述機器學習
淺談低年級數學教學中的復述策略
基于詞典與機器學習的中文微博情感分析
基于網絡搜索數據的平遙旅游客流量預測分析
前綴字母為特征在維吾爾語文本情感分類中的研究
基于支持向量機的金融數據分析研究
機器學習理論在高中自主學習中的應用
借助復述培養學生的英語表達能力
薛法根老師指導學生“復述”藝術之微探
淺談英語口語訓練三部曲
重輸入,輕輸出
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合