?

稅收優惠政策關鍵要素抽取與可視化分析

2022-09-18 03:55關海山鄭玉龍魏筆凡張澤民岳浩師斌董博
大數據 2022年5期
關鍵詞:稅種優惠政策優惠

關海山,鄭玉龍,魏筆凡,張澤民,岳浩,師斌,董博

1. 西安交通大學軟件學院,陜西 西安 710049;

2. 陜西省天地網技術重點實驗室,陜西 西安 710049;

3. 西安交通大學繼續教育學院,陜西 西安 710049;

4. 西安交通大學計算機科學與技術學院,陜西 西安 710049

0 引言

稅收優惠政策是指稅法對某些納稅人和征稅對象給予鼓勵和照顧的一種特殊規定,是國家利用稅收調節經濟的具體手段。國家通過稅收優惠政策可以扶持某些特殊地區、產業、企業和產品的發展,促進產業結構的調整和社會經濟的協調發展,保證了企業的競爭力和存活力,并且對就業和再就業具有極大的積極影響。稅收優惠政策的形式各種各樣,包括稅額減免、稅基扣除、稅率降低等。稅收優惠政策的范圍越廣、差別越大、方式越多、內容越豐富,納稅人稅收籌劃的空間就越大、節減稅收的合理方式就越多,因此納稅人可合法利用稅收優惠政策來減輕自身的稅收壓力。

為了“減稅降負”“精準施策”以及推進“放管服”等改革措施,稅務主管部門近年來推出了大量不同類型的稅收優惠政策。這些稅收優惠政策主要通過專題講座、納稅教育輔導以及網站政策公告等方式進行宣傳和推廣,時效性差、覆蓋面小。納稅人需要花費大量的時間跟蹤稅收優惠政策的發布,快速從海量稅收優惠政策中查找并定位與自身相關的優惠信息變得越來越困難,導致許多納稅人沒有享受到應該享受的優惠,甚至有些納稅人不清楚哪些優惠政策與自己相關。隨著互聯網的快速發展,網絡數據呈現出大規模、多元化、組織結構松散等特點。稅收優惠信息也難以避免這種情況,多源、異構導致的信息碎片化等問題[1]給納稅人獲取有效的稅收優惠信息造成了困擾。

國家稅務總局在《關于進一步深化稅收征管改革的意見》中強調,要優化以滿足納稅人正當需求和維護合法權益為中心的納稅服務,構建更加方便、快捷、高效的納稅服務機制[2-3]。目前少數研究者希望通過大數據技術等前沿技術實行稅收優惠政策的“直達快享”,但是稅務大數據推薦技術需要從多個維度分析納稅人的過程信息和行為信息,而目前的稅務信息系統還無法提供這些信息。此外,為了保證大數據推薦技術的質量,需要集成稅務領域中大量的業務系統,但是各個系統提供的原始數據往往存在標準不統一、一致性低、規范性差等問題,需要進行海量數據的清洗、轉換、對碰等預處理工作,工作量大、錯誤率高。利用少量數據預測大量未知信息則可能產生過擬合等風險[1,4]。

為此,本文基于深度學習與特征規則聯合抽取方法構建了一個稅收優惠法規可視化分析系統,該系統的貢獻主要體現在以下兩點:

● 根據稅務專家的經驗知識,制作稅收優惠關鍵要素數據模板,提供了一種針對稅收優惠政策的結構化數據抽取方法,解決了稅收優惠政策信息碎片化等問題,完成了復雜稅收優惠信息到結構化信息的轉換;

● 基于稅收優惠關鍵要素數據模板,設計了以納稅人為主體的徑向圖可視化查詢方式,解決了納稅人在面對海量的稅收優惠政策時,無法快速定位與自身相關的優惠內容的問題。

該系統的構建主要有3個步驟:稅收優惠主題構建、稅收優惠分面識別、稅收優惠查詢與可視化。

(1)稅收優惠主題構建

● 文本分割:對稅收優惠政策進行文本分割處理。根據大量觀察與統計,稅收優惠政策的文件表現形式一般為由若干個條款組成的完整文檔,每個條款都描述了一些與其他條款不同的稅收信息。因此根據優惠文檔的特征設計出文本分割算法,把一個稅收優惠政策文檔分割為若干個稅收優惠條款,得到一個由若干個條款組成的集合。

● 稅收條款的優惠信息識別:將單個稅收優惠政策處理為若干個條款后,并非所有條款的內容都包含與稅收優惠相關的信息,因此構建一個深度學習的分類模型,識別出與稅收優惠相關的條款。

(2)稅收優惠分面識別

制作稅收優惠政策關鍵要素數據模板,該模板包含條款內容、享受主體、標題、文號、減免方式、減免類型、稅種、政策類型和有效期限9個關鍵要素。根據不同的關鍵要素構建不同類型的模型任務對其內容進行識別和抽取,然后使用關系型數據庫將抽取的知識進行存儲,為查詢與可視化提供數據支撐。

(3)稅收優惠查詢與可視化

面對海量稅收優惠政策文件,納稅人難以精準檢索到相關稅收優惠內容,且難以直接了解稅收優惠的重要信息。因此,該系統設計了稅收優惠政策查詢與可視化的功能模塊。當用戶輸入稅收優惠政策的享受主體后,就能快速查詢到該享受主體以及與其相似的享受主體相關的稅收優惠政策,并以徑向圖的方式展示,顯示每個政策條款的關鍵要素內容,提高政策條款的易讀性。

1 相關工作

近年來稅務領域的相關工作側重于偷稅漏稅檢測、發票虛開檢測、金融欺詐識別等,文本信息抽取方面的工作較少。因此,本節將從兩方面進行介紹,一是針對某一特定領域的文本信息抽取工作,二是可視化布局的相關工作。

1.1 特定領域內的文本信息抽取工作

在特定領域內進行文本信息抽取的工作已有許多。針對特定領域中的語料個性化、訓練數據稀缺等問題,如何進行文本信息抽取工作是研究者一直關心的問題。Zhang R X等人[5]對少量監管文件和物業租賃協議文檔進行人工注釋,利用這些文檔對BERT(bidirectional encoder representations from transformers)模型進行微調,之后成功利用該模型從這兩種不同類型的商業文檔中提取結構化實體,并將成果展示在一個端到端云平臺,允許用戶上傳文檔并檢查模型的結果,說明少量特定領域的注釋數據足以微調BERT模型,實現具有一定準確度的元素內容的提取。Nguyen M T等人[6]在BERT模型上疊加卷積神經網絡(convolutional neural network,CNN)層完成了遷移學習,基于Transformers開發了原型產品AURORA,該系統解決了在訓練樣本數量有限的情況下,從特定領域中提取結構化信息的問題。Friedrich A等人[7]針對材料科學領域提出了3個信息提取任務:實驗描述句子的檢測、實體識別和輸入以及與實驗相關的數值的識別,針對這些任務,他們標注了一個新的語料庫,使用不同的模型進行信息抽取的對比工作,實驗發現BERT模型的性能優于其他模型的性能,同時他們使用BERT+BiLSTM(雙向長短期記憶網絡)的組合以應對更加復雜的挑戰。Zeghdaoui M W等人[8]提出了一種基于CNN結合長短期記憶(long shortterm memory,LSTM)神經網絡的醫學文本分類模型,CNN-LSTM模型使用通過FastText計算的詞向量來實現最高準確度,獲得了較好的結果。

1.2 可視化布局

如何合理地將與納稅人相關的優惠信息可視化,并通過簡單直觀的方式進行展示,是一個值得思考的問題。Brandes U等人[9-10]提出,中心性是圖分析中一個重要的研究內容,它量化了節點在圖結構中的重要性,因此徑向布局是一種直觀地表達節點間相對重要性的有效方法。之后他們又提出了一種新型的徑向布局,該方法是基于應力最小化的擴展,其加權方案在優化過程中逐漸對中間布局施加徑向約束。Raj M等人[11]提出了一種新的無向圖布局方法,將頂點約束在一組閉合的曲線上,這種布局可以很好地顯示圖的中心性和頂點距離信息,同時提供了一種可視化策略證明了布局方法的有效性。Fenu G等人[12]在社交網絡、YouTube、Wikipedia上使用了徑向布局來表示用戶與特定對象的匹配關系,認為簡單而有效的可視化狀態可以給用戶帶來不同的好處。Bostock M等人[13-14]提出了ProtoVis和D3.js框架,ProtoVis可以將數據直接映射到可視元素,使設計者無須計算細節即可實現可視化;D3.js可以將輸入數據綁定到任意的文檔元素中,通過動態轉換修改內容。Li D Q等人[15]提出了Echart可視化框架,它是一個開源的、基于Web的、跨平臺的框架,具有簡單易用、交互內容豐富以及高性能的特點,它的核心是一套聲明式可視化設計語言,設計者可以自定義內置圖表類型。

本文的主要工作是抽取稅務領域中的一些關鍵信息,通過實驗對比將性能較好的BERT模型作為核心,針對不同的信息抽取任務采用不同的處理方式,實現對稅收優惠關鍵信息的抽取,并采取徑向圖布局的方法進行可視化展示。

2 系統概述

2.1 系統結構框架

該系統包含兩個概念定義:稅收優惠主題和稅收優惠條款分面。將每個稅收優惠政策文檔看作一個獨立的集合,用N表示,將每個文檔內部包含的各個優惠條款看作最小的不可分割的元素,用C表示。定義一個集合N由若干個元素C組成,表示為N={C1,C2,…,Cn},如果Ci包含了稅收優惠的相關內容,則稱Ci為一個稅收優惠主題。根據稅務專家經驗,制作稅收優惠政策的數據結構模板。該模板包括條款內容、享受主體、標題、文號、減免方式、減免類型、稅種、政策類型和有效期限9個關鍵要素,這些關鍵要素可以有效地對稅收優惠文檔的重要內容進行表示。其中,一個關鍵要素就是稅收優惠條款的一個分面,每個元素Ci都由這9個分面組成。最終的結構為一個稅收優惠政策文檔包含一個或多個主題,每個主題具有9個分面,每個分面都對應一個關鍵要素內容。

圖1所示為稅收優惠法規可視化系統3個模塊的框架。每個模塊的功能和特性描述如下。

圖1 系統框架

為了保證數據源的權威性以及準確性,將國家稅務總局官方網站以及各省市地方分局官方網站作為本系統的數據來源。使用Python爬蟲技術的Requests庫和BeautifulSoup庫進行頁面文檔的全面解析,過濾除文檔自身內容以外的不必要元素,以保證數據源的質量。

模塊1:稅收優惠主題構建。根據稅務專家系統的先驗知識,對大量稅收優惠政策文檔的結構、特征進行歸納和總結。通過特征提取,定位文檔關鍵位置,使用基于規則的方法,設計了針對稅收優惠政策文檔的文本切割算法,該算法可以將稅收優惠政策文檔分割為若干條以單個條款為最小文本單位的文本序列集合。最后將每個稅收優惠文檔形式化為一個獨立的集合,用N表示。將文檔內部的各個優惠條款看作最小且不可分割的元素,用Ci表示。定義一個集合N由若干個元素Ci組成,表示為N={C1,C2,…,Cn}。通過深度學習技術構建的算法模型對集合N中的每個主題進行識別,得到集合N中含有稅收優惠政策的主題Ci,形成新的集合T={Ci,…,Cm}。

模塊2:稅收優惠條款分面識別。對模塊1中集合T的元素進行處理,使用深度學習與規則處理相結合的方法對每個元素進行識別和抽取,使得每個主題都包含9個稅收優惠條款分面。該模塊的輸入為經過模塊1處理后得到的集合T,輸出為每個條款的各個關鍵要素信息。

模塊3:稅收優惠查詢和可視化。根據稅收優惠關鍵要素數據模板,設計分類查詢以及相應的可視化算法,實現系統的查詢與可視化功能。

在該系統中,數據源的預處理部分簡單利用了爬蟲程序和基于規則的算法解析,因此不進一步描述這些算法的詳細實現。

2.2 稅收優惠主題構建

首先,對大量稅收優惠文檔結構、特征進行歸納和總結,通過提取特征、定位文檔關鍵位置的索引,使用基于規則的方法設計文本切割算法,把一個文本分割成若干條款,如圖2所示。

圖2 稅收優惠條款分割示例

之后,對分割后的條款進行數據標注,標記該條款是否包含與稅收優惠政策相關的內容,如果包含,則標記為1,否則標記為0;然后使用深度學習模型學習帶有標記的樣本。本系統采用性能較好的BERT模型,BERT模型是一種基于Transformer的Encoder結構的預訓練語言模型,通過海量的文本數據訓練掩碼語言模型(masked language model,MLM)和下一句預測(next sentence prediction,NSP)任務,使BERT模型可以學習更深層的語義信息[16]。在經過預訓練的BERT模型上進行微調,可以使一些下游應用表現出更好的效果。

圖3所示為稅收優惠主題識別模型結構,具體步驟如下。

步驟1:把輸入的條款轉換為字符級別的序列。如圖3所示,設置BERT模型可處理的最大序列長度為maxlen,加上首位CLS符號,故可處理的條款最大長度為maxlen-1。對于超出最大長度的輸入條款,根據文本的結構特征,優先處理句子的頭部和尾部,即將前0.25×maxlen個字符和后0.75×maxlen個字符作為模型輸入;對于長度小于maxlen-1的輸入文本,填充空字符,后文采取同樣的處理方式,不再贅述。

圖3 稅收優惠主題識別模型結構

步驟2:序列首增加CLS符號,生成序列表示。

其中,S表示輸入序列,V表示詞表,除了涉及全部字符外,還包括特殊口令CLS、SEP、UNK、PAD和MASK,Vlookup是指在詞表V中尋找字符的編號,input表示S根據詞表中的編號計算出的序列。Word_Embedding指將字符映射為詞嵌入向量,結果E為輸入序列的嵌入向量,計算過程是inpute×W,We表示計算結果E的權重參數,隨機初始化其值,在訓練過程中根據梯度更新We。

步驟3:使用BERT對序列嵌入進行特征提取。

①字向量與位置編碼:

根據式(4)計算位置嵌入P,式(5)中pos(input)指獲得字符在序列中的位置,Wp表示計算結果P的權重參數。

②計算:

其中,X為字符嵌入向量E與位置嵌入向量P之和。

③自注意力機制:

其中,Q為查詢矩陣,K為鍵矩陣,V為值矩陣,Z為自注意力矩陣,分別為權重參數,其值進行隨機初始化。

④自注意力殘差連接與歸一化

定義歸一化函數:

計算:

⑤前饋殘差連接與歸一化:

其中,Xattention表示自注意力分數,Xhidden表示輸入序列的隱藏狀態。此時,文本的深層語義特征提取全部完成,為了方便描述,后文統一用Xhidden=BERT(S)表示BERT對序列嵌入進行特征提取。

步驟4:使用全鏈接層將隱藏層第1個位置(CLS對應的特征向量)進行特征提取。此向量包括整句的所有語義信息,全連接層將CLS特征向量維度降至標簽個數t。

步驟5:最后使用Softmax分類器計算相應的標簽,Y為最終輸出結果,即預測標簽。

由于BERT模型的輸入有最大長度限制,為了得到更好的分類結果,對于超出最大長度的條款,按句號切割后分別作為模型的輸入,把模型輸出的多個結果集成起來作為該條款的分類結果。圖4展示了稅收優惠主題識別的示例,其中第1個和第2個條款包含與稅收優惠相關的內容,第3個條款則不包含。

圖4 稅收優惠主題識別示例

2.3 稅收優惠條款分面識別

根據稅務專家的經驗,在單個條款中人們關心的主要內容和稅收優惠關鍵要素見表1,筆者分別以不同的形式對數據進行標注,使用不同的方法和模型進行處理。

表1 稅收優惠關鍵要素描述

2.3.1 享受主體識別

從一個樣本序列中識別出享受主體字段,這是一種典型的序列標注任務。例如在“一、自2015年1月1日起至2016年12月31日止,對物流企業自有的(包括自用和出租)大宗商品倉儲設施用地,減按所屬土地等級適用稅額標準的50%計征城鎮土地使用稅?!边@個條款中,“物流企業”是享受主體。把這個樣本按照字符順序拆分成一系列漢字,每個字符都擁有標簽,標簽類型為“BIO”形式,之后模型需要給出每個字符的標簽類型,最終識別為BI標簽的字符被認為是享受主體。圖5所示為享受主體識別模型結構,具體步驟如下。

圖5 享受主體識別模型結構

步驟1:把輸入的條款轉換為字符級別的序列。

步驟2:序列前端增加CLS符號,生成序列的向量表示。

步驟3:使用BERT對序列嵌入進行特征提取。

步驟4:使用BiLSTM將隱藏層參數降維為k,接著使用全連接層將維度降至標簽個數t。

步驟5:使用條件隨機場(conditional random fields,CRF)對輸出層的標簽進行約束,輸出最優的標注序列[17-18]。

2.3.2 稅種、減免類型、減免方式、政策類型識別

在標注數據的過程中,筆者發現28.3%的條款涉及多個稅種,如“五、對青藏鐵路公司及其所屬單位自用的房產、土地免征房產稅、城鎮土地使用稅?!逼渲猩婕胺慨a稅和城鎮土地使用稅兩個稅種。因此筆者采用了多標簽識別的方法。給定訓練集:、詞表V、標簽空間L={l1,l2,l3,…,ln},第i個條款文本表示為Si={w1,w2,w3,…,wm},其中?w∈V。詞表V除樣本集包含的字符外,還包含MASK、CLS、PAD、UNK、SEQ這些無實際語義的特殊字符。Yi={y1,y2,y3,…,yn}是由0或1組成的列表,yi為1時對應第i個標簽的稅種,標簽空間L={l1,l2,l3,…,ln}對應一個映射函數,其中。

步驟1:把輸入的條款轉換為字符級別的序列。

步驟2:序列前端增加CLS符號,生成序列的向量表示。

步驟3:使用BERT模型對序列嵌入進行特征提取。

步驟4:使用全連接層對隱藏層第1個位置(CLS對應的特征向量)進行特征提取。此向量包括整句的所有語義信息,全連接層將CLS特征向量維度降至標簽個數t。

步驟5:最后使用sigmoid分類器計算相應的標簽。

減免類型、減免方式、政策類型均屬于文本分類任務,采用與稅收優惠主題識別同樣的方法進行處理。

2.3.3 有效期限、標題、文號識別

對于有效期限、標題、文號這3個相對簡單、規律性強、特征比較突出的關鍵要素,采用基于規則的算法進行抽取識別。絕大多數稅收優惠政策是由國家稅務主管部門進行撰寫和公布的,因此稅收優惠政策的結構和格式有很強的規律性和統一性,見表2。經過大量的稅收優惠政策總結,筆者共發現有效期限、標題、文號的特征30余種。根據總結特征,分別使用正則算法進行規則匹配,可以有效地提取和識別有效期限、標題和文號3個關鍵數據字段。

表2 特征規則示例

如圖6所示,在處理完稅收優惠主題識別和稅收優惠分面識別后,將結果全部輸出到稅收優惠關鍵要素數據模板,該模板界面支持識別結果的全覽和修正工作,并使用S Q L數據庫存儲和管理數據。

圖6 稅收政策處理后結果預覽

為了方便擴充更多的數據集,本文在設計數據庫時結合了數據標注時的場景,分別設計了{BIG_TAX,CLAUSE,CLAUSE_TAX,CLAUSE_ENJOY,ENJOY,NOTICE,SMALL_TAX}數據表。在使用者提交經過調整的正確數據后,這些數據表不僅存儲了數據信息,同時存儲了每個條款對應的數據標簽,如“享受主體”字段在條款中的索引位置以及BIO標簽、“稅種”字段的標簽類型等。該系統處理新的稅收優惠文檔后,數據集也會不斷擴充,可以在數據庫中導出擴充后的新數據集對模型進行再次訓練,在大量、高質量數據集的支持下,該系統的算法模型性能也會進一步提高[19]。

2.4 稅收優惠政策查詢與可視化

如圖7所示,稅收政策優惠查詢與可視化是一種基于結構化數據的應用,使用戶能夠快速檢索與享受主體相關的稅收優惠信息,并采用徑向布局的可視化方式來展示以納稅人為核心的相關內容。其中,綠色節點代表輸入的享受主體,黃色節點代表該享受主體所能享受的稅種,橘紅色節點代表對應稅種納稅人能享受的優惠條款。右側部分是每個條款關鍵要素的詳情信息,用戶可以從中快速了解該條款描述的重要內容。

圖7 稅收優惠政策可視化查詢

稅收政策優惠查詢與可視化的主要過程是:①客戶端用戶輸入待了解的享受主體內容,發送至服務端;②服務端在數據庫中匹配享受主體內容,如果沒有匹配到當前輸入的享受主體,則匹配與該享受主體語義相似的其他享受主體內容并返回客戶端(例如,“老師”和“教師”在語義上比較相似,當匹配“老師”失敗時,則返回“教師”的信息);③客戶端收到相關內容后,以享受主體為中心進行徑向圖布局。

享受主體相似匹配算法將萊文斯坦距離(Levenshtein distance)算法作為技術基礎。萊文斯坦距離是一種編輯距離算法,通過求出編輯距離,計算兩個字符串的相似度Similarity =( Max(x,y)-Levenshtein)/Max(x,y),其中x、y為源串和目標串的長度。最后,根據設定的相似度閾值,遍歷搜索數據庫中所有享受主體,當相似度大于或等于該閾值時,則認為其是當前要查詢的享受主體的相似享受主體。

在可視化的實現過程中,大多數可視化工具的內置基礎布局并不能完全滿足享受主體相關徑向圖,因此本文采用G61G6是一個簡單、易用的圖可視化引擎,它提供了圖的繪制、布局、分析、交互、動畫等圖可視化的基礎功能,相比于其他可視化工具,G6在關系圖形方面具有更多的類別選擇和更強的可操作性。提供的自定義布局算法接口輔助可視化算法的實現。

主體相關徑向圖G=(V,E),節點類型為,節點數目為節點有3種類型:主體節點、稅種節點、條款節點。一個主體對應多個稅種,相應的一個稅種對應多個條款。在主體相關徑向圖中,以一種享受優惠政策的享受主體為焦點并將其布局在圖的中心,相關稅種距離為一度,各稅種相關的條款距離為二度進行布局。

步驟1:可視化布局,以享受主體為中心,享受主體圓心半徑如下。

步驟2:計算一度布局,一度布局描述的是與享受主體相關的稅種,其圍繞在享受主體外一層附近的環上。

首先,計算單位偏移角度k,然后根據偏移角度k,按照順序依次計算各個節點的坐標位置。因為不同的稅種對應的條款數目不同,所以其與享受主體的距離不一樣,距離與有關,即條款數目越多,距離圓心越遠。α為調整距離比的參數,享受主體與任一稅種節點的直徑之和不大于包含最大條款數目稅種與參數α的乘積。

滿足:

圓心直徑如下:

步驟3:計算二度布局,二度布局是指每個稅種節點對應的條款節點圍繞在與之對應的稅種節點外層的環狀布局。

3 稅收優惠政策數據集

3.1 數據集說明

系統開發階段用到了許多數據集,具體說明如下。

(1)稅收優惠政策法規數據集

數據來源于國家稅務總局網站以及各省市地方稅務分局官方網站等,包括1990—2020年發布的稅務優惠政策4 000余篇文檔。每個文檔平均包含996個漢字,經過文本分割算法切分條款共計12 000余條。為了給系統提供減免稅主題識別的功能,筆者根據需要篩選并標注了2 000條數據用于訓練。

(2)享受主體識別數據集

該數據集對識別享受稅收優惠政策的納稅人提供數據支撐。目前專業領域的中文數據集尚為稀缺,因此筆者針對稅務領域納稅實體標注了2 000余條包含稅收優惠的減免稅主題條款。

(3)稅種多標簽分類數據集

該數據集為識別稅收優惠政策涉及的稅種提供數據支撐。對于該數據集的構建,筆者通過統計4 000余篇稅收優惠政策文檔包含的稅種類型,同時結合稅務主管部門官方提供的稅種分類體系,在數據集構建過程中,共設立并標注稅種標簽19種,其中包含:增值稅、消費稅、企業所得稅、個人所得稅、資源稅、城市維護建設稅、房產稅、印花稅、城鎮土地使用稅、土地增值稅、車船稅、車輛購置稅、煙葉稅、耕地占用稅、契稅、環境保護稅、進出口稅收、營業稅、其他稅種。

(4)其他稅收優惠條款分面識別數據集

這部分數據集與上述數據集類似,只是在上述數據集原有的基礎上做了更多的分類標注和實體標注。

3.2 實驗對比結果

本文實驗是基于第3.1節的數據集開展的。筆者使用不同的方法對比任務類型相同的關鍵要素。本文將精確率(precision)、召回率(recall)以及F1分數(F1 s c o re)作為評估指標。其中TP、FP、FN分別表示真陽率、假陽率、假陰率。

實驗設置:深度學習實驗框架為PyTorch 1.10 Release,預訓練語言模型BERT為Bert-Base-Chinese版本,詞表大小為 21 12 8個詞,隱藏層數為12,詞嵌入向量維度為768,注意力機制為12個。將數據集中的數據順序隨機打亂,將其中80%作為訓練集,剩余20%作為測試集。訓練時采用十折交叉驗證,將訓練數據集分成10組,每次使用9組訓練模型,1組進行驗證,一共進行10次訓練,最后取10次驗證的平均值作為最終的分數。其中,文本分類任務、多標簽任務和序列標注任務的參數設置如下:學習率為0.0001,批次大小為16,迭代次數為50,可處理序列最大長度maxlen為512;BiLSTM模塊的參數設置如下:隱藏輸出維度為256,隱藏層數為1,丟棄率為0.3;Linear模塊的參數設如下:輸出維度為2;BiGRU模塊的參數設置如下:隱藏輸出維度為256,隱藏層數為1,丟失率為0.3;CRF的參數設置如下:標簽數為2。

標題、文號、有效期限的抽取屬于基于規則的任務。該任務筆者把抽取內容與原目標內容進行比較,如果相同,則標記為1,否則標記為0。從數據中隨機抽樣10組,每組為總數據的20%,將precision作為評價指標,實驗結果見表3。

表3 規則抽取結果

條款內容、減免類型、減免方式、政策類型屬于文本分類任務。該實驗選擇了兩種文本分類的方法Fa st t ex t和TextCNN進行比較。評價指標采用F1分數、precision、recall。見表4,在其他處理方法相同的情況下,BERT模型的處理結果優于Fasttext和TextCNN的處理結果。

表4 分類結果對比

稅種的識別屬于文本多標簽分類任務。該任務將漢明損失(Hamming loss)作為指標。

式(4 0)的結果表示所有標簽中錯誤樣本的比例,該值越小,則分類器的分類能力越強。其中表示標簽總數,|Γ|表示樣本總數,xo r表示異或運算。如圖8所示,在處理數據時筆者發現,各稅種數量的高度不均衡導致了長尾效應。因此采用分步處理的方式,首先使用分類模型判斷條款中的稅種數目,如果該數目大于4個,則使用基于規則的方法進行識別,否則使用文本多標簽分類方法進行識別。實驗結果(見表5)表明,相比于直接使用BERT模型的方法,該處理方式的效果有所提升。

表5 多標簽文本分類結果

圖8 各個稅種比例分布情況

享受主體的抽取屬于序列標注任務,該實驗分別采用BERT+BiLSTM+CRF、BERT+Linear+CRF和BERT+BiGRU+CRF 3種不同的方法進行對比,具體實驗結果見表6。

表6 序列標注結果對比

4 結束語

本文設計開發了一個使用簡單、操作便捷的稅收優惠法規可視化分析系統。該系統設計了稅收優惠關鍵要素數據模板,定義了稅收優惠主題和稅收優惠分面,實現了主題和分面的識別和抽取工作,完成了由非結構化的稅收優惠政策到結構化的稅收優惠關鍵要素數據模板的轉換,研究開發了稅收優惠法規查詢與可視化分析功能。納稅人可以通過該系統查詢所有與自身利益相關的稅收優惠政策。并且,該系統的信息抽取功能可以經過人工干預,完成數據的修正調優,存儲后的數據可以作為該系統的新數據集再次訓練,從而使系統的識別與處理精度繼續提升。

目前的工作只是一個開始,下一步筆者計劃在稅務領域做出更多的工作。首先是不斷地擴大稅務領域的數據集,同時在方法層面繼續改進,進一步提高模型性能;其次,筆者的目標是把當前的工作應用到稅務常識圖譜的構建中,通過構建該圖譜能夠更好地為稅務智能查詢以及稅務智能問答等任務提供有力支撐。

猜你喜歡
稅種優惠政策優惠
稅收優惠政策與企業研發投入的實證研究
有優惠!有靚貨!房企鉚足勁的“金九銀十”來襲!
享受稅收優惠政策對企業會計核算的要求
優惠訂閱
讀者優惠購
公立醫院稅收問題的探討
房地產企業稅務籌劃對策及相關問題研究
各城市具體優惠政策
稅制結構發展、分類與描述
把“優惠”做成“游戲”
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合