雙向注意力文本關鍵詞匹配法條推薦

2024-01-30 02:43丁娜劉鵬邵惠鵬王學奎

北京大學學報（自然科學版） 2024年1期

關鍵詞：法條注意力語義

丁娜劉鵬邵惠鵬王學奎

北京大學學報(自然科學版) 第60卷第1期 2024年1月

Acta Scientiarum Naturalium Universitatis Pekinensis, Vol. 60, No. 1 (Jan. 2024)

10.13209/j.0479-8023.2023.077

中國礦業大學研究生創新計劃(2023WLJCRCZL111)資助

2023–05–18;

2023–07–31

雙向注意力文本關鍵詞匹配法條推薦

丁娜1劉鵬2,?邵惠鵬3王學奎4

1.中國礦業大學信息與控制工程學院, 徐州 221116; 2.礦山互聯網應用技術國家地方聯合工程實驗室, 徐州 221008; 3.江蘇省徐州市銅山區公安局法制大隊, 徐州 221100; 4.阿里巴巴集團有限公司, 杭州 311121; ?通信作者, E-mail: liupeng@cumt.edu.cn

提出一種雙向注意力文本關鍵詞匹配的法條推薦模型(BiAKLaw)。該模型以預訓練語言模型 BERT 作為基礎匹配模型, 利用雙向注意力機制提取字符級對齊特征和關鍵詞差異特征, 融合對齊特征、差異特征和關鍵詞語義表征來提升匹配效果。在裁判文書交通肇事和故意傷害數據集上的實驗結果表明, 與 BERT 模型相比, BiAKLaw 在評價指標 F1 上分別提升 3.74%和 3.43%。

法條推薦; 案件事實; 文本匹配; 注意力機制

法律領域的人工智能(legal artificial intelligen-ce, LegalAI)旨在利用人工智能技術來處理該領域的各類任務, 已成為研究熱點。法律資料多以語言文本形式呈現, 因此 LegalAI 廣泛使用自然語言處理(natural language processing, NLP)技術來提高自動化程度, 可以在一定程度上減輕法律從業者的勞動強度, 提升法律事務處理效率, 同時降低司法應用的使用門檻, 給非專業人員提供一定的法律援助。LegalAI 的典型應用包括法律判決預測(legal judge-ment prediction, LJP)、相似案例匹配和法律問答等。法律判決預測任務主要關注如何基于事實描述和法條內容, 來預測判決結果。法條推薦是其中重要的子任務。

我國是實行民法體系的國家, 法官基于既定的成文法條給出判決結果, 因此, 根據案件事實, 準確、全面地找到相關法條, 是法官做出公正裁決的重要前提。在早期 LegalAI 研究中, 法律判決預測多利用數學統計方法給出參考判決結果[1–4]。近年來, 隨著神經網絡技術的發展, 研究者多利用文本分類來處理法條推薦任務[5–8], 還有一些研究者融合法律專業知識來輔助判決[9–11]。已有的法條推薦研究大多將法條視為離散標簽[12], 僅提取案件事實的文本特征作為輸入, 預測相應的法條標簽, 忽略了法條的語義信息。然而, 在實際審案過程中, 法官通常以法條內容為準則對案件事實進行分析, 再確定嫌疑人行為匹配的具體法條。因此, 法條內涵的語義信息是定罪和量刑的重要依據, 需要加以充分利用。

在法律判決過程中, 找到案件相關的所有法條至關重要, 遺漏或錯誤推薦任一法條都會影響判決結果, 妨礙司法公正。一個案例通常包括多個犯罪事實, 如果將案例看成一個整體來預測涉及的所有法條, 得到的結果還需要花費大量人工將事實對應相應的法條, 可解釋性較差。同時, 案例屬于長文本, 包含各種粒度的特征, 將案例按事實劃分, 有助于更好地提取文本特征信息。

本文將法條推薦任務視為案件事實與法條內容的文本匹配任務, 提出一種雙向注意力文本關鍵詞匹配的法條推薦模型(BiAKLaw)。根據 Ge 等[13]的做法, 本文將案例劃分成若干獨立事實, 將案例中的每個事實與法條庫的每個法條進行匹配, 將一對多匹配轉變成多對多匹配問題。一對多和多對多的法條匹配如圖 1 所示。另外, 由于案件中犯罪事實和法條之間可能含有重合字符, 只依靠匹配標簽, 模型很難學到犯罪事實與法條之間的關鍵差異特征。關鍵詞序列去除了無關字符, 能最大程度地表達一段話的實際意義。因此, 本文通過提取案件和法條兩者的關鍵詞序列, 融合關鍵詞序列的匹配特征, 提升模型的匹配結果。

1 相關工作

1.1 法律判決預測

法律判決預測包括法條推薦、罪名預測和刑期預測 3 個子任務, 最早的研究開始于 20 世紀 50 年代, 主要圍繞如何使用數學和統計方法分析歷史案件, 找出共性規律, 并構建模型來模擬判決流程。例如, Kort[1]通過定量分析大量已經裁決的案件來預測美國最高法院的判決。受限于人力和計算機技術, 這類基于數學統計的模型準確率和泛化能力都不高。隨著機器學習技術的發展, 研究者多以分類框架為基礎來構建模型, 將法條推薦和罪名預測均視為分類問題, 將歷史法律文書作為訓練樣本, 法條和罪名作為類別標簽。例如, Luo 等[9]基于 SVM, 為每個法條標簽訓練二元分類器, 預測法條與案件事實的關系, 并選擇最相關的條法條進行后續的罪名分類, Liu 等[14]基于 PAT 樹和 HowNet 構建領域相關詞表, 并用 K 近鄰算法(K-nearest-neighbour, KNN)處理淺層文本特征來解決多標簽罪名分類問題。此類機器學習模型在一定程度上提升了預測性能, 但是高度依賴手工提取模板, 且提取的只是淺層文本特征, 對高層特征的提取能力較弱。

近年來, 研究者大多使用深度學習技術處理法律判決預測任務, 大致可以分為兩種類型: 一類是通過模型創新提升性能[15–16], 另一類是融合外部法律知識提升性能[9–11]。另外, 法律判決預測技術的發展離不開高質量公開數據集的支撐。Xiao 等[17]構建了首個中文法律判決預測數據集, 該數據集包含中國最高人民法院公開的 260 萬刑事案件。Chal-kidis等[18]根據歐洲人權法院案件, 構建一個英文法律判決預測數據集, 該數據集的不足之處是規模較小。

圖1 一對多和多對多法條匹配示意圖

1.2 法條文本匹配

法條推薦可作為案件事實和法條內容的文本匹配任務, 提取兩者文本特征并計算匹配度。判斷兩個文本是否匹配是許多NLP任務的基礎工作, 例如機器翻譯、自動問答、釋義識別和文本檢索等。傳統的文本匹配方法依賴于人工提取特征, 這些模型往往針對特定的領域, 泛化能力不強。例如, 使用 BM25 算法[19]計算相似度時, 解決的只是句子詞匯的相似度問題, 沒有考慮句子深層語義的匹配, 對復雜句子的效果不佳。

近年來, 越來越多的研究者使用深度學習方法來完成文本匹配任務。按照模型架構不同來分類, 大致可以分為表示型和交互型兩種。典型的表示型模型有 DSSM[20]和 ARC-I[21]等, 均采用孿生網絡結構, 參數共享, 具有對稱性。首先將兩段文本轉換為高維向量, 在模型末端對兩段文本進行特征交互, 最后得到匹配結果。此類模型的優點是參數量較少, 易于訓練, 缺點是兩段文本在各自編碼完成之前沒有交互, 可能會丟失重要語義信息, 影響匹配結果。交互型模型是表示型模型的改進, 在兩段文本編碼過程中進行交互匹配, 然后提取文本特征, 最后進行相似度計算。例如, Hu 等[21]在 ARC-I 的基礎上提出 ARC-II 結構; Chen 等[22]結合注意力機制提出 ESIM 模型完成自然語言推理任務。交互式框架能夠學習到更多的交互特征, 匹配效果得到提升, 缺點是推理速度顯著變慢, 難以應用于大規模語料上。

借助外部知識增強文本語義表征能力, 也是文本匹配領域常用的方法。例如, Lyu 等[23]將 HowNet作為外部知識庫, 解決了單詞歧義問題。Wu 等[24]將分類知識作為先驗知識來過濾文本中的噪聲, 并從多個角度進行匹配。但是, 外部知識多是結構化知識庫, 一般需要花費大量人工來構建。隨著計算能力的提升, 出現基于 Transformer[25]架構的預訓練語言模型(pre-trained language models, PLMs), 包括BERT[26], RoBERTa[27]和 BERT-wwm[28]等。與傳統方法相比, 預訓練語言模型在多個下游任務(包括文本匹配)中表現優異, 迅速成為文本匹配領域的重要研究方法。

鑒于預訓練語言模型強大的性能, 本文選擇BERT 系列模型作為基礎匹配模型。

2 雙向注意力文本關鍵詞匹配的法條推薦模型

2.1 問題描述

為了充分利用法條語義信息, 本文將法條推薦任務視為案件事實與法條之間的文本匹配過程。具體來說, 將某個案例視為包含若干獨立犯罪事實的序列={1,2, …,F}, 有限法條集合為={1,2, …,L}, 其中,是某個案例包含的案件事實的數量,是某類案件涉及的全部法條的數量。本文的目標就是構建一個映射函數, 按照一定的規則找到與每個案例的犯罪事實相匹配的法條, 可表示為

=(F,L), (1)

其中, 模型輸入為案例的某個事實F和法條集合的某個法條L,為匹配神經網絡,∈{0, 1}, 輸出結果為不匹配或者匹配。

2.2 模型架構

本文提出的雙向注意力文本關鍵詞匹配的法條推薦模型(BiAKLaw)包括關鍵詞抽取層、模型輸入層、語義知識交互層以及輸出層, 模型架構如圖 2 所示。

1)關鍵詞抽取層主要基于 KeyBERT[29]算法, 抽取案件事實和法條兩者的關鍵詞序列。

2)模型輸入層將案件事實和法條內容拼接輸入預訓練模型 BERT 詞嵌入編碼層, 學習文本對的相關性, 得到具有語義信息的字符向量表示。

3)語義知識交互層一方面使用雙向注意力機制, 得到案件事實和法條文本之間的對齊特征, 使用最大池化策略來保留重要特征; 另一方面基于案件事實關鍵詞序列和法條關鍵詞序列, 對案件事實和法條序列的非關鍵詞位置進行遮蔽。BERT 模型在進行自注意力機制計算時, 得到的案件事實序列向量只與法條中的關鍵詞有關, 反之, 法條序列向量只與案件事實關鍵詞有關。對兩者序列向量使用平均池化策略, 再相減得到關鍵差異特征, 然后將多種特征進行拼接融合送入全連接層。

4)輸出層輸出最終的法條匹配結果。

2.3 關鍵詞抽取層

在人工判案過程中, 法官會梳理案例中每個犯罪事實的關鍵信息, 翻閱法條手冊, 判斷符合哪個法條的前提條件, 最后結合觸犯的所有法條做出最終判決?？紤]到案件事實和法律條文均屬于較長的專業性文本, 如果只使用兩者的原序列來計算匹配度, 會引入很多無關的噪聲信息, 譬如會使模型誤將字面重合度高但關鍵信息并不匹配的文本預測為相似, 造成錯誤匹配, 因此我們決定引入能表達關鍵信息的關鍵詞序列來輔助文本匹配。

圖2 雙向注意力文本關鍵詞匹配的法條推薦模型BiAKLaw

KeyBERT 是近年出現的一種無監督關鍵詞抽取模型, 通過 BERT 獲取文檔和候選詞的向量表示, 利用余弦相似度來衡量候選詞與文檔的相似程度, 選取相似度最高的若干詞作為該文檔的關鍵詞。由于 KeyBERT 易于使用, 效果能滿足本文方案需求, 因此將其作為關鍵詞抽取模型。關鍵詞抽取質量還受文本嵌入表示影響, 本文使用清華大學發布的基于大規模刑事文書預訓練模型[30]來獲取詞嵌入表示。案件事實序列為{1,2, …,f},代表事實字符數量。法條序列為{1,2, …,l},代表法條字符數量。使用 KeyBERT 算法分別抽取案件事實和法條序列中的關鍵詞, 得到{Kf1, Kf2…}和{Kl1, Kl2…}。

2.4 模型輸入層

模型的輸入為案件事實以及法條文本, 通過BERT 獲得語義編碼向量。BERT 輸入可以是一段文本或兩段文本的拼接, 當輸入為兩段文本時, 中間用字符[SEP]連接, [CLS]和[SEP]符號會插在拼接文本的開頭和結尾, 然后輸入到詞嵌入編碼層。詞嵌入編碼層由 3 個部分組成: 字符嵌入層(token em-beddings)是根據文本序列分詞后的 token, 查找詞表得到的向量表示; 段編碼層(segment embeddings)是為了區分輸入是第一段文本還是第二段文本; 位置編碼層(positional embeddings)引入每個 token 在對應 segment 中的位置編碼信息。最后, 將三部分相加, 輸入 BERT 詞嵌入層。

2.5 語義交互層

將案件事實和法條文本拼接輸入 BERT 詞嵌入層后, 經過多層 Transformer 得到最終的高維語義向量。由于 BERT 是雙向模型, 序列中的每個字符相互可見, 經過自注意力機制后, 得到的特征向量是前后文相關的, 每個序列中更重要的詞語會被賦予更大的權重。

將圖 2 中模型框架 BERT 最后一層的輸出作為案件事實和法條文本的向量表示:

其中,(CLS)∈R為語義匹配的一個特征,F∈R為事實描述的語義表征,L∈R為法條的語義表征,代表 BERT 隱藏層維度,和分別為事實和法條的字符數。本文使用雙向注意力機制, 得到匹配文本表征間的對齊特征。

注意力權重矩陣的計算如下:

其中,是法條方向的注意力權重,是案件事實方向的注意力權重?？紤]到法條專業性較強, 描述用語相對固定, 而案件描述具有多樣性, 于是我們使用案件描述對齊法條, 對在法條方向求和, 壓縮注意力權重矩陣, 得到案件事實方向上總的權重向量∈R:

與法條方向注意力權重融合, 得到法條方向的綜合權重向量∈R:

得到字符級對齊特征FL后, 使用最大池化策略, 保留重要特征得到∈R:

為了使模型更準確地捕獲匹配對象間的關鍵信息, 進行相似性判別, 并行于 BERT 最后一層 Trans-former, 堆疊一個關鍵詞自注意力 Transformer 層。該層的輸入為 BERT 倒數第二層 Transformer 的輸出, 其架構與普通 Transformer 一樣, 唯一的不同之處是 attention mask 矩陣。Transformer 內部采用自注意力機制:

其中, mask 是 attention mask 矩陣。進行自注意力計算時, 可以通過更改 attention mask 矩陣, 使字符間信息相互可見或不可見?；陉P鍵詞抽取層抽取的關鍵詞序列, 更改 attention mask 矩陣。如圖 3 所示, 假設案件事實有 4 個字符, Kf2 和 Kf3 為關鍵詞字符, 法條有 3 個字符, Kl2 和 Kl3 為關鍵詞字符, attention mask 矩陣中為 1 的位置代表信息可見, 為 0 的位置代表信息不可見。計算案件事實語義表征時, 只關注事實自身信息和法條關鍵詞信息; 計算法條語義表征時, 只關注法條自身信息以及案件事實關鍵詞信息。

經過關鍵詞注意力層后, 得到兩個關鍵詞相關語義表征矩陣, 然后使用平均池化壓縮語義信息, 得到兩個新的語義表征向量kw∈R和kw∈R。將兩個向量相減, 得到 diff_kw∈R, 用來表示關鍵差異特征:

圖3 關鍵詞注意力掩碼矩陣

最后將原始 Transformer 層最后一層的輸出(CLS)、對齊特征、關鍵語義表征kw,kw以及關鍵差異特征 diff_kw 拼接, 作為匹配特征∈R5d,輸入全連接層進行結果預測:

2.6 輸出層

預測結果為 0 代表不匹配, 為 1 代表匹配。

本文使用交叉熵損失函數優化預測結果與真實標簽間的誤差, 交叉熵損失函數為

其中,y為真實標簽,p是預測概率值。

3 實驗設置與結果分析

3.1 實驗數據集

本文數據來自中國裁判文書網公開的刑事裁判文書。我們選取兩類常見刑事案件(交通肇事和故意傷害案件)作為研究對象, 每類案件下載近 600 份文書, 每份文書中包含犯罪事實和涉及法條等內容。首先進行文本預處理, 然后提取犯罪事實, 與法條建立對應關系。交通肇事類案件有 589 份文書, 包含4711 個獨立犯罪事實, 平均字符數為 63, 涉及法條總數為 56, 平均字符數為 68。故意傷害類案件有 600 份文書, 共 4067 個獨立犯罪事實, 平均字符數為 57, 涉及 30 個法條, 平均字符數為 65。裁判文書語料統計信息見表 1。將同類案件中每個犯罪事實與法條集合里的每個法條拼接, 構成若干二元組{F,L}, 標簽∈{0, 1}, 0 代表不匹配, 1 代表匹配。按照 8:1:1 的比例劃分訓練集、驗證集和測試集。交通肇事數據集包含 197177 條訓練數據、26433 條驗證數據和 28281 條測試數據。故意傷害數據集包含 74761 條訓練數據、8611 條驗證數據和 9571 條測試數據。數據集統計信息見表 2。實驗數據樣例如圖 4 所示。

3.2 實驗設置

案件事實以及法條序列的最大長度都設置為60, 詞向量基于所有下載的文書和法條內容, 使用CBOW[31]模型進行訓練, 維度設置為 128。選擇清華大學發布的基于大規模刑事文書預訓練的 XS-BERT[30]作為編碼器, 匹配閾值設置為 0.5, 訓練輪數設置為 10, 學習率設置為 1×10–5, dropout 設置為0.1。連續訓練 3 輪驗證集后, 若損失仍然不下降, 則停止訓練, 使用 softmax 函數作為激活函數, 使用交叉熵損失函數和 Adam 優化器更新模型參數?？紤]到所用的法條匹配數據集存在數據不平衡現象, 負例樣本多于正例, 將交通肇事數據集和故意傷害數據集正負樣本采樣比分別設置為 1:12 和 1:6, 以便獲得最優 F1 值, 對比匹配模型采用同樣的采樣策略。本文實驗中用的 BERT 模型為 BERT-Base-Chinese。

表1 裁判文書語料統計信息

表2 數據集統計信息

圖4 實驗數據樣例

3.3 實驗結果與分析

3.3.1對比實驗

為了驗證本文模型 BiAKLaw 的有效性, 從文本分類和文本匹配兩個方面設置對比實驗。文本分類模型選擇主流分類模型 TextCNN[32]、LSTM[33]和BERT, 模型的輸入為案件事實, 涉及的法條為標簽, 是多標簽分類任務。本研究將法條之間看成是相互獨立的, 將問題轉化為多個單法條推薦的二分類問題。選擇 sigmoid 作為激活函數。文本匹配模型選擇經典深度語義匹配模型 ARC-II[21], ESIM[22]和 RE2[34]以及預訓練模型 BERT, XS-BERT 和SBERT[35]。ARC-II 使用 CNN 提取文本特征, 在第一層卷積后交互兩個文本特征。RE2 模型包含原始詞嵌入特征、先前對齊特征和上下文特征 3 個關鍵特征, 并且簡化了其他組件。ESIM 使用 LSTM 獲取句子語義表示向量, 再用注意力機制對齊特征。BERT 是通用領域的預訓練語言模型。XS-BERT 是基于大規模刑事文書預訓練的領域專用預訓練模型, SBERT 為擁有孿生結構的預訓練模型。

模型的輸出有兩種情況, 匹配或不匹配, 實際上是二分類問題。因此, 我們采用,和 F1 作為模型評價指標:

其中,是精確度,是召回率, F1 為綜合評價指標。

將本文模型 BiAKLaw 和對比模型在交通肇事和故意傷害數據集上進行對比實驗, 在測試集上的實驗結果如表 3 所示?？梢钥闯? BiAKLaw 在各項指標上都取得最優結果, 在交通肇事數據集上, 與表現次之的 XS-BERT 模型相比, BiAKLaw 的 F1 評價指標提升 3.74%, 在故意傷害數據集上提升3.43%。這是因為與 XS-BERT 模型相比, BiAKLaw具有更強的識別案件事實和法條關鍵信息差異的能力, 通過雙向注意力機制得到匹配對之間更深層次的交互特征, 關鍵詞信息的注入使得模型能夠過濾干擾信息, 更關注匹配對中的關鍵語義信息。孿生結構預訓練模型 SBERT 在訓練時間上有一定的優勢, 但模型性能弱于交互式的通用型 BERT 和法律領域專用的 XS-BERT。從表 3 還可以看出, 文本分類模型的性能整體上明顯弱于文本匹配模型, 這是因為同類型案件事實描述差異較小, 分類模型難以區分細微的語義差別。法條類別眾多, 每個犯罪事實涉及法條個數不定, 也給分類模型帶來更多的挑戰。

表3 BiAKLaw與對比模型實驗結果

說明: 粗體數字表示性能最優, 下同。

3.3.2模塊消融實驗

為了探索各個模塊的加入對模型性能產生的影響, 我們將 XS-BERT、XS-BERT+雙向注意力機制、XS-BERT+關鍵詞注意力機制以及 XS-BERT+雙向注意力機制+關鍵詞注意力機制 4 個模型在交通肇事和故意傷害數據集上進行對比實驗, 結果如表 4 所示?？梢钥闯? 雙向注意力機制和關鍵詞注意力機制模塊的加入都對模型產生積極的影響, 其中關鍵詞注意力機制的影響最大。在交通肇事數據集上, 雙向注意力機制的加入使得評價指標 F1比 XS-BERT 提升 0.79%, 在故意傷害數據集上提升0.77%。在交通肇事數據集上, 關鍵詞注意力機制模塊的加入使得評價指標 F1 比 XS-BERT 提升1.13%, 在故意傷害數據集提升 2.76%。實驗結果說明, 通過關鍵詞信息的加入, 模型能夠更多地關注匹配對象間的關鍵差異特征, 減少無關信息的干擾。

3.3.3法條推薦實例分析

我們選取故意傷害測試集中的一個案例來說明本文方法的有效性, 案例分析結果如表 5 所示。

表4 消融實驗結果

表5 故意傷害案例分析

說明: 粗體文字為案件事實和法條的關鍵詞。

該案例包括兩個犯罪事實: 事實 a 涉及刑法234 條, 事實 b 涉及刑法 72 和 234 條。事實 a 中, 被告人與被害人有“爭執”和“擊打”等行為, 符合刑法234 條“故意傷害”。事實 b 中, 被害人傷勢鑒定為“輕傷”, 符合刑法 234 條“故意傷害”行為和刑法 72條中的“情節較輕”部分。表 5 還給出案件事實與法條在 BiAKLaw 和 XS-BERT 中的匹配概率值?？梢钥闯? 兩個模型預測的概率值都大于 0.5, 均能給出正確的預測標簽。本文模型 BiAkLaw 有關鍵詞信息的注入, 能更多地關注關鍵詞信息, 提升了匹配性能。對于不匹配的事實 b 與刑法 234 條, 本文模型BiAKLaw 比 XS-BERT 更易辨別出兩者是不相匹配的。

需要指出的是, 法條推薦任務的目的是根據案件事實的細節描述, 客觀地推薦與之相關聯的一個或多個法條。最終如何判決, 需要法官根據推薦的法條及其他因素綜合決定。從案例分析結果可以看出, 案件事實和法條序列各自的關鍵詞信息不僅可以幫助模型關注犯罪事實和法條關鍵信息的細節差異, 還能直觀地體現為什么這個犯罪事實會對應這個法條, 有效地增強了推薦結果的可解釋性。

4 結語

本文將法條推薦任務轉換成犯罪事實與法條語義匹配度計算, 提出一種基于雙向注意力文本關鍵詞匹配的法條推薦模型 BiAKLaw。通過雙向文本關鍵詞注意力機制, 既保留了原本完整的語義信息, 又使模型更多地關注兩者之間的關鍵差異特征, 捕獲token 級對齊特征和 keyword 差異特征, 輸出端融合多粒度匹配特征, 增強了模型匹配效果。由于雙向融合了法條文本和案件事實的各自關鍵詞作為推薦結果的重要依據, 使得本文法條推薦方法具有良好的可解釋性。在真實數據集上的實驗結果表明, 與主流分類模型和深度經典語義匹配模型相比, BiAKLaw模型的性能均有不同程度的提升, 因此, 對智慧司法領域法條推薦任務的研究有一定的啟示意義。

在未來的工作中, 我們將嘗試融合外部知識(例如案例法律特征、法條結構特征和庭審觀點等), 持續優化法條推薦模型。

[1] Kort F. Predicting supreme court decisions mathema-tically: a quantitative analysis of the “Right to Cou-nsel” cases. American Political Science Review, 1957, 51(1): 1–12

[2] Ulmer S S. Quantitative analysis of judicial processes: some practical and theoretical applications. Law and Contemporary Problems, 1963, 28(1): 164–184

[3] Nagel S S. Applying correlation analysis to case pre-diction. Tex L Rev, 1963, 42: 1006

[4] Keown R. Mathematical models for legal prediction. Computer/Law Journal, 1980, 2(1): 829

[5] Tsoumakas G, Katakis I. Multi-label classification: an overview. International Journal of Data Warehousing and Mining (IJDWM), 2007, 3(3): 1–13

[6] Nam J, Kim J, Loza Mencía E, et al. Large-scale multi-label text classification — revisiting neural networks // Proceedings of Joint European Conference on Ma-chine Learning and Knowledge Discovery in Data-bases. Nancy, 2014: 437–452

[7] Wang T, Liu L, Liu N, et al. A multi-label text classifi-cation method via dynamic semantic representation model and deep neural network. Applied Intelligence, 2020, 50: 2339–2351

[8] Liu H, Chen G, Li P, et al. Multi-label text classifi-cation via joint learning from label embedding and label correlation. Neurocomputing, 2021, 460: 385–398

[9] Luo B, Feng Y, Xu J, et al. Learning to predict charges for criminal cases with legal basis [EB/OL]. (2017–07–28) [2023–03–10]. https://doi.org/10.48550/arXiv.17 07.09168

[10] Zhong H, Guo Z, Tu C, et al. Legal judgment prediction via topological learning // Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing. Brussels, 2018: 3540–3549

[11] Hu Z, Li X, Tu C, et al. Few-shot charge prediction with discriminative legal attributes // Proceedings of the 27th International Conference on Computational Linguistics. Santa Fe, 2018: 487–498

[12] Wang S, Jiang J. A compare-aggregate model for mat-ching text sequences [EB/OL]. (2016–11–06) [2023–02–26]. https://arxiv.org/abs/1611.01747

[13] Ge J, Huang Y, Shen X, et al. Learning fine-grained fact-article correspondence in legal cases. IEEE/ACM Transactions on Audio, Speech, and Language Proces-sing. 2021, 29: 3694–3706

[14] Liu C L, Hsieh C D. Exploring phrase-based classify-cation of judicial documents for criminal charges in Chinese // International Symposium on Methodologies for Intelligent Systems. Bari, 2006: 681–691

[15] Chen H, Cai D, Dai W, et al. Charge-based prison term prediction with deep gating network [EB/OL]. (2019–08–30) [2023–03–13]. https://doi.org/10.48550/arXiv. 1908.11521

[16] Pan S, Lu T, Gu N, et al. Charge prediction for multi-defendant cases with multi-scale attention // Computer Supported Cooperative Work and Social Computing: 14th CCF Conference, ChineseCSCW 2019. Kunming, 2019: 766–777

[17] Xiao C, Zhong H, Guo Z, et al. Cail2018: a large-scale legal dataset for judgment prediction [EB/OL]. (2018–07–04) [2023–03–12]. https://doi.org/10.48550/arXiv. 1807.02478

[18] Chalkidis I, Androutsopoulos I, Aletras N. Neural legal judgment prediction in English [EB/OL]. (2019–06–05) [2023–03–21]. https://doi.org/10.48550/arXiv.19 06.02059

[19] Robertson S, Zaragoza H. The probabilistic relevan- ce framework: BM25 and beyond. Foundations and Trends in Information Retrieval, 2009, 3(4): 333–389

[20] Huang P S, He X, Gao J, et al. Learning deep structured semantic models for web search using clickthrough data // Proceedings of the 22nd ACM International Conference on Information & Knowledge Manage-ment. San Francisco, 2013: 2333–2338

[21] Hu B, Lu Z, Li H, et al. Convolutional neural network architectures for matching natural language sentences // Advances in Neural Information Processing Systems. Montreal, 2014: 2042–2050

[22] Chen Q, Zhu X, Ling Z, et al. Enhanced LSTM for natural language inference [EB/OL]. (2016–09–20) [2023–03–24]. https://doi.org/10.48550/arXiv.1609.06 038

[23] Lyu B, Chen L, Zhu S, et al. LET: linguistic knowledge enhanced graph transformer for Chinese short text matching [C/OL]. (2021–02–05) [2023–02–20]. https: //doi.org/10.48550/arXiv.2102.12671

[24] Wu Y, Wu W, Xu C, et al. Knowledge enhanced hybrid neural network for text matching [C/OL]. (2016–11–14) [2023–03–28]. https://doi.org/10.48550/arXiv.16 11.04684

[25] Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need // Advances in Neural Information Processing Systems. Long Beach, 2017: 5998–6008

[26] Devlin J, Chang M W, Lee K, et al. BERT: pre-training of deep bidirectional transformers for language un-derstanding // Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Techno-logies. Minneapolis, 2019: 4171–4186

[27] Liu Y, Ott M, Goyal N, et al. RoBERTa: a robustly optimized bert pretraining approach [EB/OL]. (2019–07–26) [2023–03–01]. https://doi.org/10.48550/arXiv. 1907.11692

[28] Cui Y, Che W, Liu T, et al. Pre-training with whole word masking for chinese BERT. IEEE/ACM Tran-sactions on Audio, Speech, and Language Processing, 2021, 29: 3504–3514

[29] Grootendorst M. KeyBERT: minimal keyword extrac-tion with BERT [EB/OL]. (2020–02–09) [2023–01–09]. https://github.com/MaartenGr/KeyBERT

[30] Zhong H, Zhang Z, Liu Z, et al. Open Chinese language pre-trained model zoo [EB/OL]. (2019–07–01) [2023–02–11]. https://github.com/thunlp/OpenCLaP

[31] Mikolov T, Chen K, Corrado G, et al. Efficient esti-mation of word representations in vector space [EB/ OL]. (2013–01–16) [2023–02–11]. https://doi.org/10. 48550/arXiv.1301.3781

[32] Cho K, Van Merrienboer B, Gulcehre C, et al. Learning phrase representations using RNN encoder-decoder for statistical machine translation [EB/OL]. (2014–09–02) [2023–03–11]. http://arxiv.org/abs/1406.1078

[33] Hochreiter S, Schmidhuber J. Long short-term me-mory. Neural Computation, 1997, 9(8): 1735?1780

[34] Yang R, Zhang J, Gao X, et al. Simple and effective text matching with richer alignment features // Procee-dings of the 57th Annual Meeting of the Association for Computational Linguistics. Florence, 2019: 4699–4709

[35] Reimers N, Gurevych I. Sentence-BERT: sentence embeddings using Siamese BERT-Networks [EB/OL]. (2019–08–27) [2023–03–23]. http://arxiv.org/abs/19 08.10084

Bi-Attention Text-Keyword Matching for Law Recommendation

DING Na1, LIU Peng2, ?, SHAO Huipeng3, WANG Xuekui4

1. School of Information and Control Engineering, China University of Mining and Technology, Xuzhou 221116; 2. National Joint Engineering Laboratory of Internet Applied Technology of Mines, Xuzhou 221008; 3. Legal Team of Tongshan Branch of Xuzhou Public Security Bureau, Xuzhou 221100; 4. Alibaba Group, Hangzhou 311121; ? Corresponding author, E-mail: liupeng@cumt.edu.cn

This paper proposed a bi-directional attention based text-keyword matching model for law recommen-dation (BiAKLaw). In this model, BERT is utilized as a basic matching model, bi-directional attention mechanism is implemented to extract token-level alignment features and keyword-level differential features, and these features are fused with keyword attentive semantic representations for a better matching effect. The experimental results on the traffic accident and intentional injury datasets demonstrate that, compared with BERT, the proposed model increases F1 evaluation metric by 3.74% and 3.43% respectively.

law recommendation; case fact; text matching; attention mechanism