基于深度學習的船舶數據向量模型研究

2024-03-20 02:11潘純杰羌楊洋

無線互聯科技 2024年2期

顧晴,周軍,潘純杰,羌楊洋

(江蘇航運職業技術學院智能制造與信息學院,江蘇南通 226001)

0 引言

隨著計算機技術以及自動化控制技術的不斷發展,海上運輸船舶數量和規模日趨龐大,中國對外貿易中89%的出口貨物都是由船舶運輸來完成。航運信息化建設進程中產生了大量的航運數據,其中船舶數據資源占據了絕大部分。然而由于各單位在船舶信息管理上的不統一、收集設備自身的誤差或發生故障、人為因素干擾等,數據庫中存在大量的問題數據。這些問題數據包括重復數據、錯誤數據、缺失數據等,如果直接使用這些數據進行分析和挖掘,會對最終的結果造成嚴重影響。因此,對收集到的船舶數據進行數據清洗和恢復,可以為政府的水上交通監管與服務、船舶事故調查等提供可靠的理論指導和技術支持,對提高船舶數據質量、促進水上智能交通的發展具有重大現實意義。

為了解決對船舶重復數據的檢測問題,本文基于深度學習,從多語義角度出發,融合FastText向量模型、BERT模型以及主題語義LDA模型,搭建多語義融合模型,進行船舶數據的向量構建,提升重復檢測準確率,提高船舶數據清洗效率。

1 相關理論

1.1 FastText模型

Mikolov等[1]在2013年提出從文本數據中學習單詞向量的有效模型Word2Vec,該模型利用語料庫和語義信息,有效改善了傳統離散文本向量和語義之間關聯性不強的問題。模型根據相似的單詞會出現在相似的上下文中的原理,設計了2種輸入輸出方法,一種是連續詞袋(Continuous Bag-of-Words,CBOW)模型,另一種是“Skip-gram”模型,這2種模型也成為之后各種詞向量模型的基礎。FastText模型在其基礎上加入N-gram技術[2],對單詞的子詞構建向量。

N-gram是一種基于語言模型的算法,其基本內容是將文本內容按照大小為N的滑動窗口進行劃分,形成一系列長度為N的片段。假設一段文本S由n個詞組成,如公式(1)所示。

S=(w1,w2,…,wn)

(1)

N-gram模型假設每一個單詞wi與前面i-1個詞相關,整個文本出現的概率即每個詞出現概率的乘積如公式(2)所示。

p(S)=p(w1,w2,…,wn)=p(w1)p(w2|w1)…p(wn|wn-1…w2w1)

(2)

然而這種方法易導致概率p(wn|wn-1…w2w1)的參數過多,因此引入馬爾科夫假設(Markov Assumption),即第i個詞的出現僅與該詞的前N-1詞有關。常用的有一元模型、二元模型和三元模型。以三元模型為例,一個詞的出現僅與它之前的2個詞有關,其概率公式如公式(3)所示。

p(S)≈p(w1)p(w2|w1)…p(wn|wn-1wn-2)

(3)

1.2 BERT模型

BERT是一種使用多頭注意力機制構建的模型[3]。對于不同的下游任務,可以基于BERT模型進行結構擴展,將BERT預訓練模型輸出的向量作為特征,用于下游任務處理。為了面對不同的下游任務,BERT的輸入除了單詞向量外,還額外添加了位置向量和段向量,輸入狀態如圖1所示。BERT將[CLS]作為句首標記,當下游任務是句子分類時,直接使用[CLS]的輸出作為整個句子的向量;當下游任務獨立于句子,則忽略該標記的輸出。

圖1 BERT輸入層

BERT模型分為預訓練和微調2個階段。在預訓練階段,模型針對遮蔽詞和下句預測2個目標進行訓練,分別捕捉單詞級別的表征信息和句子級別的表征信息,迫使模型增加了對上下文的記憶,輸出帶有上下文相關語義的向量;BERT微調機制是利用BERT模型處理多種NLP任務,不需要對BERT內部結構進行修改,只需在最終的編碼層增加網絡結構完成任務。這種微調機制極大地增強了BERT的遷移能力。本文采用已預訓練好的BERT模型來處理記錄向量,輸出[CLS]代表整個記錄的向量,與其他向量模型相結合,作為分類模型的輸入。

1.3 LDA模型

隱含狄利克雷模型(Latent Dirichlet Allocation,LDA)為主題概率生成模型[4-5],該模型具有可擴展性,便于嵌入其他模型。

對于重復記錄檢測問題,相似記錄擁有的主題分布也相似,因此,構建每一個記錄的主題分布可以有效結合主題信息,有助于提升檢測精度。在船舶重復記錄檢測中,使用該模型可以將識別領域集中到船舶數據上,LDA主題模型結構如圖2所示。

圖2 LDA主題模型

圖2中的M為記錄數,N為單詞數,w為最后生成的第m個記錄的第n個單詞,φ為從先驗參數α中提取的主題分布,θ為從φ主題分布中提取的主題,η為從先驗主題β中提取的與主題θ對應的單詞分布。模型中的樣本是固定的,參數是一個服從一定分布的隨機變量。對于任一個記錄r,已知單詞在記錄中的概率P(wi|ri),假設wi對應的主題為θt(1≤t≤T),根據P(wi|ri),訓練出主題在記錄中的概率P(θt|ri)和單詞在主題中的概率P(wj|θt),聯合概率分布如公式(4)所示。

(4)

記錄中每個單詞生成的概率如公式(5)所示。

(5)

其中,P(ri)已知,P(θt|ri)和P(wj|θt)未知,要估計的為參數φ。

φ=(P(wj|θt),P(θt|ri))

(6)

LDA模型在生成記錄時,首先按照先驗概率P(rm)選擇一個記錄rm,從Dirichlet分布α中取樣生成記錄rm的主題分布φm;再從主題分布φm中生成記錄rm的第n個單詞的主題θm,n,從Dirichlet分布β中取樣生成主題對應的單詞分布ηθm,n,最終生成單詞wm,n。

2 模型設計

2.1 多語義融合模型

多語義融合向量模型融合了側重上下文無關語義的FastText模型、側重上下文相關語義的BERT模型和側重主題語義的LDA模型,多語義融合向量模型如圖3所示。

圖3 多語義融合向量模型

假設記錄r和r′的原始文本形式為:

(7)

(8)

公式(7)和(8)中的m和n分別表示2個記錄的長度,對于輸入的原始文本,首先使用3種向量模型將單詞映射成向量,映射過程簡寫如下:

(9)

(10)

(11)

(12)

(13)

(14)

(15)

(16)

其中,⊕為向量的拼接;er、er′分別為記錄r和r′的記錄向量。FastText上下文無關語義記錄向量的維度為200,BERT上下文相關語義向量維度為768,LDA主題向量維度為5,3種向量拼接后的維度為973。er和er′組合成一個記錄向量對的形式輸入后續分類模型。

2.2 模型分類器

為了保證條件一致,本文采用相同的分類模型,將單語義模型形成的記錄向量與多語義融合模型形成的記錄向量分別作為輸入,傳入分類模型進行重復檢測。本文先將用于比較的2個向量進行橫向拼接,然后使用卷積神經網絡對拼接好的向量提取特征,再對提取的特征向量進行分類。分類模型設計如圖4所示。

圖4 分類模型

將記錄r和r′表示成記錄向量對。將里的2個記錄向量進行拼接組合表示成RCV,采用卷積神經網絡對拼接的向量進行特征提取處理,簡寫如公式(17)所示。

Frr′=CNN(RCV)

(17)

其中,Frr′為向量經過卷積神經網絡提取后,得到的特征向量;CNN為卷積神經網絡算法。經過全連接層輸出預測值,若預測值大于等于0.5,則將其劃分為重復記錄對,否則為不重復記錄對。

3 實驗與分析

3.1 實驗數據

為了展現本模型的優勢,本文在“船運在線”App上收集船舶數據5萬條進行試驗檢測,并針對其中部分數據,隨機構造出其相似重復記錄,包括信息缺失、拼寫錯誤等不同形式。數據包括船名、船舶類型、imo number、船旗、建造日期、載重量6種屬性。

3.2 實驗參數

模型使用TensorFlow實現船舶重復記錄檢測模型;所有實驗均使用Adam優化器;FastText的維度為200,BERT的維度為768,LDA的主題分布維度為5;3個卷積層的卷積核個數分別為128、64、32,大小都為5,步長都為1,使用Relu激活函數,全連接層的神經元個數為100。

3.3 實驗評價標準

本實驗使用Ananthakrishna等[6]提出的經典評價標準:查準率(Precision,P)、查全率(Recall,R)和F1,分別見公式(18)、公式(19)和公式(20)。為了便于與其他研究者提供的模型進行比較,本文實驗部分僅提供了查準率和查全率的F1值。

(18)

(19)

(20)

其中,TP為預測重復并且實際也重復的記錄對數量;FP為預測重復但是實際沒有重復的記錄對數量;FN為預測不重復但是實際重復的記錄對數量;TN為預測不重復并且實際也不重復的記錄對數量。

3.4 實驗結果與分析

實驗僅改變記錄向量構造模型,固定其他實驗選項內容進行實驗,得出的F1值如圖5所示。

圖5 實驗結果

圖5展示出多語義融合向量模型的優勢,多語義融合模型得出的F1值為98.6%,高于FastText、BERT和LDA 3個模型單獨使用得到的F1值。多語義融合向量包含的信息更加全面。該模型的實驗結果均高于其他單個獨立模型。

4 結語

本文針對信息化時代船舶領域數據混雜的情況,基于深度學習,從多語義角度出發,融合側重上下文無關語義向量的FastText模型、側重上下文相關領域的BERT模型以及側重主題領域的LDA模型,搭建多語義融合的船舶數據向量模型。通過相同分類器進行重復檢測,實驗表明,融合后的向量模型檢測率均高于單個獨立模型,能夠有效提升重復檢測準確率,提高船舶數據清洗效率。