?

三維深度學習網絡的幾何差異感知能力

2023-03-04 07:49許煜濠劉石堅康朝明吳連杰鄒崢
福建工程學院學報 2023年6期
關鍵詞:面片高維網格

許煜濠,劉石堅,康朝明,吳連杰,鄒崢

(1. 福建省大數據挖掘與應用技術重點實驗室,福建 福州 350118;2. 福建師范大學 計算機與網絡空間安全學院,福建 福州 350117)

位置、朝向、尺寸是點云、三角網格等三維(three dimensional,3D)數據的基本幾何屬性,其差異性普遍存在。例如,圖1(a)中的兩個牙頜網格數據的位置和朝向即存在明顯差別。使用深度學習技術處理3D數據時,如果網絡模型不具備幾何差異感知能力,則可能導致泛化能力不足、準確率偏低的后果。

圖1 牙頜網格數據規范化Fig.1 Standardization of dental meshes

通常有兩種策略解決上述問題:修正數據或者修正模型。修正數據是通過人為干預,消除幾何差異,避免網絡模型面臨該挑戰。具體方法是:將數據規范化至統一的位置、朝向、尺寸,再進行訓練或預測。例如,圖1(b)即為對圖1(a)中數據進行規范化處理后的效果。修正數據方法的局限性在于:(1)手工交互難以避免,耗時費力;(2)并非從源頭解決模型的幾何感知問題。修正模型的思想則是著眼于模型網絡結構優化,使其從多樣化的數據中學習到感知幾何差異的能力。

本課題采取修正模型的策略,在分析已有相關研究的基礎上,提出名為“幾何差異感知(geometric difference perception,GDP)”的模塊,以提升模型的幾何差異感知能力;以牙齒分割為應用背景,通過主流模型進行對比實驗,驗證GDP的可行性和有效性。

1 相關工作

1.1 點云數據

由于點云的復雜性比三角網格要低,當深度學習方法從二維應用場景(例如處理圖像數據)擴展到三維時,前期研究多關注其在點云數據上的應用。例如,Qi等人[1]所提出的PointNet即為其中的典型代表,用于實現點云分類和分割。

在PointNet中,作者提出名為變換網絡(transform net,T-Net)的局部結構來解決輸入模型的點云特征以及高維特征的對齊問題。如圖2所示,當通道數為3(即三維坐標)的點云數據輸入網絡之后,將首先進行一個輸入變換。該變換中的T-Net網絡會輸出一個3×3的變換矩陣,與原始數據進行矩陣相乘。其本質即使用上述幾何變換,對輸入點云進行規范化。

圖2 PointNet中的T-Net迷你網絡Fig.2 T-Net mini networks in PointNet

此外,網絡中還有另一個包含T-Net結構的特征變換,第二個T-Net與第一個的區別在于:其輸入為通道數等于64的高維特征,輸出為64×64的變換矩陣,即實現高維特征空間中的規范化。

文獻[2]所提出的DGCNN模型同樣采用點云變換模塊來估計仿射變換矩陣,將輸入點集對齊到一個規范空間。與PointNet不同的是,DGCNN棄用了高維特征變換模塊。

為便于區分,本研究將作用于低緯特征的T-Net記為T-Net-Ⅰ,作用于高維特征的T-Net記為T-Net-Ⅱ。

1.2 網格數據

在對三角網格進行深度學習時,目前主流的方法是以面片為樣本基本單元進行處理。由于一個面片可以通過3個頂點和1個中心點共4組特征予以表征,在使用三維坐標作為原始特征的情況下,一個樣本的特征尺度則為N×12(N為網格數據的面片數)。如果再加上法向量特征,則特征尺度將變為N×24。TSGCN[3]、MGFL[4]是這類方法的代表。由于使用比點云方法更多的特征數據,基于面片的方法通常性能更優,但計算資源需求更大。為此,它們僅使用T-Net-Ⅰ來應對輸入數據的幾何差異問題,從而降低計算量。

1.3 T-Net模塊

綜上可知,在應對數據幾何差異挑戰時,已有方法的核心思想主要是通過監督學習得到一個變換矩陣,將特征數據對齊到一個規范空間。具體是采用T-Net迷你網絡實現,區別在于T-Net的數量和位置,詳見表1。表1中PointNet++[5]是PointNet的升級版本,它與基于面片的網格方法GACNet[6]一樣,都沒有采用相關措施。若輸入數據存在幾何差異,則PointNet++和GACNet均無法達到理想的預測效果。

表1 相關方法信息表Tab.1 Information of related methods

圖3展示了T-Net-Ⅰ在TSGCN中的網絡細節。圖中虛線框內的結構即為T-Net網絡,它由3個卷積層、1個最大池化層和3個全連接層依次拼接而成。就特征數據而言,其輸入為N×12(4組×3通道/組=12通道)的原始特征。輸入數據首先通過3個卷積層,通道數逐步提升至64、128和512;然后通過最大池化操作,特征尺寸變為1×512;最后,通過3個全連接層的作用,輸出為一個12×12的仿射變換矩陣。將該矩陣與輸入特征相乘,即可實現特征的規范化。

圖3 TSGCN中的T-Net模塊細節Fig.3 Details of T-Net adopted in TSGCN

2 幾何差異感知模塊及應用范例

本研究的動機是基于以下兩個問題:(1)是否有必要使用多個T-Net結構;(2)如果出于計算成本考慮只選用一個T-Net,要如何進行配置。

2.1 GDP模塊

GDP模塊的結構細節如圖4所示,其核心思想是:使用K個維度為L的多層感知機(multilayer perceptron,MLP,如圖中虛線框所示)將N×L的低維特征轉化為N×H的高維特征之后,再輸送給后續的T-Net網絡,其中N為樣本基本單元的個數,L

圖4 GDP模塊Fig.4 GDP module structure

GDP本質上是一個作用于高維特征的T-Net。相較圖3中的T-Net結構,GDP中的T-Net同樣由三層卷積、一層池化、三層全連接層組成,區別在于:最后一層的維度為H2,即確保輸出為H×H的變換矩陣,從而實現N×H尺寸高維輸入特征的規范化。

2.2 牙齒分割應用

3D牙頜網格數據記錄了患者口腔中牙齒的形態信息,通過深度學習技術將單顆牙齒從牙頜網格數據中準確分割出來,對于牙齒疾病診斷、手術規劃等具有重要意義[7]。

由于從不同渠道采集獲取的牙頜網格數據,其尺寸、朝向、位置存在一定差異,為了驗證GDP的有效性,選擇未考慮幾何差異問題的牙齒分割模型GACNet[6]作為改進范例。

GACNet是一種基于面片策略處理網格數據的深度學習方法。如圖5所示,該網絡整體上是一個雙分支結構,其中包含3個圖注意力卷積(graph attentional convolution,GAC)的分支用于局部特征提取,另一分支則用于全局特征提取。以牙頜網格數據上提取到的N×24的原始特征作為輸入,GACNet最終將給出N×C的預測結果,其中N為面片數,C表示預設的類別數。

圖5 具有GDP的GACNet改進網絡結構展示Fig.5 Demonstration of improved GACNet with GDP

按照2.1節的思路,將GDP模塊(細節見圖中虛線框)放置于N×24的輸入特征之后,分支結構之前。經實驗表明,當K取2、H取值32時,性能提升效果最佳。

3 實驗與討論

3.1 數據集及實驗環境

實驗所用的數據來自MICCAI挑戰賽的公共數據集3DTeethSeg[8],每個原始牙頜網格數據由100 000~300 000個數量不等的面片組成。為了便于訓練,將數據統一為17 000個面片數的規模。

由于訓練樣本的幾何差異性越豐富,模型的泛化能力越高,因此對網格數據進行包含隨機角度旋轉和隨機坐標位移的數據擴充操作。擴充后的訓練集規模為2 058,驗證集和測試集分別為588和294。

所有實驗均運行于一臺顯卡為NVIDIA Ge-Force RTX 3090(24 GB),CPU為Intel Core i9-10920X(3.50 GHz)的臺式計算機上。共訓練120個epoch,訓練時采用Adam優化器,batch_size設為2,學習率初始為1×10-3,每20個epoch進行0.5倍衰減。

3.2 評價指標

分割性能通過3個指標進行定量評估,分別為:Dice相似系數(DSC)、靈敏度(SEN)和正預測值(PPV)。令TP、TN、FP、FN分別表示真陽性、真陰性、假陽性和假陰性,DSC、SEN和PPV的計算方法分別如公式(1)(2)和(3)所示。

(1)

(2)

(3)

上述3個指標值與分割性能成正比,即數值越高代表性能越好,區別在于側重點存在差異。通過對這些差異性進行評估,可以確保模型在不同數據集劃分和數據增強條件下都能夠穩健地完成任務目標。

3.3 對比實驗

為了驗證GDP的效果,使用原始GACNet模型、加入GDP模塊后的GACNet改進模型(記作GACNet-GDP)、以及加入T-Net-Ⅰ模塊后的GACNet改進模型(記作GACNet-T-Net-Ⅰ)進行對比實驗,結果如表2所示。

表2 分割準確性對比Tab.2 Segmentation accuracy comparison

得益于模型幾何感知能力的提升,加入T-Net之后的分割準確率相較加入之前大幅提升。另外,相較GACNet-T-Net-Ⅰ,包含T-Net-Ⅱ的GACNet-GDP的準確率更高。該實驗結果說明如果只選用一個T-Net,T-Net-Ⅱ比T-Net-Ⅰ的性能更好。

對應的可視化結果如圖6所示,其中每行對應著一個典型樣本,第1列是原始輸入網格,第2列至4列分別為真實值、GACNet-GDP以及GACNet-T-Net-Ⅰ和GACNet的結果。從中不難發現,加入GDP之后的效果相較于其他方法更為準確,而GACNet沒有針對數據的幾何差異進行處理,因此存在明顯差錯,該結論與表2相符。

圖6 對比結果的可視化Fig.6 Visualization of comparison results

由于在面片方法上測試多個T-Net的計算資源要求過高,故改用點云方法PointNet++作為基礎模型進行對比實驗。實驗對象分別為加入GDP模塊的PointNet++(記作PN++-GDP)和加入2個T-Net模塊的PointNet++(記作PN++-T-Net-Ⅰ&II),實驗結果如表3所示。從表3可見,使用1個包含于GDP內部的T-Net與使用2個T-Net的效果差別不大,且單個GDP計算資源要求更少,因此更適合處理網格數據。

表3 不同數量T-Net模塊下的準確率對比Tab.3 Accuracy comparison with different numbers of T-Net modules

3.4 消融實驗

GDP具有超參數K和H,其中K表示MLP的個數,H表示MLP的維度。在對GACNet的改進中兩者取值分別為2和32。為驗證該超參數的選擇,本研究對不同取值下的結果進行對比。

3.4.1 MLP的個數選擇

在H取值32的情況下,將K分別以0、1、2、3賦值,并進行分割性能對比。當K=0時,GDP退化為T-Net-Ⅰ,其余情況本質上是T-Net-Ⅱ。如表4所示的實驗結果表明:(1)在T-Net前加入MLP確實能夠提升性能;(2)使用2層MLP的效果較其他方案效果更優。

表4 不同MLP個數下的準確率對比Tab.4 Accuracy comparison with different numbers of MLPs

3.4.2 MLP的維度選擇

在K取值2的情況下,測試不同維度MLP對性能的影響。由于輸入數據的通道數是24,分別以12(降維)、24(不變)、32(升維)、64(升維)對H進行賦值,并將分割準確率記錄如表5所示。

表5 不同MLP維度下的準確率對比Tab.5 Accuracy comparison with different dimensions of MLPs

實驗結果表明,通過MLP對輸入特征維度降低會影響模型的分割性能,導致準確率下降。保持特征維度不變或升高維度對模型則有提升作用,且當MLP的維度取32時模型精度最優。

4 結束語

本研究針對三維深度學習模型的幾何差異感知能力進行研究,提出名為GDP的網絡模塊。其核心思想是通過作用于高維特征的T-Net來對特征進行規范化。將GDP應用于3D牙齒分割,實驗結果表明:GDP模塊能夠有效應對3D數據的幾何差異問題,確保模型的泛化能力。

未來將針對牙齒分割準確率提升方法進行研究,并在新方法中進一步驗證GDP模塊的效果。

猜你喜歡
面片高維網格
用全等三角形破解網格題
初次來壓期間不同頂板對工作面片幫影響研究
反射的橢圓隨機偏微分方程的網格逼近
一種改進的GP-CLIQUE自適應高維子空間聚類算法
重疊網格裝配中的一種改進ADT搜索方法
基于加權自學習散列的高維數據最近鄰查詢算法
基于曲面展開的自由曲面網格劃分
甜面片里的人生
基于三角面片包圍模型的數字礦山技術研究
一般非齊次非線性擴散方程的等價變換和高維不變子空間
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合