?

基于Swin-Transformer與生成對抗網絡的地震隨機噪聲壓制方法

2024-02-03 13:09周鴻帥程冰潔徐天吉
石油物探 2024年1期
關鍵詞:注意力損失卷積

周鴻帥,程冰潔,徐天吉

(1.成都理工大學地球勘探與信息技術教育部重點實驗室,四川成都610059;2.電子科技大學資源與環境學院,四川成都611731;3.電子科技大學長三角研究院(湖州),浙江湖州313000)

隨機噪聲廣泛分布在采集的地震數據中,它們與有效信號混疊,掩蓋了地震數據的有效細節信息,嚴重影響地震數據的信噪比與分辨率,阻礙后續地震數據處理及資料解釋,所以如何有效消除隨機噪聲,最大限度保留有效信息是提高地震數據處理解釋準確性的關鍵步驟之一。目前地震數據隨機噪聲去除方法主要分為兩類,即基于先驗知識的傳統去噪方法與基于網絡訓練的深度學習類方法。

傳統去噪方法主要包括時域去噪、變換域去噪與稀疏表示去噪。時域去噪類方法利用地震數據在時域的分布特點構造濾波函數去除噪聲,例如非局部均值濾波[1]。變換域類去噪方法建立在固定基函數上,利用數學模型將地震信號轉換至變換域,利用變換域的稀疏性對信號進行去噪,主要包括傅里葉變換[2]、小波變換[3]和曲波變換[4]等。稀疏表示類方法使用字典代替傳統的固定基函數,具有一定的自適應處理能力,其中包括K-奇異值分解(K-SVD)[5]和在線字典學習(ODL)[6]等。以上方法受制于各自的缺陷,對數據特征提取能力較弱,在面對噪聲分布復雜、噪聲干擾嚴重的地震數據時,往往會出現噪聲壓制不足及損傷有效信號的情況,不能滿足勘探精度的要求。

深度學習類方法包括基于卷積神經網絡[7]的去噪方法,基于生成對抗網絡[8]以及基于Transformer[9]的去噪方法。與基于先驗知識的傳統方法不同,深度學習類方法通過構造端到端的映射關系,或是從數據內部挖掘信息,依靠大量數據,用網絡的模式,以損失函數為指標學習含噪到無噪的映射關系,得到一個能夠一定程度自適應去噪的網絡模型。目前在地震數據去噪領域,深度學習方法已有諸多應用成果。韓衛雪等[10]將卷積神經網絡應用于去除地震數據隨機噪聲,應用效果優于傳統地震數據去噪方法。WANG等[11]對地震數據進行預處理,使用殘差深度卷積神經網絡去噪,殘差學習[12]解決了網絡梯度消失的問題,使網絡層數更深,特征提取能力更強。WANG等[13]詳細討論了損失函數對網絡模型性能的影響,指出L1,L2損失會導致結果過度平滑,產生虛高的峰值信噪比(PSNR)與結構相似性(SSIM)值。在噪聲干擾嚴重的地震數據中,弱細節信息會因過度平滑而丟失,形成同相軸假象。張巖等[14]使用聯合誤差定義損失函數,并使用擴充卷積,以不同尺寸的卷積核提取地震數據特征,提高了地震數據去噪效果。楊翠倩等[15]提出一種結合全局上下文和注意力機制的深度卷積神經網絡。實驗結果表明,網絡能夠更有效壓制隨機噪聲,并保留更多局部細節信息。徐彥凱等[16]使用由兩個子網絡組成的雙通道網絡模型,并在下通道子網絡中引入空洞卷積增大感受野,增加了對有效信號的保護。ALSAIARI等[17]使用生成對抗網絡對圖像去噪,對抗損失的加入使網絡有效恢復了細節信息。俞若水等[18]使用深度卷積生成對抗網絡(DC-GAN)去除瑞雷波信號隨機噪聲,取得了較好的效果。吳學峰等[19]在傳統對抗損失的基礎上,添加循環一致性損失,提升了網絡訓練的穩定性。

以上方法均基于卷積神經網絡,是目前地震數據去噪領域的主流應用方法,利用多層卷積提取地震數據的主要特征,取得了優于傳統方法的應用效果。但卷積以卷積核為基礎,是一種局部操作,受限于卷積核的感受野,缺少對數據的全局特征分析,因此在特征提取能力上仍有較大提升空間。Swin-Transformer是圖像領域新發展起來的方法,在地震數據處理領域還鮮有研究。DOSOVITSKIY等[20]提出Vision Transformer(VIT),將Transformer應用于圖像分類任務,該方法把圖像塊比作自然語言處理(NLP)中的token,使用標準Transformer編碼器處理token,并據此進行圖像分類。LIU等[21]提出Swin-Transformer,使用窗口自注意力機制,降低了Tansformer的計算復雜度。LIANG等[22]將Swin-Transformer應用于圖像復原任務,在圖像去噪任務中取得了良好的效果。

本文借鑒圖像處理領域技術,引入Swin-Transformer方法,針對L1,L2損失函數造成過度平滑而引起地震數據局部構造變形的問題,融入生成對抗網絡的思想,提出ST-GAN(Swin-Transformer and Generative Adversarial Networks)網絡模型。在ST-GAN網絡模型中,Swin-Transformer作為生成網絡對地震數據去噪。Transformer的注意力模塊是一種自適應濾波,權重由兩個區域的相關性決定,能有效提取數據的全局特征,并能與卷積神經網絡優勢互補,提升網絡的特征提取能力。判別網絡基于卷積神經網絡,損失函數由L1損失與對抗損失一同構成,使網絡在有效壓制隨機噪聲的同時保留和恢復更多的細節信息。

1 方法原理與網絡結構

1.1 方法原理

1.1.1 卷積神經網絡

卷積神經網絡是一種局部操作,一般由輸入層、卷積層和輸出層構成。輸入為地震數據圖像,輸出為特征圖,卷積層通過卷積核完成對輸入數據的局部特征提取。運算過程如圖1所示,運算表達式為:

圖1 卷積運算示意

y=wx+b

(1)

式中:x是輸入數據中的元素矩陣;w是卷積核;b是偏置;y是特征提取結果。

1.1.2 生成對抗網絡

生成對抗網絡的核心思想是博弈,它由生成網絡(Generator)和判別網絡(Discriminator)組成。如圖2 所示,生成網絡從輸入的含噪地震數據中生成去噪地震數據。判別網絡的輸入有兩部分,一是生成網絡的結果,二是映射目標。判別網絡判斷輸入是生成網絡的結果還是真實的映射目標,即估計樣本屬于某類的條件概率分布。

圖2 生成對抗網絡

1.1.3 多頭自注意力機制

自注意力機制[23](Self-Attention)是Transformer的核心模塊,可以捕捉各向量之間的相關關系,是一種全局操作。

在Self-Attention計算中,向量根據同其余向量之間的相關關系權重進行加權求和。如圖3所示,a1,…,ai是各個patch轉化的向量序列。ai首先經過Wq,Wk,Wv共3個權值共享的初始化矩陣轉換為qi,ki,vi,提升向量在匹配計算中的魯棒性。qi,ki相互匹配,經激活函數Softmax得到相關關系權重向量,與vi加權求和即得到Self-Attention值。qi,ki,vi3個向量中的元素繼續劃分為qij,kij,vij構成多個Head,對每一個head做Self-Attention,即為多頭自注意力機制(Multi-headed Self-Attention)[24]。

圖3 多頭自注意力機制

計算公式為:

(2)

式中:qi=aiWq,ki=aiWk,vi=aiWv。Qij=(q1j,q2j,…,qij),Kij=(k1j,k2j,…,kij),Vij=(v1j,v2j,…,vij);d為向量長度。

1.1.4 Swin-Transformer

Swin-Transformer(Swin-T)采用窗口多頭自注意力模塊(W-MSA/SW-MSA),與Transformer的全局自注意力計算不同,Swin-T在非重疊的局部窗口內進行多頭自注意力計算(圖4)。圖4a 為全局自注意力,圖中每一個patch與其余patch進行自注意力計算。圖4b為窗口自注意力(W-MSA),其每一個patch之間的自注意力計算在窗口內(即圖中紅色方框)進行。圖4c為移位窗口自注意力(SW-MSA),窗口進行了移動,不同窗之間的信息得到融合。

圖4 窗口自注意力示意a 全局自注意力; b 窗口自注意力; c 移位窗口自注意力

窗口形式的計算將全局計算的二次復雜度轉化為線性復雜度,大大降低了計算成本,擁有更加優異的擴展性。

1.2 網絡結構及損失函數

1.2.1 Swin-Transformer網絡結構

圖5是Swin-Transformer(Swin-T)的網絡結構,該網絡完成對含噪地震數據的去噪處理。網絡的核心部分由若干個殘差Swin-T塊(RSTB)構成,RSTB則由多個殘差連接的Swin-T層(STL)與卷積層構成。

圖5 Swin-Transformer網絡結構

地震數據首先經過卷積神經網絡進行特征提取,所得特征圖由圖6所示轉換為二維向量矩陣。在RSTB中,向量矩陣依次經過殘差連接的LN層(LayerNorm)與多頭自注意力模塊(MSA),以及殘差連接的LN層與多層感知機(MLP)。

圖6 Patch轉向量矩陣

LN層完成對數據的歸一化,提升網絡的穩定性。在MSA模塊中,向量矩陣中的各向量相互匹配計算注意力權重,MSA與SW-MSA交替使用。殘差連接提升了網絡的深度,有效緩解了梯度消失問題。MLP融合向量不同維度的信息,使網絡能夠提取更多的非線性特征和組合特征信息,加強網絡的表征能力。

1.2.2 ST-GAN網絡模型及損失函數

ST-GAN網絡模型結構如圖7所示,其中:包含卷積神經網絡,生成對抗網絡與Swin-T。Swin-T作為生成對抗網絡中的生成網絡,判別網絡基于卷積神經網絡,判別結果作為損失函數的一部分指導生成網絡更新。

圖7 ST-GAN網絡模型結構

卷積神經網絡通過卷積核提取地震數據的淺層局部特征。Swin-T通過自注意力模塊使Patch相互匹配,得到不同數據塊之間的相關關系。卷積神經網絡的局部操作與Swin-T的全局操作相互補充,提升了網絡模型對數據的特征提取能力。生成對抗網絡為整個網絡提供了新的訓練策略,判別網絡的加入使生成網絡更新不再局限于某一種損失函數,而是以網絡的形式對生成網絡的結果進行判定,進而反饋信息指導生成網絡更新。生成對抗網絡提升了網絡模型對地震數據細節信息恢復的能力。

損失函數是網絡訓練的重要組成部分,依據網絡生成結果與映射目標之間的差異反饋信息指導網絡更新。在地震數據去噪任務中一般使用L1,L2損失函數?;谀繕酥蹬c預測值差異的損失函數通常能得到較好的結果,但同時也會產生過度平滑,存在PSNR與SSIM指標虛高的問題。在噪聲干擾嚴重的地震數據中,弱細節信息會因過度平滑而丟失,形成同相軸假象。

針對該問題,對損失函數進行了調整,融入生成對抗網絡的思想,增添了對抗損失。對抗損失可以使網絡提取更深層次的潛在特征,從而有效恢復細節信息,避免因過度平滑造成同相軸假象。

整體的損失函數構成為:

Loss=lam*Lcon+beta*Ladv+(1-lam)*Lcha

(3)

式中:Lcha[25]是L1損失函數的變體,用于計算的目標值與預測值之間絕對差值的總和,如(4)式。它增添了常量ε,使函數擁有更高的穩定性。Lcon[26]是內容損失,用于計算地震數據的深層特征提取結果之間的差異,它能夠提升網絡對細節信息恢復的能力,如(5)式。其中,φ為特征提取網絡,l為層數,Ladv為對抗損失,如(6)式。其中,D為判別網絡。

(4)

(5)

(6)

1.3 網絡訓練與測試

訓練數據集的質量很大程度上決定網絡模型的性能。利用合成地震數據構建訓練集與測試集,經過對無噪的合成地震數據添加噪聲水平為15,20,25的高斯白噪聲,構造含噪到無噪的映射關系。訓練時對數據按照步長為1,大小為6464進行滑動裁剪,同時進行幅值歸一化處理,并使用旋轉和翻轉進行數據增強。裁剪后樣本數量總計為5720,訓練集與測試集按照8∶2的比例進行劃分,使地震數據特征充分覆蓋訓練集與測試集,保證網絡模型訓練的有效性。部分訓練樣本如圖8所示。其中,包含斷層、薄層和褶皺等多種不同地質模型。

圖8 訓練集中部分樣本

圖9是不同網絡模型(包括DnCNN,Swin-T,ST-GAN)的訓練損失函數值變化趨勢。其中,DnCNN與Swin-T使用的損失函數為L1范數損失。從圖9可以看出,Swin-T模型的損失函數值不僅起始值最小,而且在整個訓練過程中一直低于DnCNN。在融入生成對抗網絡后,損失函數增添了對抗損失,整體網絡模型結構及損失函數的構成更為復雜,從圖9中展示的曲線可以看出,ST-GAN網絡模型的初始損失函數值略高于Swin-T模型,但在整體上仍低于DnCNN,這表明網絡模型在訓練中能夠迅速收斂。

圖9 不同網絡模型訓練損失函數變化趨勢

測試集上的峰值信噪比(PSNR)和結構相似性(SSIM)性能曲線如圖10a和圖10b所示。隨訓練輪次的增加,各個網絡的PSNR與SSIM都顯著提升,這表明網絡在去噪性能上得到了增強。對比曲線之間的差異,Swin-T網絡的PSNR和SSIM比DnCNN分別高2dB和0.07。表明在有限的訓練輪次下,Swin-T網絡的特征提取能力以及去噪性能比DnCNN更加優異。在融入生成對抗網絡之后,ST-GAN網絡模型的PSNR與SSIM較Swin-T略微下降。

圖10 峰值信噪比(a)與結構相似性(b)

這是由于在僅使用L1損失作為損失函數的情況下,過度平滑效應會導致虛高的PSNR和SSIM值。如圖11所示,DnCNN與Swin-T的結果圖上均顯示出不同程度的平滑,導致地震圖像中的局部構造發生變形,形成同相軸假象。ST-GAN網絡模型融入生成對抗網絡,在損失函數上增添了對抗損失,降低了PSNR與SSIM值,但同時提升了網絡對細節信息的恢復能力。如圖11e所示,地震數據局部構造恢復良好。

圖11 測試集結果a 原始數據; b 含噪數據; c DnCNN; d Swin-Transformer; e ST-GAN

2 實際應用

為測試ST-GAN網絡模型的去噪性能,選用Marmous模型作為測試對象。圖12a為Marmous模型的局部地震成像剖面;圖12b為相應的含噪局部地震成像剖面。其含有噪聲水平為25的隨機噪聲,PSNR為22.62dB,SSIM為0.2946。從圖12中可以看出,地震剖面上含有曲線同相軸以及破碎帶,受噪聲干擾,同相軸連續性差,破碎帶中弱信號被噪聲掩蓋,難以識別有效信息。我們使用傳統去噪方法(包括小波變換和字典學習)、經典去噪網絡(DnCNN)、Swin-T與ST-GAN網絡模型對含噪信號進行處理,并對噪結果進行對比分析。

圖12 局部地震成像剖面a 無噪局部地震成像剖面; b 含噪局部地震成像剖面

表1為不同方法處理結果的峰值信噪比與結構相似性。分析表1可以得出,傳統方法的PSNR與SSIM明顯低于深度學習類方法。說明在去噪效果方面,深度學習類方法優于傳統方法。將經典去噪網絡DnCNN與Swin-T進行對比,Swin-T的PSNR與SSIM比DnCNN分別高3.14dB與0.0962,說明Swin-T的去噪性能優于DnCNN。而在融入生成對抗網絡后,PSNR與SSIM相比較Swin-T降低了1.66dB與0.0446,但仍比DnCNN高出1.48dB與0.0516。

表1 不同方法去噪后的PSNR與SSIM

圖13a與圖13b分別為小波變換與字典學習兩種傳統方法的去噪結果,其中小波變換使用小波閾值去噪,字典學習采用小批量在線字典學習去噪。分析圖示結果可知,小波閾值去噪與字典學習均成功去除了大部分噪聲,但在噪聲干擾嚴重的弱信號區域仍有較多噪聲殘留,導致特征不明顯,難以辨識有效信息。

圖13 不同去噪方法處理后的結果a 小波變換; b 字典學習; c DnCNN; d Swin-Transformer;e ST-GAN

圖13c至圖13e依次為DnCNN,Swin-T以及ST-GAN網絡模型的去噪結果。相比較傳統的去噪方法,深度學習類方法在對噪聲的去除上已經有了明顯提升,邊緣清晰,噪聲殘留少。但DnCNN壓制噪聲的過程中,同樣對噪聲與有效信號交疊嚴重的弱信號區域恢復不足,將有效信號作為噪聲一同去除,導致局部構造信息丟失。由圖13d可以看出,Swin-T在對噪聲壓制的性能上進一步提升,噪聲殘留少,同相軸連續清晰,并且PSNR與SSIM值均比其它方法高,但與圖12a對比可以發現,去噪結果有著明顯的過度平滑,細節信息未能正確恢復,一些同相軸信息屬于假象。圖13e為ST-GAN網絡模型的去噪結果。對比其余4種方法的去噪結果,ST-GAN網絡模型在濾除更多噪聲的同時,避免了因過度平滑產生虛假同相軸的現象發生,減輕了對有效信號的損害,信號的局部結構以及有效信息得以正確恢復,證明了ST-GAN網絡模型的優勢。

圖14為不同方法去噪后的殘差剖面。圖14a中含有較多的地震數據有效信息,說明小波變換去噪時損傷了有效信號。圖14b中存在少量地震數據信號,噪聲含量較少,說明字典學習去噪時對噪聲壓制不足。圖14c與圖14d噪聲含量多,但同樣包含地震數據細節信息,說明DnCNN與Swin-T在壓制噪聲的同時損傷了有效信號,無法正確恢復細節信息。圖14e 含噪量較高的同時,只在局部區域包含較少的地震數據信號,說明ST-GAN網絡模型在有效壓制噪聲的同時擁有更加優異的細節恢復和保持能力。

圖14 不同方法去噪后的殘差剖面a 小波變換; b 字典學習; c DnCNN; d Swin-Transformer; e ST-GAN

圖15顯示了原始數據、含噪數據以及不同去噪方法的二維中心化頻譜分析的結果。頻譜圖的中心為低頻,離中心越遠,頻率越高,圖像顏色代表能量大小,能量延伸方向一定程度指示地震數據剖面中同相軸方向與變化趨勢。

圖15 原始數據、含噪數據以及不同去噪方法處理后的二維中心化頻譜分析a 原始數據; b 含噪數據; c 小波變換; d 字典學習; e DnCNN; f Swin-Transformer; g ST-GAN

從圖15a中可以看出,地震數據的能量主要集中在低頻,并向左上與右下方向延伸。經噪聲干擾后(圖15b),地震數據的能量在中心點處向四周彌散,整體能量衰弱。圖15c是小波變換去噪后的頻譜分析結果。能量四周彌散,未能正確收斂,高頻能量缺失,說明去噪過程中損傷了地震數據有效信號。圖15d 是字典學習去噪處理后的頻譜分析結果,能量向左上與右下延伸,高頻能量有所恢復,說明地震數據細節信息得到了一定恢復,但在低頻中心處仍有能量發散,說明地震數據仍有噪聲殘留。圖15e為DnCNN去噪處理后的頻譜分析結果,高頻能量恢復不足。圖15f為Swin-T去噪處理后的頻譜分析結果,圖中低頻區域能量集中,且明顯向左上與右下方向延伸,與圖15a相比,圖15f中的能量過度收斂和過度延伸,說明在去噪過程中,有虛假的同相軸產生,細節信息被破壞。圖15g為ST-GAN網絡模型去噪處理后的頻譜分析結果,圖中低頻能量收斂,高頻能量恢復良好,未出現能量彌散與過度延伸現象,說明了該方法在有效壓制噪聲的同時對地震數據細節信息恢復良好,顯示了ST-GAN網絡模型的有效性。

3 結論

1) Transformer是全局操作,能與卷積神經網絡優勢互補。Transformer中的注意力單元是一種自適應濾波,匹配權重由兩個patch間的相關性決定,擁有更強的建模能力。相比較小波變換、字典學習和DnCNN網絡,Swin-Transformer擁有更強的特征提取能力,去噪效果更優。

2) ST-GAN引入生成對抗網絡,損失函數由對抗損失與L1損失一同構成,提升了網絡的細節恢復能力,緩解了L1損失造成的過度平滑問題。在噪聲干擾嚴重的弱地震信號區域,局部細節紋理有效恢復,地震數據分辨率得以提高。

ST-GAN需要人工構建數據集進行訓練,訓練集的質量極大程度影響網絡去噪性能。由于地震數據噪聲復雜度高,因此如何構建映射關系使網絡得到有效訓練是ST-GAN網絡模型的關鍵問題。在以后的工作中,將建立更加有效的訓練集,以及改進網絡使其擁有更強的魯棒性與特征提取能力是進一步研究的方向。

猜你喜歡
注意力損失卷積
讓注意力“飛”回來
基于3D-Winograd的快速卷積算法設計及FPGA實現
胖胖損失了多少元
從濾波器理解卷積
玉米抽穗前倒伏怎么辦?怎么減少損失?
基于傅里葉域卷積表示的目標跟蹤算法
“揚眼”APP:讓注意力“變現”
A Beautiful Way Of Looking At Things
一般自由碰撞的最大動能損失
損失
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合