?

融合部分卷積和注意力機制對抗網絡模型的地震數據重建

2023-02-14 03:54馮永基陳學華
石油地球物理勘探 2023年1期
關鍵詞:注意力卷積損失

馮永基,陳學華*

(1.成都理工大學油氣藏地質及開發工程國家重點實驗室,四川成都 610059;2.成都理工大學地球勘探與信息技術教育部重點實驗室,四川成都 610059)

0 引言

在地震勘探中,由于受環境條件的限制,如障礙物、禁區等,采集的地震數據往往是不規則或缺失的。在地震數據處理時,剔除壞道也會造成地震數據的缺失。而原始數據的完整性是后續處理和解釋的基礎,因此對缺失地震數據進行重建是地震數據處理的關鍵?,F有的地震數據重建方法包括兩大類:一是基于固定數據或物理模型的方法,主要包括基于波動方程[1-4],基于預測濾波[5-8]和基于變換域重建[9-12]等 ; 二是利用機器學習和深度學習的人工智能的方法[13-15]。生成對抗網絡(GAN)是深度學習方法的一種,也常用于地震數據重建。Oliveira等[16]最先將條件生成網絡應用于地震數據重建; Gulrajani等[17]在GAN中應用了梯度懲罰項; Donahue等[18]設計了一種雙向GAN??梢奊AN在地震數據重建中取得了一定效果。但王靜[19]指出普通GAN深度學習模型的輸出結果常出現模糊、假頻等缺點,該問題在圖像重建領域依然存在。主要原因包括[20-21]:①若輸入數據缺失較多,卷積結果受到較多0區域的影響,而已知區域對卷積結果的影響較小,從而使卷積值偏離正確結果; ②普通卷積模型屬于局部操作,卷積結果主要受卷積核覆蓋范圍內數據的影響,相隔距離較遠的數據對其影響不大。為了解決上述問題, Liu等[21]提出了一種部分卷積機制放縮卷積結果,Yu等[20]建立了一種上下文注意力(Contextual attention)機制。

本文在深度學習模型中同時引入部分卷積和注意力機制。所用部分卷積是根據卷積核窗口內的有效信息及其含量進行選擇性卷積,并設計了一個比例因子r放縮卷積結果。

常規卷積過程是局部操作,卷積核的感知范圍受限于卷積核的大小,卷積結果主要受卷積核覆蓋范圍內數據的影響。在網絡模型中引入注意力機制即是為了彌補此缺點。首先,對于一個前景(待重建)數據特征,先用注意力機制計算它與所有背景數據(待重建數據以外的整體數據)特征的相似度; 然后,通過softmax把相似度轉換為注意力得分(加權模型),用背景數據特征和注意力得分計算得到平均數據特征; 最后,將平均數據特征結果與卷積下采樣得到的數據特征進行像素融合,即可彌補常規卷積的上述缺點。

注意力機制在判斷前景數據特征和背景數據特征的相似程度時,常用方法包括歐式距離、點積、余弦距離等。由于待重建區域的真實數據的值是未知的,且余弦距離只受角度大小的影響,所以本文選擇余弦距離表征相似度。

1 方法原理

1.1 GAN神經網絡模型

本文所用網絡模型是基于GAN,由一個生成網絡G和一個判別網絡D構成。G通過學習樣本,能生成與訓練數據相同分布的新數據,而D的目標則是區分真實數據與生成數據。GAN網絡模型應用廣泛,發展迅速,衍生出很多子網絡。本文則是基于深度卷積生成對抗網絡(DCGAN)進行改進。

通過DCGAN進行數據修復訓練時,常用掩碼M作為標記。訓練數據Iinput是完整的原始輸入數據,M與Iinput的形狀、大小相同。M中已知區域標記為1,缺失區域標記為0。Iinput與M同時作為網絡的輸入,二者進行數乘即可得到缺失數據I。G對缺失數據I′重建并以Iinput為目標樣本。D將對重建結果進行判別,并將判別結果反饋給G,兩個網絡之間相互影響,共同提升網絡性能。

GAN的損失函數由G的損失和D的損失兩個部分組成。G的總損失由空洞損失、平滑損失和感知損失三者組成。

(1)空洞損失。表示為

Lhole=‖(I-M)⊙(Iout-Iinput) ‖1

(1)

Lvalid=M⊙(Iout-Iinput) ‖1

(2)

式中:Iout為G的輸出;Lhole為缺失區域的L1范數損失,表征缺失區域重建結果與目標樣本間的差距;Lvalid為已知區域的L1損失,對應已知區域在進入G前與通過G后的差距。

(2)平滑損失。表達式為

(3)

式中:p代表數據的一個區域; (i,j)是p區域內一點。平滑損失表示p區域內每一個數據與該數據緊鄰的右側和下側數據的L1損失之和,用于表征相鄰數據在水平和垂直方向的差異。

(3)感知損失。表達式為

(4)

式中:φpooli表示VGG-16網絡池化層映射的第i個特征;Hi、Wi、Ci分別表示第i個特征的高度、寬度和通道大小。式(4)表征的感知損失對應一個固定網絡參數的VGG-16網絡[22](圖1)。在感知損失網絡的某一層,同時取出生成數據與目標樣本的特征向量,將兩個特征向量進行對比,以獲得更深層次的特征差異。

圖1 感知損失模型

將以上三種損失函數乘以對應的系數后,組合得到G的總損失為

LG=λ1Lhole+λ2Lvalid+λ3Ltv+λ4Lperceptual

(5)

在實際操作中,可根據不同損失函數的精度和總損失的梯度變化等進行超參數λ的調節。

D中損失函數表示為

(6)

該式為二元交叉熵損失,常用于二分類問題。D對Iinput和Iout進行判別,Iinput作為目標樣本,在輸入D時會被打上恒定標記1,DIout的結果在0和1之間。

1.2 本文網絡模型

由于傳統的DCGAN網絡在數據重建時存在上文所述的缺點,在數據重建方面并不能得到很好的效果。本文對G進行了改進,加入部分卷積和注意力機制提升了網絡性能。改進后的生成網絡模型G如圖2中的G,網絡左端為輸入接口,同時輸入原始數據與掩碼,處理結果從網絡的右端輸出。下文將詳述網絡的新模塊。

圖2 本文網絡模型示意圖

1.3 部分卷積

部分卷積(PCONV)是由Liu等[21]提出的一種新的卷積方式,常用于數據修復。部分卷積模塊分為數據部分和掩碼部分。部分卷積的實現過程(圖3)由下式表示

(7)

其中

(8)

每次進行數據部分卷積操作后,數據尺寸和缺失區域范圍都會發生變化,為了讓M與數據依然保持對應關系,需更新M。更新公式為

(9)

式中m′代表更新后的掩碼值。只要M(i,j)有一個元素是已知的,每次部分卷積后的掩碼值為1(圖4)。只要卷積層數足夠,通過多次卷積,掩碼中代表缺失標記的0會越來越少,最終完全消失。

圖4 掩碼更新過程示意圖

1.4 注意力機制

余弦距離是空間中兩點相似度的評價方法,通過將空間中兩點映射為向量,并計算向量夾角的余弦值評價相似程度。當余弦值接近1,夾角趨于0°,表明兩個向量相似度高; 余弦值接近于0,夾角趨于90°,表明兩個向量相似度低。本文利用一種基于余弦距離的注意力模型,該模型計算前景數據和背景數據的余弦相似度,并通過softmax將相似度轉化為注意力得分(score)。本文注意力機制模塊的執行過程如圖5。

圖5 注意力模塊執行流程

輸入數據經過下采樣后得到n個特征向量,這些特征向量組合定義為F。其中,一個特征向量上(x,y)處的值定義為fx,y,(x′,y′)代表除(x,y)外的任意一點。首先,由下式計算同一個特征向量上任意一點與其余各點之間的余弦相似性

(10)

(11)

之后,通過softmax函數將點(x,y)的所有相似性結果進行映射,得到同一個向量上其余點位關于點(x,y)的權重系數,即注意力得分,記為score。softmax表達式如下

(12)

式中:i為點(x,y)的相似性結果中的一個元素; e為自然常數; scorei為元素i的映射結果。

然而,隨著神經網絡的迭代,得分并不是固定的。定義經過次迭代后的最終分數為scorei,scorei與scorei-1的關系如下

(13)

(14)

2 模型實驗

為了驗證本文的網絡模型在地震數據重建方面的能力,利用合成數據及實際數據進行驗證,并與DCGAN網絡模型對比。此外,為了探究部分卷積模塊和注意力模塊對網絡模型數據重建能力影響的差異,還分別設計了DCGAN網絡只與部分卷積模塊結合的GAN+PCONV模型(圖6),以及DCGAN網絡只與注意力模塊結合的GAN+attention模型(圖7)。

圖6 GAN+PCONV模型

圖7 GAN+attention模型

2.1 合成數據實驗

合成數據實驗采樣自SEG BP94模型,道間距為25m,采樣率為4ms。合成數據切分為20000個訓練切片、200個驗證切片、200個測試切片,各切片尺寸均為512×256。為了使合成數據更貼近真實數據,切片載入網絡模型時,會被賦予大小為0~10的噪聲方差,同時被隨機抹去30%~50%的地震道。前文所述網絡模型經20000次訓練,G的損失變化(loss)如圖8所示。在20000次訓練過程中,GAN+attention、GAN+PCONV和本文方法的損失值均比DCGAN的低,其中本文方法獲得的損失值最低。圖9a是測試集一中的切片,展示不同網絡模型重建效果。

圖8 不同網絡模型生成網絡G的損失曲線

圖9 測試集一的切片(a)及隨機缺失50%(b)

四種不同模型的數據實驗結果如圖10所示。 DCGAN網絡重建結果如圖10a,其SNR為9.31dB。重建結果中存在大量的假頻,缺失區域并未完全有效地恢復,同相軸連續性較差且模糊,在對應的差值剖面(圖10e)中可見殘留有大量的有效信息。GAN+PCONV網絡重建結果(圖10b)的SNR為20.51dB,其同相軸清晰,且假頻已經顯著減少,其差值剖面圖(圖10f)中殘留信息較少。GAN+attention網絡重建結果(圖10c)的SNR為16.51dB,重建結果中存在一些假頻,其同相軸清晰度和細節表現相較于DCGAN的重建結果有了提升,但差值剖面(圖10g)中殘留有大量有效信息。本文方法的重建結果如圖10d,其SNR為23.01dB,重建結果中的假頻顯著小于前三者,恢復的細節也優于前三者,在差值剖面中(圖10h)只有少量信息殘留。進一步觀察四種重建結果的f-k譜(圖11)得知:DCGAN的重建結果(圖11a)中低頻區域存在假頻;GAN+attention的重建結果(圖11c)中低頻區域的假頻減少,但在背景上又出現了新的假頻; GAN+PCONV的重建結果(圖11b)較好,低頻區域的假頻減少,沒有出現新的假頻; 本文方法重建結果的f-k譜(圖11d)最清晰,假頻最少,說明重建結果最優。該實驗說明部分卷積模塊和注意力模塊均可提升網絡重建能力,且部分卷積模塊比注意力模塊的提升效果更明顯。將這兩種模塊同時融合到網絡模型中也能大幅提升重建能力。

圖10 不同方法合成數據重建結果及對應差值

圖11 合成數據四種模型方法重建結果及原始數據的f-k譜

圖12 測試集一的加噪切片(a)及隨機缺失50%(b)

為驗證網絡在切片含噪情況下的數據重建效果,將測試集隨機加噪。加噪后的重建測試結果如圖13。DCGAN的重建結果中(圖13a)存在大量的假頻和噪聲,細節信息幾乎沒有得到恢復,重建結果的SNR為7.1dB,其對應的差值剖面(圖13e)中殘留有大量有效信息。GAN+attention網絡的重建結果(圖13c)的SNR為9.3dB,重建結果在細節信息上相較于DCGAN有一定的提升,但仍有大量假頻和噪聲存在,其差值剖面(圖13g)中也有大量有效信息殘留。GAN+PCONV模型提升明顯(圖13b),重建結果的SNR為12.3dB,假頻和噪聲已經大量減少,同相軸清晰,差值剖面(圖13f)上仍有部分有效信息殘留。本文方法相比于GAN+PCONV模型有進一步提升,重建結果的SNR為18.1dB,重建結果中存在少量聚集的假頻,但細節信息比GAN+PCONV豐富。

圖13 含噪合成數據重建結果

四種方法重建結果的f-k譜如圖14??梢奃CGAN重建結果(圖14a)的高頻和背景區域中存在假頻,GAN+attention重建結果(圖14c)的高頻和背景區域的假頻減少,但在低頻區生成了新假頻。GAN+PCONV重建結果(圖14b)的高頻和背景區域的假頻大量減少,低頻區域有部分假頻。本文方法重建結果(圖14d)中假頻明顯小于GAN+PCONV。

圖14 含噪合成數據四種模型重建結果及原始數據的f-k譜

2.2 實際數據實驗

為了說明方法的實用性,利用M地區的實際地震資料進行測試。實際地震數據共3280000道,其道間距為50m,采樣率為4ms。將其分割為6400個大小為512×256的切片。其中訓練集6000個,驗證集200個。采用相鄰區塊的地震數據制成200個測試集。將上文的四種模型在相同的訓練集下進行相同次數的訓練。訓練過程的生成網絡G的損失變化(loss)如圖15??梢奊AN+PCONV和本文方法的損失值均比DCGAN低,但GAN+attention的損失值降低不明顯。圖16a為測試集二的切片,四種不同模型的數據實驗結果如圖17所示。

圖15 不同網絡模型的G損失曲線

圖16 測試集二的切片(a)及隨機缺失50%(b)

DCGAN網絡重建結果(圖17a)的SNR為11.3dB,其同相軸較模糊,且有假頻存在,在差值剖面(圖17e)中可見大量有效信息殘留。GAN+attention網絡重建結果(圖17c)的SNR為12.3dB,其同相軸的清晰程度較DCGAN重建結果有一定提升,但差值剖面(圖17g)中仍有有效信息殘留。GAN+PCONV網絡重建結果(圖17b)的SNR為19.1dB,其同相軸清晰程度大幅提升,假頻減少,同時差值剖面(圖17f)中的有效信息已經大量減少。本文方法的重建結果(圖17d)的SNR為20.6dB,其同相軸清晰程度進一步提升,重建結果的細節恢復效果優于前三者,差值剖面(圖13h)中也只有少量信息殘留。觀察四種重建結果的f-k譜(圖18)可見: DCGAN(圖18a)和GAN+attention(圖18c)重建結果中的低頻區域存在假頻; GAN+PCONV重建結果(圖18b)中,低頻區域的假頻大量減少但背景上仍存在假頻; 本文方法重建結果中假頻最少(圖18d)。實際數據實驗也表明,部分卷積模塊和注意力模塊均可提升網絡重建能力,且部分卷積模塊比注意力模塊提升效果更明顯。將這兩種模塊同時融合到網絡模型中也能大幅提升重建能力。

圖17 實際數據測試

圖18 實際數據四種模型方法重建結果及原始數據的f-k譜

3 結論

普通DCGAN 神經網絡存在缺陷,其重建結果中存在模糊、假頻等缺點。本文針對這些缺陷及其產生的原因,重新設計了DCGAN網絡,提出了一種融合部分卷積和注意力機制的對抗網絡模型地震數據重建方法。部分卷積根據卷積核內的有效數據量生成比例因子r,并通過比例因子r放縮卷積結果。除此以外,本文使用注意力機制利用背景信息計算出一個平均數據特征,并將該平均數據特征與卷積結果融合,從而使更多的信息能影響卷積結果。

本文的處理結果表明,部分卷積模塊和注意力機制均能提高對抗網絡模型性能,減少重建過程中模塊的模糊、假頻,且部分卷積模塊比注意力模塊提升效果更明顯。將這兩種機制同時融合到對抗網絡模型中也能大幅提升網絡性能。

另外,本文的訓練模型在含噪較多的數據上依然會出現假頻,后續研究將聚焦本文模型針對含噪較多的數據的重建能力。

猜你喜歡
注意力卷積損失
讓注意力“飛”回來
基于3D-Winograd的快速卷積算法設計及FPGA實現
胖胖損失了多少元
從濾波器理解卷積
玉米抽穗前倒伏怎么辦?怎么減少損失?
基于傅里葉域卷積表示的目標跟蹤算法
“揚眼”APP:讓注意力“變現”
A Beautiful Way Of Looking At Things
一般自由碰撞的最大動能損失
損失
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合