?

基于堆疊降噪自編碼器的神經–符號模型及在晶圓表面缺陷識別

2022-12-03 14:31劉國梁余建波
自動化學報 2022年11期
關鍵詞:置信度神經元符號

劉國梁 余建波

半導體作為應用最為廣泛的元器件之一,其制造過程需要經過薄膜沉積、蝕刻、拋光等眾多復雜工藝流程,生產過程中的任何異常都可能導致晶圓表面缺陷的產生[1].除了需要對晶圓制造過程中的關鍵參數進行控制和預測[2],準確識別晶圓表面的各種缺陷模式,也有助于提升晶圓制造質量,降低半導體生產廢品率,避免因大批量晶圓表面缺陷而造成的巨大損失.

早期的晶圓表面缺陷識別方法主要通過統計學方法實現.Hess等[3]研究晶圓缺陷密度分布實現對成品率的預測.Friedman等[4]采用無模型的缺陷聚類方法實現對晶圓表面缺陷的形狀、大小和分布的檢測.Yuan等[5]在前人研究的基礎上提出一種基于貝葉斯推論的模式聚類演算法,可進一步檢測曲線模式、橢球模式、非均勻全局缺陷模式.這些方法的缺陷在于只是對晶圓缺陷進行了統計分析,并沒有做到對缺陷類別的精準識別,對實際生產過程幫助有限.

隨著機器學習和深度學習的崛起,線性判別方法[6]、反向傳播網絡[7]、廣義回歸神經網絡[8]、支持向量機[8-10]、深度神經網絡[11-14]等模型已被廣泛地應用于晶圓表面缺陷識別,其中堆疊降噪自編碼器(Stacked denoising auto-encoders,SDAE)作為經典的深度學習模型,憑借其強大的學習能力,取得了不錯的結果[13-14].但是,上述模型仍然存在以下2個問題:1)雖然以卷積神經網絡和SDAE 為代表的深度神經網絡模型憑借其強大的特征提取能力,在晶圓缺陷識別問題上取得了較好的結果,但是深度網絡模型始終存在不可被解釋的缺陷.這一缺陷使得深度神 經網絡在WMPR 上的應用存在很多困難.2)傳統機器學習模型如支持向量機、決策樹等可以通過數學或邏輯途徑進行解釋和驗證,但是它們的缺陷識別能力并不高.

縱觀神經網絡發展史,研究者們一直在嘗試彌補神經網絡不可被解釋的缺陷.通過對網絡的結構參數或統計意義進行分析,以達到解釋網絡的目的是當下的主流研究方向[15].Gallant[16]最早提出利用IF-THEN 形式的規則解釋神經網絡的推理結果,形成神經網絡專家系統.其后Towell等[17]提出基于知識的人工神經網絡(Knowledge-based artificial neural network,KBANN),該模型通過從網絡中抽取和插入規則,實現了邏輯規則與神經網絡之間的交互.Garcez等[18]在KBANN的研究基礎上提出一種利用符號規則初始化神經網絡的方法,可以幫助模型更高效的學習數據中的知識.在深度神經網絡研究方面,Garcez等[19]提出神經–符號系統的概念,其核心理念為符號規則負責表述神經網絡中蘊含的知識而神經元負責學習和推理,所生成的模型同時具備高魯棒性、高識別性能以及可解釋性.在這一概念的基礎上,Odence等[20]將受限玻爾茲曼機與符號規則相結合,為符號規則與深度神 經網絡的結合打下基礎;Tran等[21]在前人研究基礎上首次提出了從深度置信網絡(Deep belief network,DBN)中抽取和插入符號規則的算法,具有里程碑意義;劉國梁等[22]提出一種混合規則并將它與堆疊降噪自編碼器集成,但該算法計算成本高,難以適應大規模復雜問題,Hitzler等[23]在符號–神經系統的基礎上,詳細介紹語義網的神經符號研究的前景和優勢,并分析了其對深度學習的潛在場景.Bennetot等[24]提出了一種推理模型來解釋神經網絡的決策,并使用解釋從網絡原理來糾正其決策過程種的偏差.在推理模型方面:Li等[25]從功能角度將邏輯語言與神經網絡相結合,形成了一種新的學習推理模型,同時具備連接主義和符號主義的優勢.Sukhbaatar等[26]提出了記憶網絡,引入了記憶機制來解決對推理過程中間結果的存儲問題,對神經符號系統進行了進一步的探索,賦予了神經網絡符號化的結構,對后續的研究有著重要的啟發意義.Sawant等[27]在知識圖和語料庫的基礎上建立了一套推理系統,可以解釋模型中不可觀察或潛在的變量.Liang等[28]進一步引入了符號化的記憶機制,幫助神經網絡更好地完成復雜推理.Salha等[29]利用簡單的線性模型替代圖自編碼器等模型中的圖卷積網絡,簡化了模型計算.同時,Salha等[30]提出了一個通用的圖自編碼器和圖變分自編碼器的框架.該框架利用圖的簡并性概念,只從密集的節點子集中訓練模型,從而顯著提高了模型的可伸縮性和訓練速度.綜上所述,目前對傳統深度學習模型 (比如DBN或SDAE)的可解釋性研究已經初見成效,但在卷積神經網絡類網絡中,卷積等運算帶來的復雜問題在可解釋性上還有待研究.如何建立一套適用于晶圓缺陷識別的神經–符號模型是本文研究的重點.

針對晶圓缺陷識別問題的特點,基于神經與符號相結合的理念,本文采用一種基于SDAE的神經–符號模型[22],構建了基于知識的堆疊降噪自編碼器(Knowledge-based stacked denoising auto-encoder,KBSDAE),并建立了一套基于KBSDAE的晶圓表面缺陷識別系統,以達到快速、高效識別晶圓表面缺陷的目的.本文的主要貢獻包括:1)提出了全新的符號規則形式,可有效地表達SDAE的深度網絡結構,極大地減少了知識轉化過程中的信息損失;2)提出了規則抽取與插入算法,在實現知識高效轉化的同時提升SDAE 特征學習性能;3)提出了基于神經–符號系統的晶圓缺陷識別模型,既可以識別缺陷模式,也可以通過規則理解網絡內部的推理邏輯,并使得深度神 經網絡具有了可解釋性.基于SDAE的神經–符號系統成功應用在實際工業案例中且取得了較好的特征學習和識別性能,是在晶圓表面缺陷識別領域的一次新的嘗試.

1 堆疊降噪自編碼器

自編碼器由輸入層(x)、隱藏層(h)和輸出層(y)構成,是深度學習的經典模型之一[1].它通過編碼和解碼運算重構輸入數據,通過減少重構誤差為目標達到特征提取的目的.由于訓練過程中沒有利用數據標簽,而只是以輸入數據作為重構目標,屬于典型的無監督學習.

自編碼器的編碼階段在輸入層x和隱藏層h之間,具體表示為:

式中,σ是非線性激活函數Sigmoid 函數:σ(x)=1/(1+e-x),參數集合θ={w,b}.解碼階段體現在隱藏層h和輸出層y之間,表示為:

式中,σ′是非線性激活函數Sigmoid 函數,參數集合θ′={w′,b′}.

通過最小化重構誤差函數L(x,y)=‖x-y‖2來逐步地調整網絡內部的參數θ和θ′,優化方式選擇隨機梯度下降法,最優參數如下:

降噪自編碼器(Denoising auto-encoder,DAE)是基于自編碼器的一種變形,通過噪聲污染訓練輸入數據以增加網絡的魯棒性,防止過擬合[31].圖1展示了DAE的訓練過程,首先利用隨機函數以一定的概率p將原訓練數據x中的一些單元置零得到被污染的數據; 其次通過自編碼器對進行重構;最后調整網絡參數θ和θ′.DAE 相較于傳統的自編碼器具有更強的泛化能力和魯棒性.

圖1 堆疊降噪自編碼器Fig.1 Stacked denoising autoencoder

將若干個DAE 堆疊起來,就可以形成SDAE,如圖1 所示.其訓練過程首先是對逐個DAE 進行訓練,其次通過反向傳播算法微調整個網絡.相較于淺層神經網絡,層度更深的SDAE 在特征提取方面更加優秀,在處理高維數據問題上具有明顯優勢.從符號與網絡相結合的角度來看,它的網絡結構簡單并且支持將Sigmoid 作為激活函數,這兩個特性使SDAE 更容易與符號規則進行集成.

2 神經-符號規則系統

符號規則的應用不僅能夠實現對網絡的描述和解釋,還能夠提高模型性能.本節主要討論SDAE與符號規則結合建立模型的方法.如圖2 所示,該模型的建立分為3 步:1)建立并訓練標準SDAE;2)從SDAE 中抽取知識得到符號規則與分類規則;3)將符號與分類規則插入SDAE 進行深度學習.符號規則和神經網絡的集成可實現二者優勢的互補,規則可以描述網絡并表達深度網絡中的知識,而KBSDAE 可以更有效地識別晶圓缺陷.

圖2 堆疊降噪自編碼器的神經–符號模型Fig.2 Stacked denoising autoencoder based neural-symbolic model

2.1 符號規則系統

以往邏輯符號規則種類繁多,但都有同樣的缺點,即表現形式和推理邏輯單一.這一缺點導致傳統規則在描述參數龐大的深度網絡時會出現規則體積龐大、描述效率底下和難以推導并理解的問題.針對SDAE的網絡特點,本文在傳統規則的基礎上提出了一種數值和符號相結合的規則系統,解決SDAE 不能被解釋的問題.

作為一種符號語言,規則的形式對規則本身意義重大,合適的形式才能更高效表示和描述網絡.由于SDAE 包含特征提取部分的降噪自編碼器(Denoising auto-encoders,DAEs)和用于分類的分類器,雖然2 部分的形式相同,但是運行機理截然不同.為了能更精準地描述網絡,根據網絡不同部分的特性確定了不同的規則形式:置信度規則和MofN (N個先行條件中的M個為真)規則,并將它們有機地結合起來.

網絡特征提取部分由多個DAE 疊加形成,其訓練方式為逐層訓練.為了保證置信度規則能夠有效描述網絡的這一部分,置信度規則具備了以下特性[21-22]:規則本身支持逐層推導;規則節點與網絡神經元一一對應;置信值是對網絡權值進行擬合得出的;推理過程由符號和數值共同完成.這些特性賦予符號規則3 種能力:1)規則具備描述大型網絡的能力,且逐層推導的邏輯意義與DAEs 部分一致;2)符號規則的結構與網絡基本相同且元素一一對應,網絡內部的邏輯關系可以被遷移到規則上作為一種網絡內部關系的表現;3)規則可以作為深度神經網絡的一種簡化表示,具備一定的識別能力.所以符號規則的運行其實是對神經網絡行為的一種簡化模仿,而這種模仿過程是人類所能理解的.

置信度規則[21]是一個符合充要條件的等式:c:h ?x1∧···∧xn,其中c是實數類型,定義為置信值;h和xi(i∈[1,n])為假設命題.這種符號規則形式與文獻[21]的規則相似,但由于面向的網絡不同,規則符號的意義也不同.本文定義具體的置信度符號規則:

該規則被解釋為:當x1,···,xn命題成立時,h命題也成立的置信值為c,反之也成立.其中是符號規則標簽,解釋為第l 層第j個符號規則;代表DAE 中第l 個隱藏層中第j個神經元;xi(i∈[1,n])代表DAE 輸入層中第i個神經元,P和N分別代表對產生積極和消極影響的輸入層神經元集合.根據表達式可以看出,置信度規則和DAEs 具有相似的堆疊嵌套結構,這可以最大化模擬網絡結構.

SDAE的分類器層一般為單層前向全連接網絡,通過反向傳播算法進行訓練.這種經典網絡的規則模型研究較為成熟,故本文采用Towell等[32]提出的MofN 規則形式.這種規則通過對網絡權重值和偏差的歸納與總結,達到從網絡中抽取規則的目的.相較于同類型的其他規則,MofN 具備形式靈活和體積小的優點,這使得它可以適用于規模較大的網絡.分類規則的基本表達形式如下:

該規則被解釋為:如果規則的N個前層神經元中有M個被激活,那么這條規則所對應的神經元也激活.為了使MofN 規則與置信度規則更加契合,使用式(5)的泛化形式:

式中,NumTrue代表神經元激活的數量;A代表一類前層神經元的集合,w代表一類連接的權重值,類別通過對權重值聚類得到;bias代表目標神經元的偏置值;C表示具體的類標簽.

上述2 種規則的有機結合形成了一套規則體系(Confidence &MofN rule,CM-R)[22],具備以下優點:規則本身具備分層特性,可進行逐層抽取和推導,與SDAE的堆疊邏輯相通;規則根據網絡不同部分的不同特性有針對的進行設計,極大地減少了抽取過程中的信息損失;這兩種規則的集成使CM-R 在處理復雜數據時也具有較高準確度.

CM-R 可逐層推理的特性是其能夠適配SDAE的根本原因,也是置信度規則和MofN 規則可以集成的根本因素,所以規則層與層之間的推理方法是極為重要的.本文根據將規則的數值特性和符號特性相結合,提出了一套適用于CM-R的推理算法(Rule inference,Rule-INF)[22].Rule-INF 以符號結構作為規則層內推導依據,以數值作為層與層之間的聯系,將整個CM-R 聯系了起來,使之成為一個完整的規則系統.這一算法最大特點是通過對置信值的推導使規則突破了離散二值的限制,可以被用來推導連續數據.算法細節如下所示,首先將初始化后的數據輸入置信度規則中進行逐層推導,其中上層規則推導輸出的信任值(B)可作為下層規則的輸入數據;其次將頂層置信度規則輸出的信任值調整為布爾向量;最終利用MofN 規則根據調整后的信任值(1 表示真、0 表示假)確定數據類別.

算法1.Rule-INF

2.2 知識抽取

本節將呈現從SDAE 模型中抽取規則.由于符號規則CM-R 是知識的載體,故知識抽取也叫規則抽取.CM-R 包含置信度規則和MofN規則,分別對應SDAE 中的DAE 和分類器部分,下面對2 種規則進行討論.

置信度規則面向特征提取部分[21]有逐層無監督訓練和多個DAE 堆疊而成2 個特點.為了使知識抽取過程更加符合網絡的訓練邏輯,引入了逐層抽取的概念,即在自監督訓練過程中對每一個DAE單獨抽取規則.規則抽取原理是將置信值cjsj最大化擬合權重值wj,并利用符號解釋網絡結構.根據DAE 基本原理,其輸入數據x到隱含表示h的映射表示為:

式中,σ表示激活函數Sigmoid,b表示偏置值.根據式(7),本文提出新的函數,可將數據x映射到隱藏層空間中:

算法2.置信度符號規則抽取.

根據上述分析,從DAEs 中抽取置信度符號規則的置信度符號規則抽取(Confidence rule extraction,Confidence-RE)如算法2 所示.該算法面向單個DAE,所以只需根據網絡將其迭代運行,抽取出完整且具有堆疊特性的置信度規則集[22].

MofN 規則[25]面向SDAE的分類器部分,本文僅討論以單層神經元為分類器的網絡,后文用分類層表述這一單層神經網絡.在進行規則抽取之前首先要對網絡的微調過程進行假設:分類層和隱藏層HN(如圖1 所示)只具備激活(輸出值接近1)和不激活(輸出值接近0)兩種輸出狀態.這一假設使得分類器相關的神經元具備布爾特性,把規則抽取問題轉化成了神經元是否激活的規律性問題.

為了符合上述假設,將邏輯回歸函數作為激活函數對網絡進行微調.分類層的微調原理為:

式中,Cj表示分類層中第j個神經元,邏輯回歸函數σ表示為:

由式(12)和式(13)可知,當神經元的加權輸入值大于偏置值時,其輸出值接近1,反之則接近0.這與假設相匹配.MofN的規則抽取過程可以看作是搜索使分類層神經元激活的條件情況.

分類器部分神經元的輸出值被簡化成了0 或1,使得神經元的輸入被簡化成只與權重值有關,式(12)可簡化為:

這一簡化使規則抽取只需關注分類層神經元的連入權重和自身的偏置,顯著降低規則和算法復雜度.

MofN 規則抽取算法分為4 步:1)通過K均值將分類層神經元的連入權重值聚類并將組內成員的權重值重置為組標簽;2)對神經元影響不大的權重類刪除(歸零);3)固定權重值,通過反向傳播算法重新對神經元偏置進行優化;4)對每一個分類層神經元形成一條規則,其中神經元偏置作為閾值,權值連接的HN層神經元作為先驗元素.

2.3 知識插入

在獲得有效知識之后,進一步討論如何將規則所代表的知識插入到網絡當中,以達到提升網絡特征學習的目的.知識插入網絡的過程一般為利用規則對深度網絡進行初始化,這極大程度地決定著網絡模型的性能[17].在知識插入作用下,深度網絡的初始化和訓練將更加容易且有效[22].在網絡的初始階段就賦予一定的知識,可以提高網絡學習性能并降低對數據的依賴程度.

在特征提取部分,置信度規則被用于初始化網絡并幫助網絡訓練.置信度規則的符號邏輯被用于初始化DAE 網絡結構;置信值被用于初始化DAE中的權重值.如圖3 所示,利用一個簡單的規則作為例子描述了置信度規則初始化DAE的過程[22].

圖3 置信度規則初始化網絡過程示意圖Fig.3 The process of network initialization base on confidence rule

在DAE 被初始化之后,對其進行自監督訓練過程中,為了保證知識能夠保存在網絡中而不會隨著訓練的進行而失效,選擇置信度較高的規則進行權值參數凍結處理.通過這種方法既可以保證知識的有效插入,也可以保證模型的魯棒性.特征提取部分具體知識插入過程如下所示:

步驟1.建立一個DAE,對每一個規則cj:hj ?x1∧···∧xn,hj和x1∧···∧xn分別對應目標網絡DAE的隱藏層神經元以及輸入層神經元集.

步驟2.確定在hj與x1,···,xn之間的連接權重scj.如果輸入神經元對應規則中的激活元素,那么s=1,反之則s=-1. 其余的與hj沒有關聯以及隱藏層與輸出層之間的連接權重設為較小的隨機值.神經元偏差設為隨機值.

步驟3.采用反向傳播算法訓練網絡,其中部分被規則初始化的連接權重不被更新.為了保證插入的規則在訓練過程中與網絡較好嵌合,利用隨機數對隱藏層神經元輸出進行二值化處理:隨機生成一個數值在0~1的隨機數R,如果hj >R那么hj=1,反之則hj=0.

步驟4.對每一個DAE 重復步驟1~3 進行訓練,直到所有堆疊的DAEs 訓練完成.

分類器部分僅由單層神經元構成,所以這部分的初始化可以簡化成如何將規則插入單層前向神經網絡問題.由于MofN 規則[17,22]包含數和符號兩部分,故分類器的知識插入過程可以具體化為利用MofN規則初始化單層前向神經網絡的過程.

初始化過程的主要任務是確定分類層神經元的連入權重值和偏置值.如圖4 所示,對一個簡單的MofN 規則:

首先利用其中的符號確定網絡的整體結構,其次利用w和b分別確定第i個分類層神經元的連入權重值和偏置,最后添加規則中沒有提到的關系并將這些權重值設為極小的隨機數,這一過程從SDAE的角度來看是對分類器C以及隱藏層HN部分的初始化,圖4 為了簡潔表示省略了大部分連接線.隨著進一步的研究發現,將規則過多的插入分類器中反而會使網絡性能降低,這是由于網絡參數被過度初始化從而使魯棒性降低所導致的.經過理論[32]和試驗對比,最終確定MofN 規則的插入比率為1/4,其中篩選過程完全隨機.

圖4 MofN 規則初始化網絡過程示意圖Fig.4 The process of network initialization based on MofN rules

2.4 KBSDAE 訓練

通過規則插入,KBSDAE的結構參數被確定完成,然后對網絡進行進一步訓練,使其具有更好的性能.KBSDAE的訓練過程首先是進行逐個DAE的無監督訓練,之后進行網絡微調,但過程中的參數更新策略不同.在自監督訓練階段,選擇將置信度關系高的參數進行凍結處理,在訓練過程中盡可能保護知識不被改變;在微調階段,被MofN 規則確定參數在更新過程中加入了抑制系數L,改變了這一部分參數的學習率ηr=η·L.通過上述訓練策略,可以在知識插入效率和網絡性能之間尋找到平衡點,使得網絡的性能被最大化提高.

在訓練過程中,KBSDAE的規則抽取和插入的乘-加操作為11.02 KB.這一過程消耗了一定的計算量,但同時也加快了KBSDAE的收斂速度,大幅減少了KBSDAE的訓練耗時.相同條件下(訓練數據18 000 個樣本),即使加上規則抽取與插入的時間成本,KBSDAE 訓練至收斂的平均訓練時間僅是SDAE的1.2 倍,并且這個差距會隨著數據量的增大而減小.在預測過程中,KBSDAE 對每一例數據的乘-加操作為4.41 KB,內存占用為8.33 KB.對比深度神經網絡(如GoogleNet[33])計算量更少并且內存占用量也更小,更適合工業過程的線上識別環境.

與SDAE 相比,KBSDAE 具有以下優點:模型通過數據和規則兩種方式進行學習,降低了深度網絡對數據的依賴性,這在工業領域是具有重要意義的;初始化后的網絡本身具備更合理的結構參數,使模型具備更高的識別精度和更快的收斂速度[34].綜上所述,KBSDAE 更適合晶圓缺陷識別領域.

3 晶圓缺陷探測與識別系統

本文提出的基于KBSDAE 晶圓缺陷識別方案如圖5 所示.整個探測識別分為離線建模和在線探測2 個部分.離線建模方面,首先對數據庫中已有的晶圓圖進行降噪處理突出晶圓的模式特征,其次提取圖像的幾何、灰度、紋理等特征,最后通過神經–符號系統建立缺陷探測與識別系統.該系統第1步是通過正常特征數據建立基于KBSDAE的監控控制圖,用于晶圓缺陷探測;第2 步是通過缺陷特征數據構建KBSDAE 模型,用于晶圓缺陷識別.

圖5 基于KBSDAE的晶圓表面缺陷識別系統Fig.5 Wafer surface defect recognition system based on KBSDAE

3.1 圖像濾噪與特征產生

晶圓圖像通常參雜各種噪聲,直接使用往往不能達到預期效果,故首先采用非線性空域濾噪技術[35]對晶圓圖進行濾噪處理.非線性空域濾噪法是直接處理圖像像素的一種濾噪方法,本文利用像素領域內灰度值的中值代替該像素的值.

從晶圓圖中直接提取有效特征可在保證模型精度的同時大大降低計算復雜度,對本系統具有實際意義.因此,本文從幾何、灰度、紋理、投影4 個方面進行特征提取,其中幾何特征用于描述形狀和大小,其余特征用于描述灰度特征,具體特征集列表如表1 所示.總特征維度51 維,其中幾何特征18 維,投影特征24 維,其余特征包括重心坐標、對比度等共9 維.盡管提取了有效特征,但該特征集仍具有較高維度,并且包含很多噪音,不適合直接輸入歸類器進行分類識別.因此,本文采用KBSDAE 進行進一步的特征學習及分類識別.

表1 晶圓圖像特征集Table 1 Wafer map feature set

從晶圓中進行特征產生有以下3 個優點:1)以低維的原始特征集代替高維的圖像將使得深度網絡模型結構更加簡單有效;2)將圖像的像素特征轉換為簡單的特征等可以更好地簡化規則,然后提升深度網絡模型的可解釋性;3)規則關聯可理解的物理特征而不是像素特征將提高規則的可理解性與有效性.

3.2 晶圓缺陷探測與識別系統構建

整個晶圓缺陷識別過程分兩步走,首先進行缺陷探測,其次進行缺陷識別.缺陷探測的主要目的是區分正常和存在缺陷的晶圓.缺陷識別的主要目的是識別晶圓缺陷的具體類別.將缺陷探測和識別分解為2 個問題:1)兩分類可以有效提高故障探測性能;2)九分類問題轉換為八分類問題,更少的分類可有效提高深度網絡模型的缺陷識別性能.

本文缺陷探測模型如圖6 上半部分所示,主要包含基于KBDAE的控制圖與KBDAE 識別器兩部分.具體建模過程為:首先利用部分數據建立并訓練標準DAEs 并利用Confidence-RE 算法抽取置信度規則,其次利用規則初始化基于知識的降噪自編碼器(Knowledge-based DAEs,KBDAEs)并用另一部分數據進行訓練,最后將KBDAEs 輸出的特征數據作為控制變量建立控制圖,設定控制圖信任限為99.73% (3σ合格率),制造過程狀態檢測指標為在線抽取向量特征與在控過程特征的歐氏距離D:

圖6 晶圓缺陷探測與識別流程Fig.6 The process of defect detecting and identifying on wafer

控制圖可以在保證制造過程異常探測性能的同時,實現制造過程狀態的可視化,是生產過程中有效的質量檢測工具.

晶圓缺陷識別模型的建立過程如圖6 下半部分所示,首先利用部分數據建立SDAE 模型并通過規則抽取算法得到規則集CM-R,其次利用CM-R 構建KBSDAE 并用另一部分數據訓練.通過上述方法可得到一個可以被分析且具有高識別性能的SDAE模型.

4 晶圓缺陷探測與識別系統

WM-811K[36]的圖像數據來自實際半導體生產線.根據晶圓圖中像素位置的掃描值,分別對正常、缺陷和空元素使用青色、品紅和白色進行標注.WM-811K 數據集包含8 個缺陷模式(Center、Edge-ring、Edge-local、Random、Local、Scratch、Near-full、Donut)和None-pattern,如圖7 所示.數據集分為訓練集和測試集,分別用于構建模型和測試模型的性能.用于進行故障檢測和識別的晶圓片映射的詳細信息如圖8 所示.很明顯,WM-811K 數據集存在類不平衡,這將給KBSDAE帶來挑戰.

圖7 正常模式與8 種缺陷模式的晶圓圖Fig.7 Normal pattern and eight defect patterns of wafer

圖8 WM-811K 中晶圓圖數據構成Fig.8 Data Structure of wafer map in WM-811K

4.1 晶圓表面缺陷探測

在缺陷探測系統中,首先利用基于KBSDAE的監控圖檢測晶圓缺陷.使用所有數據的60%作為訓練集來構建KBSDAE (其中20%數據用來建立標準SDAE,其他數據用來訓練KBSDAE),10%的數據作為測試集來執行缺陷檢測.為了體現KBSDAE的優越性,增加了基于原始數據和SDAE的控制圖結果進行對比.基于原始數據、SDAE 和KBSDAE的監控圖分別如圖9~11 所示,其中閾值設置為99.73%,在假報率和漏報率之間取得較好的權衡.對比3 個控制圖可以發現KBSDAE 控制圖的表現明顯優于基于原始數據和SDAE的控制圖.由圖11可以看出,監控圖幾乎檢測到了所有的缺陷,并且不會觸發太多的虛警(虛警率為0.05%).結果表明,該監測圖對晶圓圖缺陷的在線檢測是有效的.

圖9 基于原始數據的控制圖Fig.9 Control chart based on raw data

圖10 基于SDAE 提取特征的控制圖Fig.10 Control chart based on feature extracted by SDAE

圖11 基于KBSDAE 提取特征的控制圖Fig.11 Control chart based on feature extracted by KBSDAE

圖9~11 給出了基于原始數據、SDAE 和KBSDAE 控制圖的缺陷模式檢出率.表2 給出了3 種控制圖的缺陷探測率.KBSDAE 控制圖的檢出率明顯高于其他2 種圖,并且不會出現對個別缺陷完全不能識別的問題.KBSDAE 控制圖可以檢測出93.52%的缺陷晶圓圖,可滿足工業應用的要求.雖然SDAE 輸出特征對比原始數據更加有效,但控制圖對個別缺陷類完全無法探測.但是,KBSDAE對幾乎所有缺陷類可以進行有效的探測,其缺陷探測顯著優于SDAE.KBSDAE 提取的特征可以極大地提升控制圖的缺陷探測性能.同時,KBSDAE可以更好地處理類不平衡數據,這是由于知識插入顯著地提高了其特征學習性能.

表2 3 種控制圖的缺陷探測率 (%)Table 2 Defect detection capabilities of three control charts (%)

4.2 規則有效性驗證

訓練SDAE 并從容中抽取規則,從規則的可理解性、準確度、信息保真度方面進行有效性驗證.本節從訓練數據(僅有故障數據)中隨機選取4 000 例數據訓練標準SDAE 網絡,網絡由2 層DAE 和全連接分類層堆疊而成,結構為51-60-15-8.

將表3 和表4的規則結合起來,就可以形成一套CM-R 規則.從表現形式和代表意義上可以得出,這套規則有效地描述了SDAE 網絡內部結構,達到了對深度網絡進行知識抽取和網絡結構解釋的目的.通過CM-R的表示,神經網絡中的運算邏輯可被以一種簡單有效的方式進行表達.通過對CMR的推理,規則集可以作為一個簡單的分類器,并且具備“白盒”模型的特性.可以通過對規則集的推導,了解深度網絡內部分類機制,也可量化輸入特征的重要程度.

表3 部分置信度符號規則Table 3 Part of Confidence Rule

表4 部分MofN 規則Table 4 Part of MofN Rule

可將規則集看作一種分類器,利用1 000 例測試數據分別對CM-R 和SDAE 進行準確率測試,其中CM-R的準確率為73.96%,SDAE的準確率為88.67%.從測試結果可以看出規則和網絡之間存在差距,這是因為規則在提取過程中會出現信息損失現象.為了驗證這種信息損失對CM-R的影響,對比了規則和對應標準網絡在相同測試數據下的推導精度.首先,利用不同訓練數據分別訓練20 個標準雙層DAE 網絡并從中抽取規則.其次,對20 個SDAE 模型分別用20 例不同的測試數據進行測試,結果如圖12 所示.圖12 橫坐標表示標準網絡在測試集上的預測精度,縱坐標表示規則在測試集上的推導精度,線代表網絡和規則測試精度相同的基準線,每個點代表一組模型(一個標注SDAE+從中抽取的CM-R)的測試結果.可以看出,大部分點都在基準線附近,證明了整套規則算法的有效性;近乎所有點都在線下方,證明信息損失是存在的2 張圖結果點較為密集,證明模型具有較識別高穩定性,即便訓練數據量發生變化,規則精度也不會發生突變.結果表明CM-R 規則具有較好的保真度[37].盡管CM-R 規則具有一定的信息損失,但是依然有效地提高了KBSDAE的特征學習性能.

圖12 SDAE 和相應的符號規則的晶圓表面缺陷識別率對比Fig.12 Comparison of wafer defect recognition rates between SDAE and corresponding rules

4.3 KBSDAE 訓練過程分析

知識插入不僅使KBSDAE的初始化具備了一定的模式識別能力,而且將有效地提升KBSDAE的無監督訓練學習和有監督的微調學習.為了驗證知識插入網絡是否可以為缺陷識別帶來積極影響,首先利用規則初始化網絡,并利用余下訓練數據(僅包含缺陷數據)訓練KBSDAE,其次利用訓練數據訓練了規模相同的SDAE.為分析兩種網絡的表現,記錄了模型在無監督訓練和微調階段的均方誤差變化.由圖13 可以看出,不管是在無監督訓練還是在微調階段,KBSDAE的均方誤差相較于SDAE 都具有更快的收斂速度和更低的收斂區間.這證明了利用知識初始化網絡所帶來的積極影響,也進一步證明了本文提出方法的有效性.

圖13 KBSDAE 和SDAE 訓練過程的均方誤差變化對比Fig.13 Comparison of mean square errors of KBSDAE and SDAE training processes

表5 進一步給出了KBSDAE 在測試數據上的識別結果混淆矩陣.這個矩陣中的對角線元素是每個缺陷模式的識別率(總體準確率為91.2%).由表5 可以看出,大部分錯誤來自于對局部(Local)、劃痕缺陷(Scratch)和近滿(Near-full)的錯誤識別,其中Local 和Scratch 出現誤判是由于它們本身的類別特征具有相似性導致容易混淆.Near-full 則是因為數據極少導致模型對該類的學習不足,但在提取規則幫助下,它被準確識別準確率達到了84%.圖14是被誤判的Local 和邊緣局部(Edge-local)的晶圓圖,它們之間存在共性,故鑒定邊界模糊容易混淆.一般情況下,可以接受這些錯誤分類的結果,因為這些晶圓圖可能同時具備一種以上模式特性.上述結果表明,KBSDAE 在面對類不平衡數據也能對各類進行有效分類,其主要原因是規則插入提高了KBSDAE的特征提取能力,減少了數據類不平衡對網絡的影響.

圖14 Local 和Edge-local 模式的晶圓圖Fig.14 Wafer maps in Local and Edge-local patterns

表5 基于 KBSDAE的晶圓缺陷識別率Table 5 Recognition rates of defects in wafers based on KBSDAE

為進一步驗證知識插入深度網絡的優化效果,對比了KBSDAE 和SDAE 在不進行微調和只進行幾步微調后的測試精度.利用相同數據分別建立了結構和訓練參數相同的SDAE 和KBSDAE,網絡的2 個訓練階段的學習率分別為0.05 和1,DAE訓練階段噪聲率為0.05.測試結果如圖15 所示,可以看出,KBSDAE 在不進行微調的情況下仍具有一定的識別能力,與SDAE 相比提升明顯.這進一步證明了利用規則插入網絡可以進一步提升SDAE的特征學習性能.而經過前幾步微調后的KBSDAE測試精度普遍高于SDAE,這證明了將知識代入網絡可以顯著提高網絡的分類性能.

圖15 不同微調訓練步數的SDAE 與KBSDAE 分類性能比較Fig.15 Comparison of classification performances between SDAE and KBSDAE with different fine-tuning steps

4.4 超參數敏感性分析

對于KBSDAE,網絡結構、規則的插入規模等參數對其判別特征提取的有效性有顯著影響.為檢驗重要參數對網絡識別性能的影響程度,對網絡進行參數敏感性分析.敏感性分析是通過在一定范圍內改變這些參數來實現的.由表6 可知,KBSDAE的性能隨著隱藏層數的增加而提高,規則過多并不能提高KBSDAE的性能.其中,采用前1/3 置信度規則和1/2 分類規則構造雙層KBSDAE 時,晶圓缺陷識別效果最好.

表6 結構規則超參數敏感性分析Table 6 Model hyperparameter sensitivity analysis

為了檢驗網絡模型對數據的敏感度,對比了在不同訓練數據量下KBSDAE 和SDAE的識別精度.利用相同訓練數據分別訓練SDAE 和KBSDAE,訓練數據量從20 開始逐漸遞增.訓練后的網絡利用1 000 個測試數據進行識別性能測試.結果如圖16所示,即使在訓練數據量很小的情況下,KBSDAE依舊具有高識別精度,這是由于知識代入網絡的結果.并且隨著訓練數據量的增加,KBSDAE 識別精度也穩定高于標準SDAE.試驗結果證明KBSDAE相較于SDAE 具有更高的數據敏感度,在缺乏訓練數據的情況下依舊可以保持較高的識別精度,這在工業應用方面是很大的提升.

圖16 不同訓練數據量下的KBSDAE 與 SDAE識別性能比較Fig.16 Comparison of classification performances between KBSDAE and SDAE with different training data volumes

4.5 結果比較

將KBSDAE 在WM-811K 和相關仿真數據上的分類結果與其他典型分類器進行了比較.這些經典分類器包括DBN、堆疊自編碼器、堆疊稀疏自編碼器(Stacked sparse auto-encoder,SSAE)、SDAE、BP 神經網絡(Back propagation neural network,BPNN)、基于KBANN的符號神經系統(Neurosymbolic system for KBANN,INSS-KBANN)[38]、密集連接的卷積網絡(Densely connected convolutional network,DenseNet)[39]、殘差神經網絡(Residual network,ResNet)[40]、谷歌網絡(Google inception net,GoogleNet)[33]、支持向量機–高斯核函數(Support vector machine with Gaussian kernel,SVMG),網絡–符號的模型為符號–深度置信網絡(Symbolic-Deep belief network,SYM-DBN)[34]、局部與非局部聯合線性判別分析(Local and nonlocal preserving projection,JLNDA)[41].為了更加全面地測試KBSDAE的性能,在本節試驗中加入仿真數據[42],這種數據被經常應用于驗證模型有效性,是根據晶圓故障的特性生成的帶有噪聲的數據,同樣的也具備類不平衡的缺陷.圖17 展示了仿真數據的組成結構.DBN 和SYM-DBN的網絡結構為51-60-15-8,受限玻爾茲曼機階段的學習率和動量分別為0.5 和0,微調階段學習率為2;SDAE 和SSAE的網絡結構為51-60-15-8,學習率和動量分別為1 和0.5;INSS-KBANN的網絡結構為51-60-15-8,學習率和動量分別為2 和0.1;BPNN的網絡結構為51-60-15-8,學習率和動量分別為2 和0.1;DenseNet、ResNet 和GoogleNet 都是直接識別圖像的卷積神經網絡模型,所以直接利用晶圓圖像數據進行訓練和測試.

圖17 仿真數據集中晶圓圖構成示意圖Fig.17 Data structure of wafer map in simulation dataset

對上述模型分別進行五折交叉試驗,結果如表7所示.相較于傳統分類器,KBSDAE 在晶圓缺陷識別上具有顯著好的性能.與直接識別圖片的卷積神經網絡模型相比,KBSDAE的缺陷識別率更高且網絡規模更小.這是因為KBSDAE 利用特征數據進行學習,也說明了特征產生為 網絡帶來了一定的優勢.符號–神經模型(INSS-KBANN、SYM-DBN)相比原網絡模型(BPNN、DBN)識別效果更好,但需要更多時間進行知識提取與插入.而KBSDAE仍然顯示更好的特征學習性能.KBSDAE 在2 種數據集上的優異表現,也更加充分地證明了其特征學習與識別能力的優越性.

表7 各種學習模型的晶圓缺陷識別率 (%)Table 7 Wafer defect recognition rates for various learning models (%)

5 結束語

由于實際制造工況的復雜性,如何解決深度神經網絡在應用過程中出現的不可解釋和依賴數據源的問題是晶圓缺陷識別領域迫切需要解決的問題.本文提出了一種基于SDAE的神經–符號模型.針對SDAE 設計了適配的符號規則形式,同時提出了適用于網絡和規則的知識轉化算法.建立了一套基于KBSDAE的晶圓表面缺陷識別系統,可有效地探測與識別晶圓缺陷模式.試驗結果表明,在利用晶圓數據建模的過程中不僅規則可有效描述網絡表述知識,而且插入知識的網絡同時具備高識別性能.在未來研究中,將繼續探索神經–符號系統,嘗試更復雜深度網絡模型(比如卷積神經網絡),提高模型性能和可解釋性.

猜你喜歡
置信度神經元符號
置信度輔助特征增強的視差估計網絡
一種基于定位置信度預測的二階段目標檢測方法
硼鋁復合材料硼含量置信度臨界安全分析研究
學符號,比多少
“+”“-”符號的由來
正負關聯規則兩級置信度閾值設置方法
躍動的神經元——波蘭Brain Embassy聯合辦公
ERK1/2介導姜黃素抑制STS誘導神經元毒性損傷的作用
毫米波導引頭預定回路改進單神經元控制
草繩和奇怪的符號
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合