基于圖卷積的云制造服務編碼算法

2024-02-06 03:47譚文安

河南科技大學學報(自然科學版) 2024年1期

朱海,譚文安,2,郭凱

(1.南京航空航天大學計算機科學與技術學院,江蘇南京 211106;2.上海第二工業大學計算機與信息工程學院,上海 201209;3.河南科技大學管理學院,河南洛陽 471023;4.河南省有色金屬協同創新中心,河南洛陽 471023)

0 引言

隨著云計算技術的發展,很多制造企業開始服務化轉型。制造企業將企業的制造資源和制造能力進行虛擬化和服務化,并接入到云制造管理平臺,由其進行集中統一的智能化管理和運營[1]。云制造模式根據用戶特定需求,將處在不同位置、不同企業的服務進行選擇、組合,為用戶提供各類按需制造服務。如何在大量功能相似、服務質量相近的云制造服務中檢索并選擇合適的服務,已成為云制造平臺亟待解決的難題[2-3]。

在現實場景中,大量制造業務不僅考慮服務個體性能等指標,更多需要考慮服務間的協同信任關系等社會因素[4]。良好的協同與合作信任關系有助于在企業間建立穩定的業務合作、提高生產投入、促進制造能力提升[5]。云制造過程中服務組合、協同關系、服務質量之間的相互作用,有效提高了服務質量和創新能力。因此,任務間協同能力也必須是服務選擇的重要指標[6]。

在云制造等大數據場景下,對海量數據進行準確、快速檢索時,基于哈希的檢索方法被越來越多的學者所關注[7]。哈希檢索方法也逐漸變成比較流行的目標檢索方法之一。為了提高監督方法的性能,文獻[8]提出了一種基于內核的監督哈希模型,使用核函數解決了線性不可分問題,極大提升了目標檢索準確率[8]。為了加快哈希算法的運行速度,提高數據處理規模,文獻[9]提出了一種新的基于學習的快速監督哈希離散算法,通過一個單一哈希碼求解步驟,提高了算法的效率?？紤]到實現圖像類別標簽信息完全獲取的困難性,為了降低數據標記帶來的高昂成本,半監督哈希方法僅使用部分標簽信息對模型進行訓練[10-11]。通過對多視圖哈希模型的研究,文獻[12]選擇將部分標簽信息融入模型訓練過程,提出了一種半監督多視圖哈希模型[12]。無監督哈希方法避免了對樣本標注標簽的行為,利用發現數據內在聯系的方法保持數據原有的結構特征,以達到訓練哈希函數的目的[13]。與有監督方法一樣,無監督方法也經常用于執行圖像檢索任務[14]。文獻[15]以無監督的方式學習二進制哈希碼,設計了一種高效的生成對抗框架,實驗表明其與有監督的哈希方法的性能不相上下。為提高相似性搜索的效率,文獻[16]通過使用偽標簽將無監督的深度哈希轉換為有監督模型,從而構建了一種無監督框架,并通過實驗驗證了該模型在性能上的有效性[16]。

云制造服務進行協同制造時,協同關系對服務選擇也有著至關重要的作用,當前方法無法同時處理服務特征和協同關系兩種數據。圖卷積神經網絡方法利用鄰居節點聚合,同時提取節點特征和邊特征,是解決該問題的重要途徑。此外,針對圖數據關聯關系的學習和提取,圖卷積網絡表現出具有與其它神經網絡結合更高效、更方便的特點[17]。近幾年,其在節點預測、信息檢索等方面得到了越來越廣泛的應用[18-21]。文獻[22]利用譜圖卷積的局部一階近似構建了圖卷積神經網絡(graph convolutional neural networks,GCN),提出了基于圖卷積網絡的半監督學習方法,避免模型僅依賴于單一圖結構問題[22]。為了克服模型因淺層架構造成的局限性,文獻[23]對圖卷積網絡模型展開了深入研究,提出了圖卷積網絡的聯合訓練和自訓練方法[23]。針對基于圖的半監督學習方法性能局限這一問題,文獻[24]提出了一種新的基于圖卷積網絡的半監督學習方法,該方法利用數據相似性和圖結構獲得低維表示以提高方法的性能。

針對上述挑戰,本文提出了一種基于圖卷積的云制造服務編碼檢索算法,針對服務選擇過程中僅考慮服務質量(quality of service,QoS)屬性,從服務間協同關系角度研究云服務初選任務。算法根據編碼相似度獲取服務候選集,為后續服務組合提供候選服務候選集。算法利用圖卷積網絡和深度哈希編碼技術,構建了一個端到端的深度網絡框架,面向云制造服務協同提出一種制造服務哈希檢索(manufacturing services hashing,MSH)算法,并在2個仿真數據集上進行實驗,分析了所提算法的有效性。該方法考慮QoS屬性為服務選擇的基礎,對服務關系特征中存在的重要信息進行挖掘,以聯合學習QoS屬性特征和服務關系特征的方式,構建了服務網絡圖,以解決服務選擇過程中社會屬性缺失問題。

1 MSH算法

不同的制造服務具有不同的QoS屬性、合作關系、任務調度等復雜特征,這些會對服務質量和性能造成不確定的影響。服務平臺進行服務組合或服務重調度時,面對海量制造服務,對平臺上全部服務進行檢索需要消耗巨大的資源。因此,需要根據目標服務或需求生成候選集以縮小計算量。

1.1 服務特征的圖表示

為了解決面向協同的制造服務編碼問題,本文建立的制造服務圖的定義如下:

定義1 制造服務提供者。記當前平臺中的服務提供者為集合E={E1,E2,…,Em},其中:有m個制造服務提供者;Ei為第i個制造服務提供者。

定義2 制造服務。制造服務企業能夠為外部提供的、具有獨立功能且不可分割的制造業務,在日常過程中,制造服務可以與企業內外部的服務進行合并,形成1個獨立的服務功能。

定義3 制造服務協同關系。即制造服務間所有制造服務協同關系的簡稱,當兩個服務si與sj有協同關系,則定義eij=(si,sj)表示服務間協同關系。根據具體任務,可對其定義不同的連接關系和權重。

定義4 圖(Graph),給定無向圖G=(V,E,X),其由服務節點集合V={v1,v2,…,vN}、服務協同關系邊集合E?V×V和服務特征集合X構成。節點數量N=|V|;邊eij=(vi,vj)∈E表示節點vi與vj具有連接關系;矩陣X={x1,x2,…,xN},其中,xi表示第i個節點的特征向量。

定義5 鄰接矩陣。令A表示圖G的鄰接矩陣,如果節點xi、xj之間存在連接關系,則Aij=1,否則Aij=0,對于無向圖有Aij=Aji。令D表示圖G的度矩陣,其為對角矩陣,且對角線上的元素表示各個頂點的度。頂點vi的度表示和該頂點相關聯的邊的數量,即Dii=d(vi)。

定義6 圖哈希編碼。定義圖哈希編碼器H為云制造服務圖到哈希編碼的映射。即H:G→hash∈{-1,1}N×K,定義服務Si的哈希編碼為hashi。

定義7 距離。指不同服務的相似度Sim,利用服務的哈希編碼距離Dist對其進行度量。對于?sm,sn,starget∈S,假設Sim(sm,starget)

1.2 基于圖卷積的服務編碼神經網絡

為了生成服務特征的中間表示,本文設計了服務編碼的神經網絡,首先構造了1個圖卷積層φ:G→u∈RN×d;然后定義哈希層ω:u→hash∈{0,1}N×K,以學習二進制的哈希編碼,神經網絡框架圖如圖1示。

圖1 基于圖卷積的服務編碼神經網絡框架

該神經網絡定義了一個參數化的非線性映射,將包含拓撲結構和節點特征的圖節點vi映射為哈希編碼hashi,其中拓撲結構和節點特征分別表示服務制造中的服務間合作關系與制造服務屬性。圖卷積網絡φ的參數Γφ和哈希層ω的參數Γω為可學習的參數,通過神經網絡的反向傳播學習。

1.2.1 圖卷積層

如圖1所示,圖卷積層φ包含2層圖卷積神經網絡,它以圖G為輸入,輸出節點中間向量u。其中圖G中的服務特性X和服務關系A通過GCN獲取其整體的低維表示。對于單層GCN,其逐層傳播規則如下:

H(l+1)=GCN(H(l),A)=σ(AH(l)W(l)),

(1)

其中:W為神經網絡的權重參數,通過神經網絡的損失反向傳播自動學習;σ為神經網絡的激活函數。

圖卷積層φ可以表示為:

φ(H,A)=σ(Aσ(AXW(1))W(2))。

(2)

1.2.2 哈希編碼層

哈希編碼層連接圖卷積層,接收節點中間向量u前向傳播,以生成節點的二進制哈希碼。如圖2所示,利用2層全連接神經網絡(fully convolutional networks,FCN)構建哈希編碼層,對于給節點v的中間表示ui,采用全連接層FCN將ui轉換為K維嵌入向量zi∈K:

圖2 算法在MSGDs-06數據集上的性能與損失

FCN(ui)=σ(WTui+b)。

(3)

所以,

(4)

為了將生成的嵌入表示轉換為二進制哈希碼,本文設置激活函數σ為tanh函數,即z∈[-1,1]。在此之后,為了將生成嵌入向量z表示為精確的二進制哈希碼,選擇符號函數將連續的K維向量zi轉換為hashi∈{1,-1}K,即:

(5)

1.2.3 損失函數

給定上述定義的圖編碼器和哈希層,圖卷積網絡φ的參數Γφ和哈希層ω的參數Γω需要通過反向傳播學習。在后面的工作中,目標是學習從圖G到K維二進制編碼的映射,在模型學習過程中采用半監督學習的方式,故利用部分有類標簽的數據對網絡進行學習。相似服務的哈希碼之間的距離應盡可能接近,而不相似服務其哈希碼之間的距離應遠離?；谠撃繕嗽O計損失函數。

首先定義

(6)

其中:hm,hn分別為服務m,n的哈希碼;t為服務相似的布爾值。為了能夠在神經網絡中通過梯度下降訓練模型,需要將對二元實值網絡進行松弛。為此,本文將Dist(hm,htarget)中的漢明距離替換為歐氏距離,則式(6)更新為:

(7)

其中:α為超參數;r為正則化器,公式化的表達為:

(8)

根據式(6)～式(8),可得到目標損失函數為:

(9)

1.3 算法描述

在實際工作中,訓練過程對于模型的優化至關重要。本文提出的MSH算法將服務特征X和服務關系鄰接矩陣A同時放入神經網絡,有效提取了面向協同制造的云服務特征,通過合理設置的損失函數對網絡模型進行優化,實現了有效的服務編碼。訓練優化過程如表1所示。

表1 訓練優化過程

2 實驗結果與分析

當前在云制造服務選擇研究中,實驗多采用小批量真實數據或仿真數據進行驗證,面向大數據的研究數據較為匱乏。為了評估所提出算法的性能,實驗將提出的MSH算法與一些基線算法如深度Fisher哈希(deep fisher hashing,DFH)算法、中心相似度量化(central similarity quantization,CSQ)算法進行對比分析。其中,CSQ利用中心相似性量化方法優化數據點之間的中心相似性;DFH算法采用卷積神經網絡(convolutional neural network,CNN)直接學習編碼,并用正則化方法將編碼進行約束。由于DFH、CSQ模型不支持圖數據,實驗中僅輸入節點特征數據。本節通過制造服務仿真程序模擬現實云制造場景來創建實驗數據集,命名為制造服務組數據集(manufacturing service group dataset,MSGDs);然后,給出了2個廣泛使用的評價指標用于評價實驗算法在服務服務選擇任務中的性能;最后,詳細且全面地匯報并分析了所提出方法的實驗結果,以驗證所提出方法的有效性。數值實驗將服務作為圖節點,將服務屬性作為節點特征,相同服務提供商的同類服務具有相同的標簽。本文期望能夠通過云制造服務選擇縮小云制造模式下服務匹配范圍,提高服務匹配和組合的效率。

2.1 數據集和訓練

仿真程序初始化制造任務并發布到平臺。平臺根據任務需求選擇合適的服務,并通過服務組合完成制造任務。仿真過程中,程序將服務制造順序關系記錄為日志?？紤]到制造服務合作關系對服務選擇的重要性,本文利用服務屬性特征和服務間合作關系構建圖數據集,二者在圖數據集中分別表示節點特征與連接關系。具體的,數據集將服務作為圖節點V,服務的QoS屬性作為節點特征X,鄰接矩陣A根據服務間產生的合作日志生成。標簽數據根據制造服務的服務商和服務類型屬性劃分,即相同服務商的同類型服務劃分為相同服務組。實驗采用0.2∶0.6∶0.2將數據節點劃分為訓練集、測試集、驗證集。為了進行性能分析,本文建立了2個不同規模的數據集驗證所提出模型的性能,分別為MSGDs-06與MSGDs-13。實驗采用的數據集的統計信息如表2所示。其中,MSGDs-06包含分屬于6個服務組的1 709個服務,以及7 504個表示合作關系的邊,且每個服務用5 661維的浮點數表示服務屬性。MSGDs-13中有分屬于13個服務組的2 749個服務,以及11 550個表示合作關系的邊。2個數據集中的服務均采用5 661維的浮點數表示服務節點特征。

表2 數據集統計信息

2.2 評價指標

為了評估所提出方法的性能,實驗采用2個廣泛使用的評價指標度量服務檢索性能,分別為召回率、平均精度均值。

召回率(Recall)能夠衡量信息檢索的覆蓋率。給定一個信息檢索請求Q,令R為集群中與Q相關的文檔集,Recall可根據檢索需求獲得檢索集合A。集合R和A中元素個數分別為|R|和|A|,|R∩A|表示同時在R和A中的文檔數。則召回率定義為Recall=|R∩A|/|R|。

2.3 實驗結果

實驗環境為i7 10750H CPU+64G內存+3090顯卡,運行操作系統為Windows 10,編程語言采用Python,統一計算架構(compute unified device architecture,CUDA)版本為11.4。實驗將服務特征X和鄰接矩陣A送入模型中進行訓練,在反向傳播過程中,使用訓練集的標簽進行半監督學習。在評價過程中,模型在根據編碼的漢明距離選擇出前N個服務作為候選集并驗證,實驗過程中,令N=10。

本節在MSGDs-06和MSGDs-13數據集上對模型性能進行分析。實驗采用mAP和Recall這兩種度量指標,運行在MSGDs-06數據集上的實驗結果如表3所示。其中,CSQ算法在mAP性能和Recall性能指標上最低,分別為40.6%和50.8%。DFH算法性能略好,mAP性能為45.0%,相較CSQ有12%左右的提升,Recall性能為51.0%,相較CSQ提升不明顯。MSH算法的mAP性能和Recall性能最好,分別達到了99.4%和87.1%,基本是CSQ和DFH性能的2倍左右。

表3 運行在MSGDs-06數據集上的實驗結果 %

運行在MSGDs-13數據集上的實驗結果如表4所示。其中,CSQ算法在mAP性能和Recall性能指標上最低,分別為33.8%和52.1%。DFH算法性能略好,分別為37.5%和54.3%。MSH算法的mAP性能和Recall的性能最好,達到了97.6%和90.3%,其中,mAP性能基本是CSQ算法和DFH算法性能的3倍左右,Recall性能基本也超過CSQ算法和DFH算法約60%。

表4 運行在MSGDs-13數據集上的實驗結果 %

算法在不同的數據集上進行實驗,最終的mAP指標均能達到0.96以上。這表明服務間合作關系對服務選擇能夠提出有效決策支持,所提出的算法利用圖卷積網絡,綜合考慮QoS特征和服務間合作關系這兩方面的信息,并進行有效的特征提取,進而得到更有助于學習到有效度量服務間相似度的哈希編碼,在服務選擇的驗證中證明具有較高的準確率和召回率。評價指標說明在提取到的10個候選服務中,與查詢服務有較高的匹配程度。因此,能夠為后續階段的服務組合等任務提供較為有效的支持。與此同時,得到的Recall值也均能達到0.87以上,且在MSGDs-13數據集上達到0.903的精度值。較好的Recall性能表明在查詢到的候選服務中,同類服務具有很高的占比,說明查詢結果具有較高的覆蓋度。綜合分析表3中的結果,不難發現哈希編碼能夠根據查詢服務對候選服務進行較好的區分,能夠在提供更準確的查詢結果同時,保持候選制造服務的多樣性。訓練結果表明,服務編碼距離能夠有效度量服務間的類別相似度,訓練之后的編碼結果可以進行保存并用于服務間距離度量,進而進行快速服務查詢和候選服務集的選擇等業務。

2.4 實驗分析

2.4.1 模型收斂性分析

本節通過觀察在MSGDs-06和MSGDs-13數據集上,隨著模型優化模型損失和模型性能的變化分析模型收斂情況,實驗結果如圖2和圖3所示。

圖3 算法在MSGDs-13數據集上的性能與損失

在MSGDs-06數據集上,模型訓練開始時損失(Loss)大約為35。在前200步訓練中,模型損失快速下降;之后,隨著模型的進一步優化,損失趨于相對穩定的狀態。與此同時,mAP和Recall隨著損失下降穩定上升。在400步左右,mAP為0.95,Recall為0.85;接著,隨著迭代次數的增加,模型逐漸提取到服務編碼信息并經過一定的訓練之后能夠達到穩定狀態,在MSGDs-13數據集上,與MSGDs-06相似,模型經過前200步訓練,其損失快速下降并達到相對穩定階段。在經過400步訓練,mAP為0.9,Recall為0.85,相對于MSGDs-06數據集的指標值略低。直觀分析可能是由于數據集大小和每個類的數據量不同造成的偏差。之后,模型經過持續訓練,其性能和損失均能夠達到穩定狀態。

通過上述分析可以發現,隨著優化的進行,模型在2個數據集上的損失能夠快速下降并最終達到平穩狀態。模型性能隨著損失的下降不斷提升,最終也達到平穩狀態。實驗結果表明模型經過訓練能夠達到收斂狀態。

2.4.2 超參數選擇

超參數的選擇對模型性能有著重要影響,本節分析超參數α和編碼長度k對模型mAP性能的影響。

對于超參數α,令其在[0.05,1]取值,步長為0.05,在MSGDs-06和MSGDs-13數據集進行訓練,記錄模型的mAP指標的變化。

綜合分析圖4中的mAP性能結果不難發現,當超參數α在[0.2,0.7]取值時,能夠保持在1個相對穩定且性能較高的水平。當α設置在某一合理范圍值時,模型對該參數并不太敏感且能夠獲得較高的精確值。

圖4 超參數α對mAP性能影響

在下一步實驗時,將超參數α固定為0.6,通過改變哈希碼長度探討其對mAP性能的影響,其中k∈[12,64],結果如圖5所示。分析圖5中實驗結果,當超參數k∈[28,56]時,模型基本能取得相對較好性能。隨著k取值的增加,mAP性能會出現較大的波動。

圖5 超參數k對mAP性能影響

3 結束語

云制造平臺上的服務具有數量龐大、種類繁多、特征復雜等特點,在服務選擇的過程中,服務間協同關系缺失會對服務匹配和服務選擇的準確性造成巨大影響。本文提出了一種基于圖卷積網絡的云制造服務編碼模型,同時考慮服務特征和服務協同關系,通過圖卷積網絡實現半監督學習提取到云制造服務的哈希編碼。在2個仿真數據集上驗證并證明所提出方法有較好的性能。通過計算該模型生成的服務的哈希編碼距離,可以度量服務間相似性,這有助于對制造服務進行快速有效查詢和選擇,為后續的服務組合、服務調度等任務奠定了基礎。