基于通道注意力的多模態服裝兼容性學習

2022-07-07 05:07魏雄閆坤

現代信息科技 2022年4期

魏雄閆坤

摘? 要：針對服裝圖像特征提取不全面和服裝兼容性難以建模等問題，提出了一種基于通道注意力的多模態服裝兼容性模型ECA-RMCN。在特征提取網絡CNN的殘差模塊上引入高效通道注意力模塊ECA-Net來增強服裝低級和高級等重要特征，抑制無效特征。采用組合損失函數處理服裝正負樣本不均衡的問題，達到更好的搭配效果。在公共的Polyvore數據集進行對比實驗來驗證模型有效性。實驗結果表明，該算法對服裝的兼容性預測和搭配性能優于其他方法，有很好的應用價值。

關鍵詞：通道注意力;卷積神經網絡;兼容性建模;組合損失函數

中圖分類號：TP18? ? ? 文獻標識碼：A文章編號：2096-4706（2022）04-0001-07

Multimodal Clothing Compatibility Learning Based on Channel Attention

WEI Xiong1，2，3， YAN Kun1，2，3

（1.Textile and Clothing Intelligent Hubei Provincial Engineering Research Center， Wuhan? 430200， China; 2.Hubei Provincial Garment Informatization Engineering Technology Research Center， Wuhan? 430200， China; 3.School of Computer Science and Artificial Intelligence， Wuhan Textile University， Wuhan? 430200， China）

Abstract： Aiming at the problems of incomplete feature extraction of clothing images and difficult modeling of clothing compatibility and so on， a multimodal clothing compatibility model ECA-RMCN based on channel attention is proposed. The high-efficiency channel attention module ECA-Net is introduced on the residual module of the feature extraction network CNN to enhance important features such as low-level and high-level clothing， and suppress invalid features. The combined loss function is used to deal with the problems of unbalanced positive and negative samples of clothing to achieve better matching effect. Comparative experiments are performed on the public Polyvore dataset to verify the effectiveness of the model. The experimental results show that the algorithm is better than other methods in the compatibility prediction and matching performance of clothing， and it has good application value.

Keywords： channel attention; convolutional neural network; compatibility modeling; combined loss function

0? 引? 言

兼容性建模是服裝搭配推薦任務過程中必不可少的步驟，它直接影響了套裝搭配的效果。隨著網絡服裝業的快速發展，人們的消費觀念也從線下轉向線上。與實體店相比，網絡平臺則更加方便快捷，不受時空的制約，服裝數量和種類也更多樣化。但是繁多的服裝數量使人們難以挑選出適合自己的衣服，降低了自己的購買欲望。利用計算機視覺技術來為用戶推薦服裝逐漸成為主流方法，常用的方法主要包括基于關聯規則的智能搭配、基于服裝視覺特征的智能搭配、基于協同過濾算法的智能搭配等[1]，然而這些傳統的推薦算法提取的顏色、紋理和形狀特征不明顯，也未考慮將圖像信息和語義信息結合，影響了推薦的搭配效果，因此有必要采取更加有效的服裝搭配推薦方法。

近些年，人工智能和機器學習技術在服裝領域得到了很好的應用?，F有的服裝搭配方法主要基于深度學習的服裝搭配和基于用戶個性化的服裝搭配。在深度學習服裝搭配中，運用機器學習方法通過深入挖掘服裝信息之間的交互行為等大量數據，從中學習服裝之間的潛在聯系。先前的工作主要研究成對服裝[2-4]。他們認為服裝的兼容性問題可以通過度量學習來解決，將服裝特征映射到某個特定的風格空間，通過估計風格向量之間的距離來預測服裝搭配效果。例如McAuley[4]等人利用CNN提取服裝的視覺特征并將其嵌入潛在空間，接著將成對服裝在潛在空間的距離作為服裝間的搭配性度量。針對未考慮一整套服裝之間的兼容性關系，Han[5]等人更關注序列對的服裝搭配，他將上衣、褲子、鞋子和配飾看成一個有序的序列，訓練一個Bi-LSTM模型通過學習上一件服裝的特征信息有序的預測下一件服裝并考慮套裝之間的兼容程度。后來，一些學者認為一套服裝之間更像一個集合，這些單品之間沒有固定的序列關系，將它們看成一個序列也很難反映出單品間的復雜關系。針對這個問題，崔澤宇等人[6]用有向圖表示服裝，他認為圖結構可以更好地反映服裝單品之間的復雜關系。首先用一個子結構來表示一套服裝，然后對節點間的交互進行建模并學習節點的信息交互。在用戶個性化的服裝搭配上除了考慮服裝的兼容性關系外，還融入了用戶的外在因素。在基于場景的服裝搭配中，Ma等人[7]根據情境化的服裝概念學習模塊，獲取場合、服裝類別和屬性之間的依賴關系。除此之外還引入了一個弱標簽建模模塊來減輕人工標注任務?？紤]到根據自己的身材挑選合適的服裝是不可忽視的穿衣技巧，與傳統的研究體型和服裝風格之間的關系和學習體型測量的嵌入方法不同，Hsiao等人引入了ViBE[8]，該方法捕捉不同體型的特征，根據個人的體型選擇特定的服裝。由于不同的人對不同風格的服裝有不一樣的偏好，如何將用戶偏好因素納入搭配模型中得出良好的搭配效果也是一個挑戰?，F有的個性化推薦任務除了利用矩陣因子分解（MF）框架外，song等人[9]基于服裝—服裝和用戶—服裝間的交互，從總體美學和個人偏好的角度提出了一種綜合的個人偏好建模方法。然而這些方法存在特征提取不精確和未考慮整體套裝兼容性的缺陷。03E69849-66FA-488A-A3B1-77A92F2904C7

基于上述存在的問題，我們在MCN網絡的基礎上增加了幾個模塊。首先在CNN殘差塊上引入ECA模塊來提升重要特征，加強對顏色、紋理、形狀、風格特征的權重分配，以提升推薦精度;設計交叉熵損失和Dis損失相結合的組合損失函數來解決服裝圖像像素正負樣本不平衡的問題，從而獲得更好地搭配效果。

1? 相關工作

1.1? 注意力機制

注意力機制是增強深層CNN的有效手段，用來提升CNN的性能。其核心目標是從眾多信息中選擇出對當前目標任務更為關鍵的信息[10]。近幾年，注意力模型（Attention Model）被廣泛使用在自然語言處理、圖像識別、語音識別等各種不同類型的深度學習任務中。注意力機制最初在2014年作為RNN（Recurrent Neural Network）中編碼器—解碼器框架的一部分來編碼長的輸入語句，后續被廣泛運用在RNN中[11]。2018年hu等人提出了SE-Net（Squeeze and Excitation Network）網絡結構，SE-Net中的關鍵結構SE-Net block利用了注意力機制的思想，顯式地建模特征圖之間的相互依賴關系，并通過學習的方式來自適應地獲取到每張特征圖的重要性[12]。后來Wang等人提出了ECA-Net[13]（Efficient Channel Attention Network）來實現對SE-Net block的改進，提出了一種不降維的局部跨信道交互策略（ECA block）和自適應選擇一維卷積核大小的方法，通過一維卷積層匯總跨信道信息的方法獲取更加精確的注意力信息。Qing[14]等人提出了一種融合有效通道注意網絡（MRA-NET）的多尺度殘差卷積神經網絡模型用于高光譜圖像分類。Zhou[15]等人提出了一種用于煙霧車輛檢測的高效空間注意網絡（ESA-Net），通過權值組合得到每個ResNet塊的特征空間表示。受到他們的啟發，本文引入ECA-Net模塊更好地提取服裝的重要特征。

1.2? 服裝兼容性建模

研究服裝兼容性的基礎是服裝識別。先前的工作通過服裝分割方法和人體姿態信息相結合來解析、檢索服裝類型[16，17]。Wang等人為了解決用戶照片和在線產品圖像之間的領域鴻溝，提出一種在孿生深度網絡中流行的對比損失來提高檢索性能[18]。后來Al-Halah等人[19]提出一種非負矩陣分解方法將提取的服裝特征投影到特定的服裝風格空間。Lee等人[20]提出一種Style2Vec服裝向量表示模型來學習服裝上下文信息。Hisao等人[21]提出一種無監督的方法來學習服裝風格，其方法基于主題模型將服裝屬性視為文字，服裝視為文檔，風格視為主題來學習潛在的服裝風格一致性。

服裝兼容性建模是研究服裝搭配推薦的關鍵要素，其最終目的是根據服裝的圖像與文本信息來對套裝的一個整體評價。Veit等人[22]提出了端到端的孿生神經網絡通過進一步改進距離度量學習來預測服裝的搭配度。Li[23]等人提出了一個層次時尚圖（HFGN）框架通過構建基于用戶-套裝交互和套裝-單品映射的層次結構來學習服裝兼容性。Song等人[24]提出了一種基于內容的神經方案（BPR-DAE）用于上衣和下裝匹配的兼容性建模，通過一個雙重自動編碼器網絡聯合建模時裝不同形態之間的一致性關系與服裝之間的隱含偏好。后來，Song等人[25]認為現有的研究忽視了服裝搭配的規則，提出了一種基于注意知識提取的神經相容性建模方案，闡述了如何將豐富的服裝領域知識整合到純數據驅動學習中來增強兼容性建模的性能。

2? 基于通道注意力的服裝兼容性建模

2.1? MCN網絡

多層比較網絡（Multi-Layered Comparison Network，MCN）[26]通過端到端的方式學習服裝兼容性，主要工作流程是先預測套裝的兼容性，然后利用反向傳播梯度進行搭配診斷。該網絡主要分為四個部分：利用CNN的多個卷積層的深度連接特性來提取服裝不同方面的特征;構建比較模塊比較多個層次特征之間的成對相似性，有效的集合多特征的方法來學習服裝的兼容性;運用多層感知器（Multilayer Perceptron，MLP）根據輸入的成對相似性來計算服裝的兼容性得分;采用反向傳播梯度梯度來近似每對商品的相似度的重要程度，從而找出套裝中不兼容的服裝單品。MCN網絡結構如圖1所示。

2.2? 殘差模塊

為了從服裝圖像中提取出更多細節特征，解決復雜圖像中低對比度區域及細小紋理、顏色等欠識別的問題，引入改進的殘差模塊替代傳統的殘差模塊（Residual Block）。引入殘差模塊的目的是防止后續隨著神經網絡的加深使得在利用小批量隨機梯度下降法訓練網絡時產生梯度消失，導致網絡模型訓練無法收斂的問題[27]。傳統殘差模塊由兩個卷積層和ReLU激活函數組成，本文為提高網絡的泛化能力優化了殘差模塊，在每個卷積層之前加入批量歸一化（Batch Normalization，BN）層和ReLU激活函數用于防止過擬合現象的發生。在卷積層中間加入ECA-Net層為每個特征分配不同的權重。傳統的殘差模塊如圖2所示。優化后的殘差模塊結構如圖3所示。

2.3? ECA模塊

雖然殘差模塊強化了特征的傳播能力，有效地提取出更多服裝紋理細節信息，但復雜背景下低層特征中缺少語義信息，分布不均衡，仍會對服裝紋理的特征提取造成干擾。為了解決這個問題，我們通過引入通道注意力網絡ECA模塊（Efficient Channel Attention，ECA-Net）[28]來捕獲復雜紋理信息，該模塊的核心思想在于特征權重的學習，增強有效特征權重、抑制無效或者效果小的特征權重，從而增強了網絡的特征提煉能力，提高模型的服裝搭配精度。ECA-Net結構示意圖如圖4所示。03E69849-66FA-488A-A3B1-77A92F2904C7

在圖4中，給定空間維度H×W×C特征圖x經過全局平均池化（Global Average Pooling，GAP）壓縮為1×1×C的特征圖，然后通過執行大小為k的一維卷積生成每個通道的權重（其中k通過通道維數C的映射自適應確定），再經過ReLU激活函數將權重值控制在0到1之間，最后通過乘法逐通道加權至特征中，完成對原始特征的權重分配，輸出新的特征圖。ECA-Net是基于SE-Net的改進，在經過SE的全局均值池化后，ECA-Net會考慮每個通道及其k個近鄰，通過一維卷積快速完成通道權重的計算。K代表了在一個通道權重的計算過程中參與的近鄰數目，考慮到k值會影響ECA計算的效率和有效性，提出了自適應計算k的函數。在嵌入各種注意力模塊的對比中，ECA-Net通過引入極少參數可明顯提升模型的搭配效果，不會加大模型的計算復雜度。服裝紋理圖像較為復雜，利用該模塊為輸入特征圖各特征通道賦予權重，增強任務相關像素權重，可以弱化背景和噪聲影響，從而獲得更精確的紋理特征。

2.4? 改進的BOW模型的文本特征提取塊圖

詞袋模型[29]（bag of words，BOW）最早出現在自然語言處理與信息檢索領域，近年來被廣泛運用在計算機視覺中。傳統的服裝搭配任務只學習圖像特征，然而視覺信息和文本信息是相輔相成的，將兩者結合起來有利于更好地學習服裝兼容性。BOW使用一組無序的單詞來表示一段文字，將文本信息視為若干個詞匯的集合，忽略其語法和語序等要素。由于提取到的文本特征不夠完整，我們在原有的BOW模型后面添加了一個全連接模塊，最后生成一個4×1 000維的文本特征向量。改進的BOW結構如圖5所示。

2.5? 改進的MCN兼容性學習方法

為了更好地預測服裝的兼容性及對不兼容套裝的搭配診斷，本文將ECA-Net和殘差模塊嵌入改進的MCN，提出了一種改進的服裝搭配網絡ECA-RMCN（Efficient Channel Attention Residual Network MCN）。模型總體架構如圖6所示。ECA-RMCN網絡結構與 MCN網絡結構類似，其引入改進的殘差模塊替代傳統的殘差模塊，然后在主干網絡中引入ECA模塊對輸入特征映射進行重要特征的權重分配，然后輸入下一層進行相似性比較。文本信息提取網絡為BoW。

我們將上衣、褲子和鞋子等這些不同類型的成對類型組合投影到不同的子空間來學習他們的相似性。假設fij=y（wi，wj）表示wi和wj的相似性，投影相似性計算公式如下：

y（wi，wj）=d（Pi→（i，j）wi，Pj→（i，j）wj）（1）

其中Pi→（i，j）為配對組合（i，j）的第i項投影，d為余弦相似性。根據相似性計算公式，我們可以根據以下公式預測兼容性：

Pi→（i，j）wi=RELU（wi ? m（i，j））（2）

其中m（i，j）是和特征wi相同維度的掩碼向量，線性整流函數（ReLU）作為激活函數。

采用反向傳播梯度來近似每個關于不兼容的相似性的重要性。假設一套有N件單品的顏色特征集合，其中ci是第i項的向量。構造其特征間的成對相似性n×n的比較矩陣R，對k個不同特征的比較有k個不同的比較矩陣。通過將矩陣R中的所有元素輸入到兩層MLP中來計算服裝的兼容性得分，其計算公式如下：

（3）

其中，S和矩陣R之間的非線性矩陣有更好的預測性能，我們用S的導數來近似表示每個輸入相似性的重要性。假設我們標記不兼容套裝為0，來解釋與不相關的每個相似性的重要性。若不兼容套裝為0，則使用相反的。我們使用所有相似性的梯度來計算每個套裝的重要性：

（4）

其中wq是第q項的搭配重要性。在不改變原來的構圖下通過替換導致服裝最不兼容的單品使得套裝更兼容。在訓練過程中，我們使用sigmoid函數為兼容性概率的輸出分數建模并使用二進制交叉熵作為損失函數：

Lc=y · logσ（s）+（1-y）· log（1-σ（s））（5）

3? 實驗

3.1? 實驗環境

本文實驗環境在Ubuntu 16.04操作系統上進行相關實驗，實驗基于PyTorch的深度學習框架，Python版本在3.5.2及以上，硬件平臺為Intel I9-9900X;Nvidia GTX2080Ti;96 GB內存。

3.2? 數據集

本文使用Polyvore數據集對ECA-RMCN模型的評估。該數據集包含21 889套服裝，其中17 316套用于訓練，1 497套用于驗證，3 076套用于測試。其中還包含164 379件服飾單品，每一件單品包含服飾圖像和相對應文本描述。在訓練過程中，一套服飾中的平均時裝數量是6件。在文本描述上，我們刪除出現次數少于30次的單詞，從而生成2 757大小的文本詞匯表。在Polyvore上服飾單品的順序為上衣、褲子、鞋和配飾。

3.3? 實驗細節

在實驗中，輸入的服裝圖像大小是224×224。輸入套裝的可變長度大小從3到5，空白部分由該類型的平均圖像處理。我們設置額外損失權重λ{1，2，3}分別為5e-3，5e-4，1。輸入的每個batch有32套服裝，初始學習率為1e-2，每10輪的衰減系數為0.2。采用動量為0.9的梯度下降算法。最后僅保留驗證集上有最佳性能的模型參數。

3.4? 評價指標

為了定量評估服裝預測及搭配模型的性能，采用AUC（Outfit Compatibility Prediction）、FIFB（Fill-in-the-blank）作為評價指標。

AUC：服裝兼容性預測任務的目標是通過模型得出一個分數判斷其整體兼容性。本文提出的ECA-RMCN模型通過端到端的方式從輸入的服裝圖像中計算出套裝兼容性預測分數。我們隨機從測試集中選擇6 000套服裝，采用ROC曲線下面積來比較不同的方法性能。03E69849-66FA-488A-A3B1-77A92F2904C7

FIFB：服裝填空任務是從一組候選服飾單品中選擇與服裝空白處最為搭配的服飾單品，通過回答問題的準確性來評估模型性能。在實驗中，每個問題有4個選項，對于空白部分，選擇得分最高的選項作為答案。此任務的目標函數可表示為：

（6）

其中R是所有選項的集合，n是我們要填入的空白位置。

3.5? 實驗結果與分析

3.5.1? 定性實驗

為了可視化展示模型的訓練效果，實驗中服裝搭配效果圖如圖7所示。由圖可以看出經過殘差模塊、全連接模塊、ECA-Net增強服裝的有效特征對套裝的搭配起到了良好的作用。

3.5.2? 定量實驗

Pooling[30]：使用平均池操作聚合輸入特征的可變長度來預測兼容性Concatenation[31]：通過將5個單品特征連接為一個長度1 000×5的長向量，使用MLP作為二元分類器。這里設置隱藏層的大小為1 000。CSN[32]：一種度量成對兼容性的學習方法。根據不同類型組合條件下的投影嵌入距離計算兼容性。套裝兼容性是所有成對兼容性的平均值。

Bi-LSTM+VSE[33]：通過每一步LSTM消耗一個CNN編碼的特征輸出一個隱藏狀態和下一個單品的預測。兼容性得分是預測項與真實項之間的交叉熵。它聯合優化了前向LSTM、后向LSTM損失和VSE損失。

Self-Attention[34]：采用自我注意機制來關聯一套服裝中的不同單品計算出該套裝的表示形式。這里使用縮放的點乘注意力[35]，其中查詢、鍵和值是同一套裝中的單品特征。

從表1中的數據可以看出，Bi-LSTM+VSE和Self-Attention這兩個方法的AUC均低于80%，FITB精度均低于50%。本文的方法在AUC上提高到了91.6%，FITB精度則達到了61.5%，證明了我們方法的先進性。

4? 結? 論

本文基于MCN提出了一種改進的服裝搭配模型ECA-RMCN，它在視覺語義嵌入、多模態特征提取模塊、多層相似性比較與兼容性預測模塊和服裝搭配學習模塊四個方面學習服裝的整體兼容性關系。運用有效通道注意力（ECA）的多層特征提取圖像—文本信息，有效地捕獲服裝的各個方面特征。通過比較CNN多層網絡中的服裝相似性預測服裝的兼容性并對其不兼容的套裝中的單品進行替換。在未來，我們將融入用戶的個人偏好因素到模型中使得套裝既符合日常搭配，還能滿足個人的偏好需求。

參考文獻：

[1] 紀丹丹，戴宏欽.服裝搭配方法研究綜述 [J].現代絲綢科學與技術，2020，35（4）：31-35.

[2] VEIT A，KOVACS B，Bell S，et al.Learning visual clothing style with heterogeneous dyadic co-occurrences [C]//Proceedings of the IEEE International Conference on Computer Vision.2015：4642-4650.

[3] HE R，PACKER C，MCAULEY J.Learning compatibility across categories for heterogeneous item recommendation [C]//2016 IEEE 16th International Conference on Data Mining （ICDM）.Santiago：IEEE，2016：937-942.

[4] MCAULEY J，TARGETT C，SHI Q，et al.Image-based recommendations on styles and substitutes [C]//Proceedings of the 38th international ACM SIGIR conference on research and development in information retrieval.New York：Association for Computing Machinery，2015：43-52.

[5] HAN X，WU Z，JIANG Y G，et al.Learning fashion compatibility with bidirectional lstms [C]//Proceedings of the 25th ACM international conference on Multimedia.New York：Association for Computing Machinery，2017：1078-1086.

[6] CUI Z，LI Z，WU S，et al.Dressing as a whole：Outfit compatibility learning based on node-wise graph neural networks [C]//The World Wide Web Conference.2019：307-317.

[7] MA Y，YANG X，LIAO L，et al.Who，where，and what to wear？ Extracting fashion knowledge from social media [C]//Proceedings of the 27th ACM International Conference on Multimedia.New York：Association for Computing Machinery，2017：2019：257-265.03E69849-66FA-488A-A3B1-77A92F2904C7

[8] HSIAO W L，GRAUMAN K.ViBE：Dressing for diverse body shapes [C]//Proceedings of the IEEE/CVF Conference on? Computer Vision and Pattern Recognition.Seattle：IEEE，2020： 11059-11069.

[9] SONG X，HAN X，LI Y，et al.GP-BPR：Personalized compatibility modeling for clothing matching [C]//Proceedings of the 27th ACM International Conference on Multimedia.New York：Association for Computing Machinery，2019：320-328.

[10] 朱豐，胡曉峰，吳琳，等.從態勢認知走向態勢智能認知 [J].系統仿真學報，2018，30（3）：761-771.

[11] 梁斌，劉全，徐進，等.基于多注意力卷積神經網絡的特定目標情感分析 [J].計算機研究與發展，2017，54（8）：1724-1735.

[12] 耿磊，邱玲，吳駿，等.結合深度可分離卷積與通道加權的全卷積神經網絡視網膜圖像血管分割 [J].生物醫學工程學雜志，2019，36（1）：107-115.

[13] WANG X，SUN Z，ZHANG W，et al.Matching user photos to online products with robust deep features [C]//Proceedings of the 2016 ACM on international conference on multimedia retrieval.New York：Association for Computing Machinery，2016：7-14.

[14] QING Y，LIU W.Hyperspectral Image Classification Based on Multi-Scale Residual Network with Attention Mechanism [J].Remote Sensing，2021，13（3）：335.

[15] ZHOU J，QIAN S，YAN Z，et al.ESA-Net：A Network with Efficient Spatial Attention for Smoky Vehicle Detection [C]//2021 IEEE International Instrumentation and Measurement Technology Conference （I2MTC）.IEEE，2021：1-6.

[16] YAMAGUCHI K，KIAPOUR M H，BERG T L.Paper doll parsing：Retrieving similar styles to parse clothing items [C]//Proceedings of the IEEE international conference on computer vision.IEEE，2013：3519-3526.

[17] YANG W，LUO P，LIN L.Clothing co-parsing by joint image segmentation and labeling [C]//Proceedings of the IEEE conference on computer vision and pattern recognition.IEEE，2014：3182-3189.

[18] WANG X，SUN Z，ZHANG W，et al.Matching user photos to online products with robust deep features [C]//Proceedings of the 2016 ACM on international conference on multimedia retrieval.New York：Association for Computing Machinery，2016：7-14.

[19] AL-HALAH Z，STIEFELHAGEN R，GRAUMAN K.Fashion forward：Forecasting visual style in fashion [C]//Proceedings of the IEEE international conference on computer vision.Venice：IEEE，2017：388-397.

[20] LEE H，SEOL J，LEE S.Style2vec：Representation learning for fashion items from style sets [J/OL].arXiv：1708.04014.（2017-08-14）.https：//arxiv.org/abs/1708.04014.

[21] HSIAO W L，GRAUMAN K.Learning the latent” look”：Unsupervised discovery of a style-coherent embedding from fashion images [C]//Proceedings of the IEEE International Conference on Computer Vision.Venice：IEEE，2017：4203-4212.03E69849-66FA-488A-A3B1-77A92F2904C7

[22] VEIT A，KOVACS B，BELL S，et al.Learning visual clothing style with heterogeneous dyadic co-occurrences [C]//Proceedings of the IEEE International Conference on Computer Vision.Santiago：IEEE，2015：4642-4650.

[23] LI X，WANG X，HE X，et al.Hierarchical fashion graph network for personalized outfit recommendation [C]//Proceedings of the 43rd International ACM SIGIR Conference on Research and Development in Information Retrieval.New York：Association for Computing Machinery，2020：159-168.

[24] SONG X，FENG F，LIU J，et al.Neurostylist：Neural compatibility modeling for clothing matching [C]//Proceedings of the 25th ACM international conference on Multimedia.New York：Association for Computing Machinery，2017：753-761.

[25] HAN X，SONG X，YAO Y，et al.Neural compatibility modeling with probabilistic knowledge distillation [J].IEEE Transactions on Image Processing，2019，29：871-882.

[26] WANG X，WU B，ZHONG Y.Outfit compatibility prediction and diagnosis with multi-layered comparison network [C]//Proceedings of the 27th ACM International Conference on Multimedia.2019：329-337.

[27] ?；?，饒志強，趙玉林，等.基于改進U-Net網絡的隧道裂縫分割算法研究 [J].計算機工程與應用，2021，57（22）：215-222.

[28] WANG Q，WU B，ZHU P，et al.ECA-Net：efficient channel attention for deep convolutional neural networks [C]//CVF Conference on Computer Vision and Pattern Recognition （CVPR）.Seattle：IEEE，IEEE.2020.

[29] ZHANG Y，JIN R，ZHOU Z H.Understanding bag-of-words model：a statistical framework [J].International Journal of Machine Learning and Cybernetics，2010，1（1-4）：43-52.

[30] LI Y，CAO L，ZHU J，et al.Mining fashion outfit composition using an end-to-end deep learning approach on set data [J].IEEE Transactions on Multimedia，2017，19（8）：1946-1955.

[31] TANGSENG P，YAMAGUCHI K，OKATANI T.Recommending outfits from personal closet [C]//Proceedings of the IEEE International Conference on Computer Vision Workshops.Venice：IEEE，2017：2275-2279.

[32] VASILEVA M I，PLUMMER B A，DUSAD K，et al.Learning type-aware embeddings for fashion compatibility [C]// Proceedings of the European Conference on Computer Vision （ECCV）.Cham：Springer，2018：390-405.

[33] HAN X，WU Z，JIANG Y G，et al.Learning fashion compatibility with bidirectional lstms [C]//Proceedings of the 25th ACM international conference on Multimedia.New York：Association for Computing Machinery，2017：1078-1086.

[34] WANG X，GIRSHICK R，GUPTA A，et al.Non-local neural networks [C]//Proceedings of the IEEE conference on computer vision and pattern recognition.Salt Lake City：IEEE，2018：7794-7803.

[35] VASWANI A，SHAZEER N，PARMAR N，et al.Attention is all you need [J].NIPS17：Proceedings of the 31st International Conference on Neural Information Processing Systems.New York：Association for Computing Machinery，2017：6000-6010.

作者簡介：魏雄（1974—），男，漢族，湖北武漢人，副教授，CCF 會員，博士，研究方向：并行計算、紡織服裝大數據等;閆坤（1997—），女，漢族，湖北黃岡人，CCF 會員，碩士在讀，研究方向：圖像處理。03E69849-66FA-488A-A3B1-77A92F2904C7