?

基于擴散模型的多模態引導圖像合成系統

2024-01-02 07:47何文睿高丹陽周羿旭朱強
關鍵詞:深度圖掩碼逆向

何文睿,高丹陽,周羿旭,朱強

(1.北京信息科技大學 計算機學院,北京 100192;2.浙江大學 計算機科學與技術學院,杭州 310058)

0 引言

近年來,隨著ChatGPT、文心一言等生成式大模型的提出,人工智能生成內容(artificial intelligence generated content,AIGC)技術受到學術界的廣泛關注[1]。AIGC在圖像、文本、音頻、視頻等多樣性內容創作任務上,以其創新性的生成方式引發了研究者們的濃厚興趣[2]。研究初期,大部分AIGC相關任務使用基于生成對抗網絡(generative adversarial network,GAN)實現,其通過對抗訓練策略,致力于產生逼真的數據樣本。然而,GAN方法在訓練過程中的復雜性和不穩定性,以及可能出現模式坍塌現象和難以控制的樣本生成質量等固有問題,限制了其進一步的發展。

隨著具備更優越性能和更強大處理能力的大型模型技術逐漸成熟,生成式人工智能逐漸采用“大模型+大數據”的結合策略。例如,OpenAI發布的DALL·E2模型融合了預訓練CLIP(contrastive language-image pre-training)模型和擴散模型,實現了從文本到圖像的生成;Google提出的Phenaki使用預訓練的雙向掩碼Transformer模型,對文本進行編碼并直接生成視頻內容;Deepmind研發的Alphacode運用大規?;赥ransformer的語言模型,實現代碼自動生成任務[3-5]。上述模型的出現,標志著AIGC領域正朝著更為高效和多樣化的方向迅速發展,為多領域的創作和應用帶來了新的機遇和挑戰。

目前,生成式大模型可依據其所應用的任務類型,粗略劃分為九大范疇,其中包括但不限于:文本生成圖像、文本生成視頻、圖像生成文本、圖像生成圖像等。作為圖像生成圖像領域中的經典任務之一,生成式圖像合成任務旨在基于用戶所提供的參考圖像,在確保合成圖像的主體真實一致的前提下,實現圖像中前景與背景的巧妙無縫融合。此外,該任務還能根據用戶的文本輸入,完成細粒度的修改與微調。如,Zhang等[6]深入探討了前景元素在圖像中的空間定位與尺度信息的預測;Zhan等[7]致力于消除前景物體引發的不必要遮擋,以提升圖像的觀賞質量。

生成式圖像合成任務的發展為現實生活中的具體應用領域帶來了優勢。以電子商務領域為例,傳統商品圖像的制作過程涉及線下拍攝、圖像優化及細節調校等復雜階段,通常需多次迭代以獲得理想的商品圖像結果。然而,將生成式圖像合成方法引入此任務,可實現自動生成高品質商品背景圖,同時通過文本描述等方式實現低成本的細節微調,極大降低了時間和人力資源成本,提升了生產效率與靈活性,為用戶提供了更為高效、便捷及個性化的商品展示解決方案。但在具體實際應用過程中,其仍存有一定局限性:若完全采用生成式合成方法,則無法確保商品主體的一致性;然而,若采用簡單的前后景拼接方式,則可能導致前后景不協調,難以保障圖像邏輯性等問題。因此,需在模型的創造能力與控制能力之間找到平衡點,以保證創造性實現生成多樣化背景,同時強化控制能力,以確保主體和前后景之間的一致性與真實性。

考慮到在該任務中,涉及到文本和圖像兩種引導信息,因此,我們選擇生成式大模型Stable Diffusion作為基本生成框架,并結合提示處理優化等模塊,提出了一個聚焦于電子商務領域的商品圖像合成任務的解決范式,極大降低了傳統方式所帶來的時間和人力資源成本,提升了生產效率與靈活性。

1 相關工作

1.1 生成式圖像合成

圖像合成(image composition)任務旨在將一張圖像的前景與另一張圖像融合,生成一張新圖像。在該過程中,必須解決前后景之間的不一致等問題,包括但不限于外形、尺度和語義等方面的不協調。針對這些關鍵子問題,研究者們提出了多項子任務,具體包括:1)物品放置:為前景物體確定適宜的位置、尺度與形狀[8];2)圖像融合:解決前后景邊界不自然的難題[9-10];3)圖像和諧:透過調整色調、色溫等視覺特征,增強前后景的視覺一致性[11-13];4)陰影生成:為新融合進背景的前景物體生成與背景中光影方向一致的陰影,以提升合成圖像的整體真實性[14-15]。為了應對上述諸多問題,本文同時借助于掩碼圖控制和生成式融合策略,以實現視覺一致性。

1.2 提示工程

提示工程(prompt engineering)的主要目的在于設計和優化預訓練語言模型的輸入文本,以引導模型生成更為符合用戶預期的輸出。近年來,隨著諸如ChatGPT等大模型的發布,提示工程的概念得到了更為廣泛的應用,其現今涵蓋了對大模型輸入的調整,包括對文本輸入和圖像輸入的合理調整,確保模型生成結果更加契合用戶的預期[16-17]。

文本提示的設計通常需要滿足以下兩個關鍵要求。1)明確的指導:所使用的文本提示應當具有清晰且具體的表述,以確保模型能夠充分理解其意圖;2)正確的格式:鑒于大模型對于輸入格式的要求,文本提示的格式應嚴格符合其規范。為了獲得有效且高質量的文本提示,Yao等[18]引入了一種全新的知識引導上下文優化策略,以增強可學習文本提示在面對不可見類別時的泛化能力;Ma等[19]提出了一種高效且可解釋的方法,以提升模型對于文本提示上下文的學習理解能力;Wang等[20]則提出了多任務提示調優策略,首先從多個任務特定的源提示中提取知識,以學習一個單一的可遷移提示,緊接著通過乘法低秩更新學習適應每個下游任務的共享提示;而Diao等[21]則提出了一種新穎的主動提示方法,通過任務特定的示例提示(使用人工設計的CoT推理注釋),將大型語言模型應用于多樣的任務領域。

在充分考慮商品圖像合成任務的特點后,本文選擇將文本和圖像兩種模態的數據同時作為提示以控制生成,提出了逆向文本提示方法實現將圖像轉換成文本提示并進行優化。

1.3 擴散模型

擴散模型(diffusion model)原本是物理學中的模型,后來科學家們借鑒該思想,提出了一種圖像生成方法并建立生成模型[22]。擴散模型學習從噪聲樣本中恢復原始數據,獨特的訓練方法克服了GAN的局限性,如梯度消失導致的生成器訓練失敗、對抗性學習的過高計算成本和不易收斂等問題。目前,基于擴散的生成大模型,例如DALL·E2和Imagen,獲得的圖像水平已經實現對GAN多方面的超越[23-25]。

Stable Diffusion是一個基于擴散理論的文本到圖像生成式大模型,由于該模型是基于擴散理論研發的,因此具有更高的穩定性。同時為了減少計算復雜度,使用了在潛在表示空間上進行擴散的方法,不僅降低了訓練和推理的代價,而且能保持極好的圖片生成效果,且能在更大的空間尺度上生成高質量的圖像,并兼顧細粒度上的真實性和清晰度[26]。

但由于Stable Diffusion模型參數量龐大、訓練非常困難,本文選擇使用輕量級訓練插件ControlNet,以引導生成圖像的內容和風格。

2 多模態引導圖像合成系統的構建

本文提出的多模態引導圖像合成系統架構如圖1所示,主要包括3個模塊。

1)圖像提示生成模塊:利用原始圖像和參考圖像生成深度圖與掩碼圖,作為圖像引導信息,保證商品圖融合時的位置合適且無雜亂背景生成。

2)文本提示生成模塊:利用圖像和文本作為提示信息,通過文本引導的方式對生成的圖像進行微調,以符合預期。

3)合成圖生成模塊:融合圖片提示與文本提示,生成前后景一致且符合審美與邏輯的新的商品圖。

圖1 多模態引導的圖像合成系統結構Fig.1 Structure of multimodal guided image composition system

2.1 圖像提示生成模塊

圖像提示包含兩個關鍵信息,即掩碼圖和深度圖。其中,掩碼圖旨在確保原始圖像的前景物體的完整性。深度圖為模型提供先驗空間分布,保證在新圖像的生成過程中,原圖的前景元素得以保持優先地位。掩碼圖和深度圖的并用,保證了圖像生成過程中更高的準確性和可控性。其不僅在生成圖像中實現了前景的無縫融入,也在細致處理中避免了不必要的干擾,進一步提升了生成結果的質量與真實度。

2.1.1 基于 Segment Anything 的掩碼圖生成

本文借助圖像分割工具Segment Anything得到掩碼圖,其結構如圖2所示。該模型支持靈活的提示,可以實時計算掩碼以允許交互式使用,并且具有模糊性意識。強大的圖像編碼器計算圖像嵌入,文本提示編碼器嵌入提示,然后將這兩個信息源組合在預測分割掩碼的輕量化的掩碼解碼器中預測掩碼[27]。本文系統使用時僅需輸入圖像。

圖2 Segment Anything結構Fig.2 Structure of Segment Anything

Segment Anything能夠準確地識別和定位圖像中的前景物體,為其生成相應的掩碼,進而在生成過程中為Stable Diffusion模塊提供有針對性的區域引導。這種精細的引導方式有助于確保生成結果與原始圖像的前景區域之間的無縫結合。

2.1.2 基于 ControlNet 的深度圖生成

本文所提出的商品圖生成范式旨在創造出與輸入參考圖像風格和構圖相符的背景圖像。理論上,可以通過訓練額外的LoRA模型來實現[28]。但考慮到LoRA模型的訓練代價昂貴,且其泛化能力有限,無法滿足多樣化的用戶需求,因此,選擇采用ControlNet,其結構如圖3所示。

圖3 ControlNet結構Fig.3 Structure of ControlNet

圖3中左側為標準Stable Diffusion,ControlNet的引入可以控制Stable Diffusion并使其支持更多的輸入條件,如語義分割圖、關鍵點圖等。ControlNet包含兩部分參數:凍結參數部分和可訓練參數部分。其中凍結參數部分固定原始權重,保留Stable Diffusion原有的圖像生成能力;可訓練參數部分的參數在訓練階段會進行更新,逐步提高模型能力。利用復制的方式,能夠有效避免模型在數據集較小時出現過度擬合的情況,同時保留模型從數十億圖像中達到的生成質量。本文系統使用時僅需輸入圖像。具體來說,本文利用ControlNet中的Reference_Only處理器,通過該處理器,只需附加一張額外圖像,即可得到高質量的輸出結果。同時利用Depth_Midas處理器,以提取輸入圖像的深度信息,從而獲得精確的深度圖。得到的深度圖在明確生成圖像中物體的分布方面具有關鍵作用,既確保生成結果的物體分布與參考圖像相似,同時避免在主要物體周圍產生雜亂無章的干擾物體[29-30]。

2.2 文本提示生成模塊

文本提示包括兩個部分:逆向文本提示是參考圖像轉換得出的文本信息;原始文本提示由用戶直接提供。其中,逆向文本提示有助于確保生成圖像與參考圖像的相似性,而用戶輸入的原始文本則為生成圖像提供了預期描述,對生成圖像的主題、元素以及整體風格等方面起到了約束作用。將兩種不同的文本提示相結合,賦予了生成過程更高的靈活性和可控性,既保證了生成圖像與參考圖像的一致性,又能夠滿足用戶的個性化需求。

2.2.1 基于 CLIP 的逆向文本提示生成

通過將參考圖像特征轉化為文本形式,為生成過程提供了視覺特征輔助,使得生成的圖像在構圖與風格上更接近于參考圖像。具體來說,逆向文本提示來自于參考圖像,借助CLIP模型,參考圖像的視覺信息被轉化成文本信息,稱為逆向文本提示。

CLIP核心結構如圖4所示,包含文本編碼器和圖像編碼器。其預訓練分為兩個階段:第一階段是通過一個大規模的文本數據集訓練模型,使其能夠理解文本之間的關系;第二階段則是使用一個大規模的圖像和文本對數據集,同時訓練圖像編碼器和文本編碼器,使得模型能夠將含義相同的文本特征和圖像特征進行匹配。

圖4 CLIP結構簡圖Fig.4 Structure of CLIP

2.2.2 文本提示優化

考慮到Stable Diffusion對輸入的文本提示有嚴格的格式要求,對于隨意輸入文本生成的圖像,達不到預期的生成視覺效果與質量。因此,本文選擇利用大語言模型ChatGPT對文本提示進行優化,使其完全符合Stable Diffusion的輸入規范。優化操作的引入,確保文本提示的規范性和準確性,讓模型能夠更精確地理解用戶意圖,從而生成更具質量的圖像。

2.3 合成圖生成模塊

合成圖生成模塊在圖像生成過程中綜合了多重信息輸入,包括:原始圖像作為引導生成過程的視覺圖像基礎;經過圖像分割模塊得到的掩碼圖,用于精確定位前景物體區域;利用Depth_Midas處理器得到的深度圖,提供先驗空間分布信息;結合了圖像和文本的提示信息微調生成圖像。

具體來說,該模塊采用生成式模型Stable Diffusion實現,能夠有效融合多模態的引導信息,并生成符合約束條件的高質量圖像。在生成過程中,Stable Diffusion結合了不同需求,實現多源數據充分結合,能夠生成既符合預期又靈活多樣的圖像預測集合。

3 實驗

3.1 實驗設置

本文使用標準Stable Diffusion模型和ControlNet架構,具體參數設置如表1和表2所示。實驗環境配置如下:CPU為Intel (R) Xeon (R) Gold 6154 CPU @ 3.00 GHz,GPU為NVIDIA GeForce 3090,顯存為24 GB,操作系統為基于 Liux 內核的 Ubuntu 5.4.0-164-generic,編程語言為Python 3.10,深度學習框架為Pytorch。

表1 Stable Diffusion部分參數設置Table 1 Parameter settings for Stable Diffusion

表2 ControlNet部分參數設置Table 2 Parameter settings for ControlNet

3.2 實驗結果

圖5所示為采用本文的圖像合成系統對3個產品進行生成的結果示例,每個示例均包含輸入原圖、參考圖及最終的生成圖像。

圖5 采用本文的圖像合成系統生成的結果示例Fig.5 Examples of generated results using our image composition system

從圖5可以看出,生成的圖像中,前景物體能夠被完整地保留并融合到生成的背景圖中,不存在縫隙、錯位等情況,同時生成的背景圖像與參考圖像一致且根據具體情況進行了細節調整與修改。

接下來,我們將對提出的系統中的不同模塊進行詳細結果展示與分析。

3.2.1 逆向文本提示

逆向文本提示對生成效果的影響如圖6所示,其中逆向文本提示是指利用參考圖像得到的文本提示;通用文本提示是圖片生成式任務中常用的提示內容,如“高畫質”“高分辨率”等詞語。從結果中可以看出,逆向文本提示生成的圖像更加美觀,且沒有雜物和異常陰影出現。由于逆向提示充分,內容包含了對參考圖中的物品以及顏色的準確描述,對圖像生成進行了更細粒度和嚴格的文字約束,因此其生成的圖像更接近參考圖。而使用一些通用的文本提示,并不能對生成圖片的質量提供幫助。

圖6 逆向文本提示對生成效果的影響Fig.6 The impact of reverse text prompts on the generation effect

3.2.2 圖像提示

深度圖對生成效果的影響如圖7所示??梢钥闯?在未使用深度圖的情況下,背景中出現大量多余雜物且物體位置凌亂,嚴重影響圖片觀感。而添加深度圖后的生成結果,不僅畫面元素與參考圖像高度相似,而且物體分布美觀。有效證明了參考圖為模型提供了可參考的信息,指導圖像生成在更有力的約束下進行,結果更加符合用戶審美與預期。

圖7 深度圖對生成效果的影響Fig.7 The impact of depth maps on the generation effect

4 結束語

針對電子商務領域,本文提出了一種商品圖像合成任務的解決范式。在使用 Stable Diffusion 平臺的基礎上,利用 CLIP、ControlNet、ChatGPT等算法和工具來對圖像生成的效果進行優化。引入了圖像提示模塊,利用掩碼圖和深度圖引導圖像合成,實現了對圖像主體和背景邊界的優化;引入了文本提示生成模塊,實現了部分提示詞的自動書寫以及對全部提示詞的優化。從消融實驗的結果可以看出,本文設計的多模態引導圖像合成系統顯著提升了圖像生成的效果,能夠有效生成前后景一致的圖像,有利于圖像生成技術在各個領域內的推廣和應用,具備一定的實用價值。

猜你喜歡
深度圖掩碼逆向
逆向而行
基于深度圖的3D-HEVC魯棒視頻水印算法
低面積復雜度AES低熵掩碼方案的研究
基于布爾異或掩碼轉算術加法掩碼的安全設計*
一種基于局部直方圖匹配的深度編碼濾波算法
疊加速度譜在鉆孔稀少地區資料解釋中的應用
基于掩碼的區域增長相位解纏方法
基于掩碼的AES算法抗二階DPA攻擊方法研究
逆向工程技術及應用
Kinect深度圖像快速修復算法
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合