?

基于ＣＬＩＰ的多模態視頻文本檢索系統

2023-08-09 15:26葉柯陳相余麻福旦

計算機應用文摘·觸控 2023年15期

關鍵詞：多模態處理

葉柯陳相余麻福旦

摘要：計算機視覺（Computer Vision，CV）與自然語言處理（Natural Language Processing，NLP）技術已逐漸趨于成熟，結合視覺和語言的多模態領域技術將成為學界和業界的研究熱點。文章使用CLIP 預訓練模型，結合圖像與語言兩種模態信息，進一步將圖像拓展至視頻，利用 Fmpeg 處理視頻，并對視頻與文本信息進行嵌入（embedding）和余弦相似度匹配，從而實現利用純文本檢索視頻中符合該文本語義的片段。

關鍵詞：多模態;CLIP;FFmpeg 處理;文本檢索視頻

中圖法分類號：TP311文獻標識碼：A

１引言

隨著社交媒體和視頻分享平臺的迅猛發展，人們每天都生產大量的視頻內容，這些視頻包含豐富的視覺信息。然而，要從龐大的視頻庫中檢索到與特定文本語義相關的片段卻變得愈發具有挑戰性，除了用人眼進行人工檢索這種費時費力的解決方案外，傳統的基于文本的檢索方法難以充分利用視頻中的視覺信息，而基于視覺的方法又難以理解文本語義。因此，將視覺和語言進行融合的多模態技術成為解決這一難題的關鍵。

綜上所述，高效可用的多模態視頻文本檢索具有廣泛的應用前景和重要的實際意義，可以為大規模視頻內容的管理和組織提供強有力的工具。

２發展現狀

近年來，深度學習和預訓練模型快速發展，Ｚｈａｎｇ［１］總結了視頻文本定位任務的基本概念和當前的研究現狀，并對主流的解決方案進行了分類。主流視頻文本檢索方案如圖１所示。

目前，視頻文本定位方案通常需要經過訓練，以便模型能夠學會正確地定位視頻中的文本。例如，Ｇａｏ［２］第一次提出了視頻文本定位的范式，利用滑動窗口的方式截取視頻片段并與標簽進行匹配，隨后Ｙｕａｎ［３］去掉了滑動窗口算法，引入ａｔｔｅｎｔｉｏｎ，Ｚｈａｎ在ＶＳＬＮｅｔ［４］中引入了ｑｕｅｒｙ?ｇｕｉｄｅ?ｈｉｇｈｌｉｇｈｔ機制，進一步提升了檢索精度；為了訓練這樣的模型，其采用了使用標注的ｓｔａｒｔ和ｅｎｄ標簽來指示文本在視頻中的位置。在標注數據集時，標注人員根據視頻中出現的文本內容和時間點，手動標注出文本的起始位置和結束位置?；诖?，在訓練過程中模型可以通過學習這些標簽來理解文本在視頻中的位置關系。

然而，這種訓練方式往往導致模型的泛化性較差，即在面對新的、未見過的視頻場景時，模型無法準確地進行文本定位。并且訓練過程產生的成本通常較高，故期望能夠采用無監督的方式進行視頻文本定位，不僅可以保證更好的魯棒性，而且更能節省人工標注等數據及相關的訓練成本。在多模態方面，ＯｐｅｎＡＩ通過對比學習的方式訓練得到ＣＬＩＰ模型，作為預訓練模型，它可以同時理解圖片和文本的語義信息，且能夠在沒有任何特定任務標注的情況下，學習到跨模態的語義表示，這使得ＣＬＩＰ在圖像分類、文本分類、圖像生成描述等［５］多種任務上都有出色表現。本文利用ＣＬＩＰ預訓練模型，將圖片拓展為視頻，實現ｚｅｒｏ?ｓｈｏｔ的視頻文本檢索。

３系統構建

３．１前端設計

系統前端使用Ｓｔｒｅａｍｌｉｔ框架搭建。Ｓｔｒｅａｍｌｉｔ是一個用于構建數據科學和機器學習應用程序的開源Ｐｙｔｈｏｎ框架，其具有簡單的ＡＰＩ和直觀的設計，便于構建交互式應用程序，可使用少量代碼創建數據可視化和用戶界面；頁面可以即時顯示和預覽應用程序的變化，進行快速調試和實驗；同時，Ｓｔｒｅａｍｌｉｔ的自動化布局功能使得構建應用程序界面變得更加簡單和高效，其開源的組件化模式具有可重用性、模塊化開發、易于維護和更新、可測試性以及靈活性和可擴展性等優點。系統前端交互界面如圖２所示。

３．２后端設計

使用Ｐｙｔｈｏｎ進行后端開發，并使用ＦＦｍｐｅｇ對上傳的視頻進行處理。ＦＦｍｐｅｇ是一個開源的多媒體處理工具集，提供了多種音頻和視頻處理功能，它可以用于轉換、編輯和流式傳輸多媒體內容，支持幾乎所有常見的音頻和視頻格式。前端Ｓｔｒｅａｍｌｉｔ為Ｐｙｔｈｏｎ框架，簡單易用，可直接與后端交互，故在后端進行模塊化功能編程時，在前端框架中通過函數接口的方式來調用后端算法和模型，在一定程度上降低了系統的耦合度，并且采用并行的策略調用后端算法，這使得系統可以實現多線程的監聽，可以有效防止函數接口堵塞等待問題。

用戶自行上傳視頻，進行預處理后，輸入目標視頻片段相關的文本即可進行檢索，如圖３、圖４所示。

由此可見，基于ＣＬＩＰ預訓練模型實現的ｚｅｒｏ?ｓｈｏｔ視頻文本檢索任務無需經過訓練，僅通過推理，便可以準確地提取視頻片段中的人物行為信息，顯示出其優秀的泛化性和用于視頻文本檢索的巨大潛力。除對行為信息的視頻檢索外，本文同樣對視頻中個體特征的識別進行了相關實驗。

對于同一個視頻，用戶可以通過文本描述想要檢索的個體特征，如“ｗｈｉｔｅｄｏｇ”“ｙｅｌｌｏｗｄｏｇ”，實現語義級別的視頻片段定位，如圖５、圖６所示。

３．３視頻文本檢索系統設計

首先，利用ＦＦｍｐｅｇ對用戶上傳的視頻進行裁剪，離散地抽取視頻中若干幀，這可以有效地減少視頻特征中的冗余信息以及計算量。其次，利用ＣＬＩＰ對抽得的幀進行特征提取和嵌入向量，用戶輸入文本信息后，再利用ＣＬＩＰ將文本進行特征提取得到嵌入向量。

最后，將文本特征與視頻特征進行匹配，計算ｃｏｓｉｎｅ?ｓｉｍｉｌａｒｉｔｙ，根據用戶前端控制的ｔｏｐ?ｋ來決定索引返回的視頻片段數量，然后根據相似度計算得到視頻片段并與文本匹配分數進行降序反饋和顯示。視頻文本檢索系統設計如圖７所示。

４結束語

針對近年來視頻數據爆炸式增長的狀況，本文基于ＣＬＩＰ預訓練模型，利用文本實現視頻檢索，大幅降低人工進行視頻檢索的成本。未來，隨著硬件算力的增長，該模型將會有更大的使用空間，相信在相關技術更加成熟后，這套系統可以被應用到社會更多行業中。例如，公安部門可以利用文本在海量的監控視頻中尋找關鍵片段；利用輔助剪輯的功能幫助視頻后期相關人員在若干小時的拍攝素材中尋找想要的片段等。

參考文獻：

［１］ＺＨＡＮＧＨ，ＳＵＮＡ，ＪＩＮＧＷ，ｅｔａｌ．ＴｈｅＥｌｅｍｅｎｔｓｏｆＴｅｍｐｏｒａｌＳｅｎｔｅｎｃｅＧｒｏｕｎｄｉｎｇｉｎＶｉｄｅｏｓ：ＡＳｕｒｖｅｙａｎｄＦｕｔｕｒｅＤｉｒｅｃｔｉｏｎｓ［Ｊ］．ＩＥＥＥＸｐｌｏｒｅ，２０２２，４５（８）：１０４４３?１０４６５．

［２］ＧＡＯＪ，ＳＵＮＣ，ＹＡＮＧＺ，ｅｔａｌ．ｔａｌｌ：ｔｅｍｐｏｒａｌａｃｔｉｖｉｔｙｌｏｃａｌｉ?ｚａｔｉｏｎｖｉａｌａｎｇｕａｇｅｑｕｅｒｙ（ｓｕｐｐｌｅｍｅｎｔａｌｍａｔｅｒｉａｌ）［Ｊ］．ＩＥＥＥＸｐｌｏｒｅ，２０１７，２１（１０）：５２６７?５２７５．

［３］ＹＵＡＮＹ，ＭＥＩＴ，ＺＨＵＷ．ＴｏＦｉｎｄＷｈｅｒｅＹｏｕＴａｌｋ：ＴｅｍｐｏｒａｌＳｅｎｔｅｎｃｅＬｏｃａｌｉｚａｔｉｏｎｉｎＶｉｄｅｏｗｉｔｈＡｔｔｅｎｔｉｏｎＢａｓｅｄＬｏｃａｔｉｏｎＲｅｇｒｅｓｓｉｏｎ［Ｊ］．ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＡＡＡＩＣｏｎｆｅｒｅｎｃｅｏｎＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃ，２０１８，３３（１）：９１５９?９１６６．

［４］ＺＨＡＮＧＨ，ＳＵＮＡ，ＪＩＮＧＷ，ｅｔａｌ．Ｓｐａｎ?ｂａｓｅｄＬｏｃａｌｉｚｉｎｇＮｅｔｗｏｒｋｆｏｒＮａｔｕｒａｌＬａｎｇｕａｇｅＶｉｄｅｏＬｏｃａｌｉｚａｔｉｏｎ［Ｊ］．Ｐｕｂｌｉｓｈｅｒ：ＡｓｓｏｃｉａｔｉｏｎｆｏｒＣｏｍｐｕｔａｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓ，２０２０，２１（５）：６５４３?６５５４．

［５］ＲＡＤＦＯＲＤＡ，ＫＩＭＪＷ，ＨＡＬＬＡＣＹＣ，ｅｔａｌ．ＬｅａｒｎｉｎｇＴｒａｎｓｆｅｒ?ａｂｌｅＶｉｓｕａｌＭｏｄｅｌｓＦｒｏｍＮａｔｕｒａｌＬａｎｇｕａｇｅＳｕｐｅｒｖｉｓｉｏｎ［Ｊ］．ＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＭａｃｈｉｎｅＬｅａｒｎｉｎｇ，２０２１，１０（１３９）：８７４８?８７６３．

作者簡介：

葉柯（２００２—），本科，研究方向：多模態、文本生成、目標檢測。

猜你喜歡

多模態處理

多模態話語中的詹姆斯·卡梅隆電影

電影文學(2016年19期)2016-12-07

網絡環境下大學英語多模態交互式閱讀教學模式研究

戲劇之家(2016年22期)2016-11-30

多模態理論視角下大學英語課堂的構建

科教導刊(2016年26期)2016-11-15

新媒體環境下多模態商務英語課堂教師角色定位

知音勵志·社科版(2016年8期)2016-11-05

視頻后期剪輯制作中鏡頭時長的處理

戲劇之家(2016年19期)2016-10-31

聲樂演唱中藝術與情感的深入處理

戲劇之家(2016年19期)2016-10-31

橋梁軟土基礎處理應用

科學與財富(2016年28期)2016-10-14

計算機應用文摘·觸控2023年15期

計算機應用文摘·觸控的其它文章: 以計算思維與ＰＢＬ為導向的“大學計算機基礎”混合式教學設計與實踐; 集團ＯＡ辦公系統測試方案的設計與實現; 具有測溫及統計功能的人臉識別系統的設計; 面向端用戶的服務組合廣義決策邏輯模型; 基于深度神經網絡的圖像風格遷移系統開發; ５Ｇ環境下工業互聯網的創新應用研究

91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合