?

多 模 式 融 合 的 體 育 視 頻 技 術 實 驗 分 析

2020-01-13 09:59
實驗室研究與探索 2019年12期
關鍵詞:馬爾科夫貝葉斯節點

石 慶 福

(鄭州輕工業大學 體育學院,鄭州 450002)

0 引 言

視頻一詞源自于電視廣播,它由一系列連續的靜止圖像組成,內容包括感知特征、結構信息和語義信息3方面。近幾年來,隨著體育運動的普及和盛行,體育視頻轉播有著大量需求,僅NBA每年的比賽轉播就達到2 000余場次,因此體育視頻分析有著廣泛的應用[1-2]。視頻中的語義分析是視頻分析中比較重要的一項,經過多年來的努力,底層特征處理的系統和處理方法有了很大進步,但高層語義分析和理解仍然有很多亟待解決的問題,如:語義事件相互間關系研究的缺乏、多模式融合有效分析方法的缺乏和體育視頻統一分析框架的缺乏。因此多模式信息融合技術近年來受到越來越多的關注,在體育視頻分析領域占據越來越重要的位置[3]。在目前的多模式分析中,孤立事件成為主要考慮對象,通過分析各個孤立事件之間的邏輯關系或因果關系,有助于建立模型進行分析。這種模型的建立需要結合多模式融合的理論,而目前的模式融合有特征和決策2種形式的融合。不同形式的途徑分別為:多特征空間共同進行特征融合,獲取最終特征,進行特征到決策的轉換,得到最終結果;或多特征空間首先分別進行特征到決策的轉換,生成不同空間決策,再將不同決策共同進行決策融合,得到最終決策。

特征融合被稱為前期融合,在融合后會產生高維向量,由于目前計算技術的限制,融合后的向量需要降維,然而目前這種降維方法仍有爭議[4];決策融合被稱為后期融合,在視頻分析中比較常見,由于處理中有一個中間決策的過程,利用祁佳[5]所提出的概率推理融合不同模式線索的方法,將不同模式信息在貝葉斯網絡中實現了融合。該項技術曾成功應用于F1賽車比賽轉播中的精彩視頻片段提取。

本文基于貝葉斯動態網絡,提出了針對多媒體視頻的多模式融合分析技術,實現了將多模式信息和事件上下文約束關系的融合處理分析。在貝葉斯動態網絡理論的基礎上,用拓撲結構表示事件的上下文關系,建立多模式之間交互關系。在此框架的基礎上,成功設計了FHHMM、CHHMM和PHHMM 3種統計模型,并通過體育賽事視頻對該技術的性能進行了驗證。

1 多模式融合語義分析框架的建立

不同模式的分析和不同層次的約束關系是多媒體視頻語義分析中的關鍵,文中基于貝葉斯動態網絡,創造性地提出了多層次多模式分析框架,并設計了析因層次隱馬爾科夫模型(Factorial Hierarchical Hidden Markov Model, FHHMM)、耦合層次隱馬爾科夫模型(Coupling Hierarchical Hidden Markov Model, CHHMM)和乘積層次隱馬爾科夫模型(Product Hierarchical Hidden Markov Model, PHHMM)3種模式,下面首先將給出3種模式的表示形式,然后討論其學習和推理的算法。

1.1 模型表示

圖1 3層HHMM的DBN結構

圖1中的相關概率分布表示為3層:

(1) 最上層概率分布。

(1)

(2)

(2) 中間層概率分布。

(3)

(4)

(5)

(3) 最下層概率分布。

(6)

(7)

(8)

(9)

Xie等[7-8]采用HHMM發現體育視頻內容的結構,將一個事件作為一個HHMM過程,然后將各獨立事件之間通過馬爾科夫鏈將關系聯系在一起;Garg等[9-10]采用多層模型來訓練和識別這些具有層次關系的事件;但這兩者在多模式融合方面基本沒有建樹,只是想當然地認為所觀測到的數據源于同一模式。

多模式融合在語音識別領域首次被嘗試,而后得到重視,接著在貝葉斯動態網絡基礎上演化而來的被稱作耦合隱馬爾科夫模型得到大范圍的應用[11]。以這種思路為參考,在HHMM模型的基礎上提出了如圖2所示的FHHMM、CHHMM、PHHMM 3種多模式融合貝葉斯動態模型。動態貝葉斯網絡是一種相同結構延時間軸展開的貝葉斯網絡,動態貝葉斯網絡仍然是一種貝葉斯網絡,這種周期性結構更加適合對時間信號的處理。圖中方框表示狀態變量,圓圈表示來自兩個不同模式的觀測變量。與傳統的HHMM相比,由于這些模型的變量依然保持層次分布狀態,故這些策略傳承了HHMM層次結構處理的好處。

(a) FHHMM模型

(b) CHHMM模型

(c) PHHMM模型

除此之外,它們還具有兩個優點:① 由于保持了層次結構,避免了融合多個模式時導致高維向量的處理;② 不同模式的箭頭表示,可以將多種模式信息的相互關系展示出來。

在實際應用中,動態貝葉斯網絡常用來表示一些時間系統的行為,其中節點被分成兩部分:上層節點表示系統的內部狀態,通常是隱藏的;下層節點表示系統的外部觀測,通常是可以測量到的。常用于時間系統建模的隱馬爾科夫模型(Hidden Markov Model,HMM)和卡爾曼濾波模型(Kalman Filter Model,KFM)都可以看作是動態貝葉斯網絡的特例。HMM 表示為具有離散狀態節點的 DBN,而 KFM 表示為具有連續狀態節點和觀測節點的DBN。

圖2(a)中FHHMM對傳統的HHMM進行了擴展,把最下面的狀態節點分解成了一系列因子,表示為:

(10)

(11)

(12)

(13)

CHHMM的多模式融合更加復雜,其底層的節點關系為:

(14)

(15)

(16)

(17)

PHHMM的底層概率定義為:

(18)

(19)

(20)

(21)

PHHMM的優勢在于允許多狀態異步性的存在,底層節點能夠由多模式任意組合。

1.2 學習和推理

在標記好的樣本中估計模型的參數叫做學習,在已有觀測序列的基礎上,求取概率最大情況下的狀態序列被稱為推理[12],先研究推理的問題,首先需要把多層次的貝葉斯動態網絡轉化成馬爾科夫模型,采用Viterbi方法求取結果[13]。當然,也可以基于貝葉斯Junction Tree方法來推理。使用Viterbi算法后,轉換后的馬爾科夫模型為:

(22)

(23)

b(Xt|i)=N(Xt,μiD,σiD)

(24)

馬爾科夫模型的狀態總數為N=i1,i2,…,iD。

基于結構已知的模型,采用EM算法來訓練模型[14]。EM算法的一般分為估計步驟和修改步驟。計算中EM算法容易出現局部最大值的問題,因此,將K均值與Viterbi算法相結合提出了一種效果很好的初始化算法:首先,采用K均值對所有模式的觀測特征聚類,作為每個模式各自的初始劃元,接著對各節點的概率進行估計,然后,依據估計的參數,運用Viterbi算法劃分最優狀態,接著參考新的劃分,來確定新的估計參數,將上述操作重復,當節點概率不再變大就可以停止。

2 實驗檢測與結果

為了驗證DBN模型的實用性,以足球視頻為例,采用上述模型對體育視頻中的中斷事件和進行事件進行分析。首先對視頻提取特征數據,提取的幀圖像特征包括:場地面積、圖像中運動員占據的面積大小,禁區和中場4種描述符,通過這些特征對足球視頻中的基本場景進行區分。場地面積通過場地顏色范圍內的像素數目與圖像總像素數目做比值可以得到,主色提取算法過程如下:

(1) 將從視頻中間部分隨機選取的K幀圖像放入緩存隊列。

(2) 將緩存圖像的顏色空間由RGB空間轉換到HSV空間,然后選取H分量計算它們的直方圖h(i)。設i為像素最多的H色度,初始的主色范圍為[i-r,i+r],其中r為主色半徑。

(3) 在初始的主色區間上,首先計算主色區間均值m,然后重新設定主色區間為[m-r,m+r],重復上述過程直到主色區間不再變化,或迭代次數超過閾值為止。

考慮到比賽是動態過程,主色會根據時間發生變化,因此在記錄中把處于主色范圍的像素數目超過一半的幀加入緩存隊列,同時拋棄較早的一幀,當更新的幀數超過K/2,則重復以上步驟重新計算主色空間。

運用主色提取算法,首先基于主色來區分顏色特征,用主色表示場地的出現,將主色二值化便得到了圖3(b)的二值圖。

(a) 原始圖像

(b) 二值圖像

本次實驗為了達成兩個目的:① 檢測能否實現多模式的融合;② 通過與傳統HHMM模型比較,看本文模型的性能如何。為了實現第1個目的,先實現了傳統的HHMM的系統,并以此作為基準,在操作時,用來訓練的對象只有顏色這一項,接著用來訓練的只有運動這一項。針對第2個目的,先實現了特征融合的系統,并以此作為參考,與上述系統不同的是,將運動特征和顏色特征結合在一起作為觀測輸入的對象。與基于傳統模型不同的是,本文的3種模型對各模式各自組建了觀測概率與基元。而模型性能會受不同的基元所對應的狀態數的影響,因此最終結果取的是各模型的最好結果。

采用20幾~10幾min的視頻作為本次實驗的測試數據集,選擇的格式是MPEG-1,尺寸為352×288,幀率為25幀/s,每隔0.5 s提取1次運動特征和顏色。然后先對模型訓練,接著再評價,主要選用交叉交驗的方法。每次實驗選擇90%的數據來訓練,其余的用來測試。上述操作重復次數為10次以上,當全部的數據都經過了實驗方可停止。

為了對分析結果有一個整體的衡量,運用常用的查全率R、查準率A以及它們的調和平均值F-value來評價。

查全率

查準率

調和平均值

F-value=2RP/(R+A)

基于幀和基于片段來評價不同模型分析得到的結果分別見表1、2。

表1 基于幀的實驗結果 %

表2 基于片段的實驗結果 %

由表1可知,準確率最高的是PHHMM;相對比之下,FHHMM、CHHMM以及PHHMM模型的準確率比使用特征融合的HHMM模型效果好。由表2可見,HHMM、FHHMM以及CHHMM 3種模型的查準率均在70%以下甚至更低,即都表現出了較低的查準率和較高的查全率,這是因為這3種模式的結果出現了過度分割。根據本文的評價算法,只有第1個事件被認為是準確的,因此查準率比較小,而過度分割是由模型在全局間關系約束不強、過度關注局部的變化造成的。不同的是,剛開始的實驗中PHHMM的效果不錯,沒有發生這種狀況[16]。綜合上述,PHHMM不但能夠滿足上下文的多層約束關系,而且可以有效利用各模式間動態交互。是一種應用性很好的模型。

3 結 語

多媒體視頻中的語義事件的本質是一個多模式的表達,融合視頻中運動信息、音頻信息和文本信息有助于實現準確的分析,在前人基礎上,基于貝葉斯動態網絡提出了多模式的多媒體視頻分析,實現了將多模式信息和事件上下文約束關系的融合處理分析。在貝葉斯動態網絡理論的基礎上,首先用拓撲結構表示事件的上下文關系;接著,建立了多種模式之間的連接關系,以此為基礎,成功提出了PHHMM模型,以足球視頻為例,并通過對其比賽視頻中的進行/中斷事件的實驗測試及與傳統HHMM方法的對比,證明了本文提出的模型在多模式的信息與多層次間的約束關系之間做了很好的平衡,性能得到很大的提高。

猜你喜歡
馬爾科夫貝葉斯節點
CM節點控制在船舶上的應用
基于三維馬爾科夫模型的5G物聯網數據傳輸協議研究
基于疊加馬爾科夫鏈的邊坡位移預測研究
基于貝葉斯解釋回應被告人講述的故事
基于AutoCAD的門窗節點圖快速構建
基于改進的灰色-馬爾科夫模型在風機沉降中的應用
概念格的一種并行構造算法
基于貝葉斯估計的軌道占用識別方法
基于互信息的貝葉斯網絡結構學習
抓住人才培養的關鍵節點
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合