一種基于稀疏低秩編碼的視頻動作識別方法
【專利摘要】本發(fā)明涉及一種基于稀疏低秩編碼的視頻動作識別方法。本發(fā)明對給定的視頻集合進行如下操作:1)對每個視頻從空間和時間兩個維度使用立方體檢測和描述視頻動作的興趣點,并形成相應(yīng)的局部時空特征;2)利用稀疏低秩矩陣分解對局部時空特征做編碼,形成對應(yīng)興趣點的稀疏低秩編碼表示,并用改進的平均池化技術(shù)獲得全局時空特征向量作為視頻的數(shù)據(jù)表示;3)對所有視頻樣本實施上述步驟獲得相應(yīng)的時空數(shù)據(jù)表示,并分為訓(xùn)練樣本和測試樣本,再利用支持向量機建立分類模型用于識別測試樣本的視頻動作。本發(fā)明能夠從局部和全局角度利用視頻興趣點的時空特征有力刻畫視頻動作,并通過稀疏低秩編碼獲得更優(yōu)的視頻數(shù)據(jù)表示,提高了視頻動作識別的準(zhǔn)確率。
【專利說明】
一種基于稀疏低秩編碼的視頻動作識別方法
技術(shù)領(lǐng)域
[0001] 本發(fā)明屬于視頻分析技術(shù)領(lǐng)域,特別是基于稀疏低秩編碼的視頻動作識別方法。
【背景技術(shù)】
[0002] 隨著視頻采集設(shè)備的日益豐富和城市安防監(jiān)控需求的逐步增大,各類視頻數(shù)據(jù)源 源不斷地產(chǎn)生,使得視頻大數(shù)據(jù)的理解受到學(xué)術(shù)界和產(chǎn)業(yè)界研究人員的廣泛關(guān)注,同時引 起了國家高層的重視。不同于傳統(tǒng)的文本和圖像,視頻往往呈現(xiàn)非結(jié)構(gòu)化、規(guī)模大的特點且 具有時序關(guān)聯(lián)性,給理解和分析視頻數(shù)據(jù)帶來很大挑戰(zhàn)。常見的視頻數(shù)據(jù)應(yīng)用包括目標(biāo)定 位與跟蹤、目標(biāo)識別、動作識別、事件檢測等。其中,視頻動作識別作為典型的視頻理解問 題,可用于地鐵廣場監(jiān)控、交通流監(jiān)管,同時為視頻數(shù)據(jù)的高層語義分析奠定基礎(chǔ),例如視 頻事件一般由多個相互關(guān)聯(lián)的視頻動作組成,因而視頻動作識別方法的研究有利于提高視 頻事件檢測技術(shù)的發(fā)展。
[0003] 視頻的數(shù)據(jù)表示是實現(xiàn)視頻動作識別的關(guān)鍵,即對視頻提取特征并將其表示為向 量形式。最為直接的方法是提取視頻幀的圖像特征,如SIFT、SURF等,但是該方法未考慮視 頻幀之間的時間關(guān)系,不能反映興趣點的時空變化。由此,研究人員提出許多時空興趣點提 取方法,比如立方體(Cuboid)算子,分別從時間和空間兩個維度提取給定視頻的興趣點,并 用合適的描述子表征興趣點。同時,對興趣點表征向量的進一步優(yōu)化是提升視頻動作識別 效果的重要途徑,例如詞袋(BoW)表示、稀疏表示、低秩表示、非負矩陣分解等等。然后,對優(yōu) 化后的興趣點表示利用最大池化技術(shù)或平均池化技術(shù)獲得視頻的向量化特征表示。最后, 在視頻樣本集的新特征表示上建立分類模型,用于對未標(biāo)記的視頻樣本進行動作識別。
[0004] 上述方法存在一些缺陷,例如詞袋表不和非負矩陣分解均未充分考慮視頻樣本與 字典間的重構(gòu)關(guān)系、稀疏表示未考慮重構(gòu)矩陣的低秩特性、低秩表示未考慮重構(gòu)矩陣的稀 疏特性,使得視頻樣本的特征表示不能很好地刻畫動作的興趣點。另外,最大池化技術(shù)僅考 慮了占比最大興趣點而忽略了其他重要興趣點;平均池化技術(shù)由于利用了所有的興趣點特 征,使之不可避免地將一些噪聲興趣點特征用于計算視頻的全局特征表示。總體而言,這些 視頻特征表示方法或多或少都存在無法克服的缺點,不利于視頻樣本分類器的建立,直接 影響了視頻動作的識別效果。因此,迫切需要設(shè)計一種能準(zhǔn)確反映視頻時空興趣點結(jié)構(gòu)的 特征編碼方法,同時考慮局部和全局信息,從而構(gòu)建泛化能力更強的視頻動作識別分類器, 提尚識別的精度。
【發(fā)明內(nèi)容】
[0005] 為了準(zhǔn)確表征視頻動作序列的時空結(jié)構(gòu),從局部和全局兩個角度反映視頻中興趣 點的時空信息,增強視頻動作識別的效果,本發(fā)明提出了一種基于稀疏低秩編碼的視頻動 作識別方法,該方法包括以下步驟:
[0006] 1、獲取視頻樣本集合后,進行以下操作:
[0007] 1)對每個視頻從空間和時間兩個維度使用立方體算子檢測和描述視頻動作的興 趣點,并形成相應(yīng)的局部時空特征。
[0008] 2)利用稀疏低秩矩陣分解對局部時空特征做編碼,形成對應(yīng)興趣點的稀疏低秩編 碼表示,并采用改進的平均池化技術(shù)獲得全局時空特征向量作為一個視頻的數(shù)據(jù)表示。
[0009] 3)對所有的視頻樣本實施上述步驟后,可獲得相應(yīng)的時空數(shù)據(jù)表示,將其分為訓(xùn) 練樣本和測試樣本,利用支持向量機建立分類模型用于識別測試樣本的視頻動作。
[0010] 進一步,所述的步驟1)中的對每個視頻從空間和時間兩個維度使用立方體算子檢 測和描述視頻動作的興趣點,并形成相應(yīng)的局部時空特征,具體是:
[0011 ] 1 · 1)對每個視頻分別用二維高斯光滑核(Gaussian smoothing kernel)與一維高 波濾波器(Gabor filter)從空間維度和時間維度生成η個興趣點,并采用立方體描述子 (Cuboid descriptor)表示這些局部時空興趣點。
[0012] 1.2)單個視頻的所有興趣點表示組成的集合記為
,其中每個興趣 點表示Ii(i = l,2,…,n)為長度為80維的具有局部時空特性的列向量,這些列向量組成該 視頻對應(yīng)的特征矩陣
[0013] 進一步,所述的步驟2)中的利用稀疏低秩矩陣分解對局部時空特征做編碼,形成 對應(yīng)興趣點的稀疏低秩編碼表示,并采用改進的平均池化技術(shù)獲得全局時空特征向量作為 一個視頻的數(shù)據(jù)表示,具體是:
[0014] 2.1)視頻的特征矩陣X分解為兩部分,一部分為從數(shù)據(jù)字典(500為字 典的原子個數(shù),80為字典原子的維度)重構(gòu)獲得的低秩矩陣ZeR5wta,另一部分為噪聲矩陣 五e!R 8°xn,并對低秩矩陣Z添加1:范式約束I |Z| U,使得重構(gòu)矩陣Z盡可能逼近視頻中興趣點 的局部時空特性結(jié)構(gòu)。
[0015] 2.2)數(shù)據(jù)字典A通過對視頻的特征矩陣X運用k均值(k-means)聚類算法獲得,即將 視頻的所有興趣點表示聚為500個簇,而簇中心以列向量的形式組成數(shù)據(jù)字典A。
[0016] 2.3)根據(jù)視頻的特征矩陣及其數(shù)據(jù)字典,計算最優(yōu)稀疏低秩編碼矩陣Z的目標(biāo)函 數(shù)為
[0017]
[0018]其中,常數(shù)α>0,λ>〇,符號I I · I I*表示矩陣的核范數(shù)為矩陣的奇異值之和,符號 ? I |2,1表示矩陣的12,1范數(shù),即先求矩陣各列向量的h范式再求其Il范式。
[0019] 2.4)為了減少求解核范數(shù)的時間復(fù)雜度,特將矩陣Z分解為兩個矩陣,即2^妒_> 和用Frobenius范數(shù)I I · I |F近似替換核范數(shù),則計算效率更高的目標(biāo)函數(shù)為
[0020]
[0021] 這樣,該目標(biāo)函數(shù)中共有四個變量需要優(yōu)化。
[0022] 2.5)利用變量交替迭代優(yōu)化方法求解2.4)中目標(biāo)函數(shù)的最優(yōu)解,可得到視頻的最 優(yōu)稀疏低秩編碼表示Z'其中變量交替迭代方法的本質(zhì)特點在于每輪迭代中依次固定其他 變量的同時僅優(yōu)化一個變量。
[0023] 2.6)最優(yōu)稀疏低秩編碼表示浐由500個維度為η的行向量組成,即{Z1,Z2,…,Z 500}, 對其運用改進的平均池化技術(shù),即對矩陣Ζ*中各行向量依次取前20個最大元素值的算術(shù)平 均值(先對行向量中的η個元素做降序排列),便可以得到視頻的全局時空特征向量X,其維 度為500。
[0024] 所述的步驟3)中的對所有的視頻樣本實施上述步驟后,可獲得相應(yīng)的時空數(shù)據(jù)表 示,將其分為訓(xùn)練樣本和測試樣本,利用支持向量機建立分類模型用于識別測試樣本的視 頻動作,具體是:
[0025] 3.1)對所有的視頻樣本實施步驟1)和步驟2)后,可獲得相應(yīng)的時空數(shù)據(jù)表示{yi, y2,…,ym},此處設(shè)有m個視頻樣本。
[0026] 3.2)將m個視頻樣本一分為二,其中80%作為訓(xùn)練樣本(即具有動作類別標(biāo)記的視 頻),20%作為測試樣本(即無標(biāo)記的視頻),利用支持向量機(SVM)在訓(xùn)練樣本上建立分類 模型,則輸入測試樣本的數(shù)據(jù)表示可通過SVM分類器獲得對應(yīng)的類別標(biāo)記,即實現(xiàn)了視頻動 作的識別功能。
[0027]本發(fā)明提出了基于稀疏低秩編碼的視頻動作識別方法,其優(yōu)點在于:通過立方體 算子從空間和時間兩個維度對視頻檢測和描述其興趣點,能充分地刻畫視頻的動作序列特 性;利用稀疏低秩矩陣分解基于字典矩陣對興趣點特征進行重構(gòu)表示,能有效地反映視頻 的興趣點的時空信息;采用改進的平均池化技術(shù)對興趣點的局部時空特征進行編碼,能更 好地刻畫視頻的全局特征建立泛化能力更強的分類器,從而提高了視頻的動作識別效果, 為智慧城市的安防監(jiān)控等應(yīng)用提供了技術(shù)支持。
【附圖說明】
[0028]圖1是本發(fā)明的方法流程圖。
【具體實施方式】
[0029]參照附圖1,進一步說明本發(fā)明:
[0030] 1、獲取視頻集合后,進行以下操作:
[0031] 1)對每個視頻從空間和時間兩個維度使用立方體算子檢測和描述視頻動作的興 趣點,并形成相應(yīng)的局部時空特征。
[0032] 2)利用稀疏低秩矩陣分解對局部時空特征做編碼,形成對應(yīng)興趣點的稀疏低秩編 碼表示,并采用改進的平均池化技術(shù)獲得全局時空特征向量作為一個視頻的數(shù)據(jù)表示。
[0033] 3)對所有的視頻樣本實施上述步驟后,可獲得相應(yīng)的時空數(shù)據(jù)表示,將其分為訓(xùn) 練樣本和測試樣本,利用支持向量機建立分類模型用于識別測試樣本的視頻動作。
[0034] 步驟1)中所述的對每個視頻從空間和時間兩個維度使用立方體算子檢測和描述 視頻動作的興趣點,并形成相應(yīng)的局部時空特征,具體是:
[0035] 1 · 1)對每個視頻分別用二維高斯光滑核(Gaussian smoothing kernel)與一維高 波濾波器(Gabor filter)從空間維度和時間維度生成η個興趣點,并采用立方體描述子 (Cuboid descriptor)表示這些局部時空興趣點。
[0036] 1.2)單個視頻的所有興趣點表示組成的集合記為:T = U1J2,…,ia},其中每個興趣 點表示Ii(i = l,2,…,n)為長度為80維的具有局部時空特性的列向量,這些列向量組成該 視頻對應(yīng)的特征矩陣X = [-W. ·,x" ] e Rsq'
[0037] 步驟2)中的利用稀疏低秩矩陣分解對局部時空特征做編碼,形成對應(yīng)興趣點的稀 疏低秩編碼表示,并采用改進的平均池化技術(shù)獲得全局時空特征向量作為一個視頻的數(shù)據(jù) 表示,具體是:
[0038] 2.1)視頻的特征矩陣X分解為兩部分,一部分為從數(shù)據(jù)字典(500為字 典的原子個數(shù),80為字典原子的維度)重構(gòu)獲得的低秩矩陣Ze R5ti0xn,另一部分為噪聲矩陣 五并對低秩矩陣Z添加1:范式約束I |Z| I1,使得重構(gòu)矩陣Z盡可能逼近視頻中興趣點 的局部時空特性結(jié)構(gòu)。
[0039] 2.2)數(shù)據(jù)字典A通過對視頻的特征矩陣X運用k均值(k-means)聚類算法獲得,即將 視頻的所有興趣點表示聚為500個簇,而簇中心以列向量的形式組成數(shù)據(jù)字典A。
[0040] 2.3)根據(jù)視頻的特征矩陣及其數(shù)據(jù)字典,計算最優(yōu)稀疏低秩編碼矩陣Z的目標(biāo)函 數(shù)為
[0041]
[0042] 其中,常數(shù)α>0,λ>〇,符號I I · I I*表示矩陣的核范數(shù)為矩陣的奇異值之和,符號 ? I |2,1表示矩陣的12,1范數(shù),即先求矩陣各列向量的h范式再求其Il范式。
[0043] 2.4)為了減少求解核范數(shù)的時間復(fù)雜度,特將矩陣Z分解為兩個矩陣,即 和Qertlxn,用Frobenius范數(shù)I I · I |F近似替換核范數(shù),則計算效率更高的目標(biāo)函數(shù)為
[0044]
[0045] 這樣,該目標(biāo)函數(shù)中共有四個變量需要優(yōu)化。
[0046] 2.5)利用變量交替迭代優(yōu)化方法求解2.4)中目標(biāo)函數(shù)的最優(yōu)解,可得到視頻的最 優(yōu)稀疏低秩編碼表示Z'其中變量交替迭代方法的本質(zhì)特點在于每輪迭代中依次固定其他 變量的同時僅優(yōu)化一個變量。
[0047] 2.6)最優(yōu)稀疏低秩編碼表示浐由500個維度為η的行向量組成,即{Z1,Z 2,…,Z500}, 對其運用改進的平均池化技術(shù),即對矩陣浐中各行向量依次取前20個最大元素值的算術(shù)平 均值(先對行向量中的η個元素做降序排列),便可以得到視頻的全局時空特征向量X,其維 度為500。
[0048]步驟3)中的對所有的視頻樣本實施上述步驟后,可獲得相應(yīng)的時空數(shù)據(jù)表示,將 其分為訓(xùn)練樣本和測試樣本,利用支持向量機建立分類模型用于識別測試樣本的視頻動 作,具體是:
[0049] 3.1)對所有的視頻樣本實施步驟1)和步驟2)后,可獲得相應(yīng)的時空數(shù)據(jù)表示{yi, y2,…,ym},此處設(shè)有m個視頻樣本。
[0050] 3.2)將m個視頻樣本一分為二,其中80%作為訓(xùn)練樣本(即具有動作類別標(biāo)記的視 頻),20%作為測試樣本(即無標(biāo)記的視頻),利用支持向量機(SVM)在訓(xùn)練樣本上建立分類 模型,則輸入測試樣本的數(shù)據(jù)表示可通過SVM分類器獲得對應(yīng)的類別標(biāo)記,即實現(xiàn)了視頻動 作的識別功能。
[0051] 本說明書實施例所述的內(nèi)容僅僅是對發(fā)明構(gòu)思的實現(xiàn)形式的列舉,本發(fā)明的保護 范圍的不應(yīng)當(dāng)被視為僅限于實施例所陳述的具體形式,本發(fā)明的保護范圍也及于本領(lǐng)域技 術(shù)人員根據(jù)本發(fā)明構(gòu)思所能夠想到的等同技術(shù)手段。
【主權(quán)項】
1. 一種基于稀疏低秩編碼的視頻動作識別方法,該方法的特征在于對給定的視頻集 合,進行如下操作: 1) 對每個視頻從空間和時間兩個維度使用立方體算子檢測和描述視頻動作的興趣點, 并形成相應(yīng)的局部時空特征; 2) 利用稀疏低秩矩陣分解對局部時空特征做編碼,形成對應(yīng)興趣點的稀疏低秩編碼表 示,并采用改進的平均池化技術(shù)獲得全局時空特征向量作為一個視頻的數(shù)據(jù)表示; 3) 對所有的視頻樣本實施上述步驟后,可獲得相應(yīng)的時空數(shù)據(jù)表示,將其分為訓(xùn)練樣 本和測試樣本,利用支持向量機建立分類模型用于識別測試樣本的視頻動作。2. 如權(quán)利要求1所述的基于稀疏低秩編碼的視頻動作識別方法,其特征在于:所述的步 驟1)中的對每個視頻從空間和時間兩個維度使用立方體算子檢測和描述視頻動作的興趣 點,并形成相應(yīng)的局部時空特征,具體是: 1.1) 對每個視頻分別用二維高斯光滑核與一維高波濾波器從空間維度和時間維度生 成η個興趣點,并采用立方體描述子表示這些局部時空興趣點; 1.2) 單個視頻的所有興趣點表示組成的集合記為:Γ=認,/,,..'},其中每個興趣點表 示Ii(i = l,2,…,n)為長度為80維的具有局部時空特性的列向量,這些列向量組成該視頻 對應(yīng)的特征矩陣X。[.^,…為]e 。:3. 如權(quán)利要求1所述的基于稀疏低秩編碼的視頻動作識別方法,其特征在于:所述的步 驟2)中的利用稀疏低秩矩陣分解對局部時空特征做編碼,形成對應(yīng)興趣點的稀疏低秩編碼 表示,并采用改進的平均池化技術(shù)獲得全局時空特征向量作為一個視頻的數(shù)據(jù)表示,具體 是: 2.1) 視頻的特征矩陣X分解為兩部分,一部分為從數(shù)據(jù)字典J e肢8<^(?重構(gòu)獲得的低秩 矩陣Z e K5()^,另一部分為噪聲矩陣五e I*-,并對低秩矩陣Z添加乜范式約束| | Z | |:,使得 重構(gòu)矩陣Z盡可能逼近視頻中興趣點的局部時空特性結(jié)構(gòu); 2.2) 數(shù)據(jù)字典A通過對視頻的特征矩陣X運用k均值聚類算法獲得,即將視頻的所有興 趣點表示聚為500個簇,而簇中心以列向量的形式組成數(shù)據(jù)字典A; 2.3) 根據(jù)視頻的特征矩陣及其數(shù)據(jù)字典,計算最優(yōu)稀疏低秩編碼矩陣Z的目標(biāo)函數(shù)為其中,常數(shù)α>〇,λ>0,符號| | · | I*表示矩陣的核范數(shù)為矩陣的奇異值之和,符號| | · 2>1表示矩陣的12>1范數(shù),即先求矩陣各列向量的h范式再求其h范式; 2.4) 為了減少求解核范數(shù)的時間復(fù)雜度,將矩陣2分解為兩個矩陣,即1^狀5°°><81)和 ",用Frobenius范數(shù)| | · | |F近似替換核范數(shù),則計算效率更高的目標(biāo)函數(shù)為這樣,該目標(biāo)函數(shù)中共有四個變量需要優(yōu)化; 2.5) 利用變量交替迭代優(yōu)化方法求解2.4)中目標(biāo)函數(shù)的最優(yōu)解,可得到視頻的最優(yōu)稀 疏低秩編碼表示浐,其中變量交替迭代方法的本質(zhì)特點在于每輪迭代中依次固定其他變量 的同時僅優(yōu)化一個變量; 2.6)最優(yōu)稀疏低秩編碼表示?由500個維度為η的行向量組成,即{Z1,Z2,…, Ζ5(χ)},對其 運用改進的平均池化技術(shù),即對矩陣f中各行向量依次取前20個最大元素值的算術(shù)平均 值,便可以得到視頻的全局時空特征向量X,其維度為500。4.如權(quán)利要求1所述的基于稀疏低秩編碼的視頻動作識別方法,其特征在于:所述的步 驟3)中的對所有的視頻樣本實施上述步驟后,可獲得相應(yīng)的時空數(shù)據(jù)表示,將其分為訓(xùn)練 樣本和測試樣本,利用支持向量機建立分類模型用于識別測試樣本的視頻動作,具體是: 3.1) 對所有的視頻樣本實施步驟1)和步驟2)后,可獲得相應(yīng)的時空數(shù)據(jù)表示{yi, y2,…,ym},此處設(shè)有m個視頻樣本; 3.2) 將m個視頻樣本一分為二,其中80 %作為訓(xùn)練樣本,20 %作為測試樣本,利用支持 向量機在訓(xùn)練樣本上建立分類模型,則輸入測試樣本的數(shù)據(jù)表示可通過支持向量機分類器 獲得對應(yīng)的類別標(biāo)記,即實現(xiàn)了視頻動作的識別功能。
【文檔編號】G06K9/00GK106056082SQ201610377217
【公開日】2016年10月26日
【申請日】2016年5月31日
【發(fā)明人】李平, 彭勇, 計忠平, 徐向華
【申請人】杭州電子科技大學(xué)