一種視頻數(shù)據(jù)的挖掘方法和裝置的制造方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及數(shù)據(jù)處理技術(shù)領(lǐng)域,特別是涉及一種視頻數(shù)據(jù)的挖掘方法和一種視頻數(shù)據(jù)的挖掘裝置。
【背景技術(shù)】
[0002]隨著網(wǎng)絡(luò)技術(shù)的不斷發(fā)展和個(gè)性化需求的不斷提高,視頻網(wǎng)站中用戶的參與度得到極大提升,用戶生成內(nèi)容(User Generated Content,UGC)呈爆炸式增長(zhǎng)。
[0003]通常,視頻網(wǎng)站上的UGC視頻均具有數(shù)量龐大、復(fù)雜多樣、極其分散的特點(diǎn),UGC視頻中具有大量的優(yōu)質(zhì)視頻,同時(shí)也混雜著大量劣質(zhì)視頻,如何挖掘出散落在海量UGC視頻中滿足長(zhǎng)尾需求(Long-tail)的、優(yōu)質(zhì)的視頻成為一種需求。
[0004]目前,盡管某些網(wǎng)站允許用戶建立個(gè)人專輯,但由于用戶自身的隨意性和資源的不完整性,大部分專輯的質(zhì)量不高、視頻內(nèi)容混亂,導(dǎo)致這些專輯都缺乏實(shí)際的可用性,同時(shí),由于UGC視頻的數(shù)量過(guò)于龐大,通過(guò)人工的方式來(lái)挖掘優(yōu)質(zhì)視頻也變的不切實(shí)際,成本過(guò)尚。
【發(fā)明內(nèi)容】
[0005]鑒于上述問(wèn)題,提出了本發(fā)明實(shí)施例以便提供一種克服上述問(wèn)題或者至少部分地解決上述問(wèn)題的一種視頻數(shù)據(jù)的挖掘方法和相應(yīng)的一種視頻數(shù)據(jù)的挖掘裝置。
[0006]為了解決上述問(wèn)題,本發(fā)明實(shí)施例公開(kāi)了一種視頻數(shù)據(jù)的挖掘方法,包括:
[0007]采用預(yù)先訓(xùn)練的頻道分類器對(duì)待挖掘視頻數(shù)據(jù)進(jìn)行頻道分類,獲得頻道視頻集;
[0008]針對(duì)各個(gè)所述頻道視頻集,過(guò)濾掉不滿足預(yù)設(shè)過(guò)濾條件的視頻數(shù)據(jù);
[0009]對(duì)各個(gè)所述頻道視頻集中的視頻數(shù)據(jù)進(jìn)行聚類,獲得視頻聚類集合;
[0010]獲取各個(gè)所述視頻聚類集合的視頻集關(guān)鍵短語(yǔ);
[0011 ]針對(duì)各個(gè)所述視頻聚類集合,提取包含所述視頻集關(guān)鍵短語(yǔ)的視頻數(shù)據(jù),形成新的視頻聚類集合;
[0012]對(duì)各個(gè)所述新的視頻聚類集合進(jìn)行去重處理;
[0013]計(jì)算各個(gè)所述新的視頻聚類集合的平均相似度;
[0014]保留平均相似度大于或等于預(yù)設(shè)閾值的新的視頻聚類集合。
[0015]優(yōu)選的,所述獲取各個(gè)所述視頻聚類集合的視頻集關(guān)鍵短語(yǔ)的步驟包括:
[0016]獲取各個(gè)所述視頻聚類集合中視頻數(shù)據(jù)的第一視頻文本;
[0017]根據(jù)所述第一視頻文本獲取分詞關(guān)鍵短語(yǔ);
[0018]根據(jù)所述第一視頻文本獲取模板關(guān)鍵短語(yǔ);
[0019]將所述分詞關(guān)鍵短語(yǔ)和所述模板關(guān)鍵短語(yǔ)進(jìn)行融合,獲得視頻集關(guān)鍵短語(yǔ)。
[0020]優(yōu)選的,所述根據(jù)所述第一視頻文本獲取分詞關(guān)鍵短語(yǔ)的步驟包括:
[0021]對(duì)所述第一視頻文本進(jìn)行分詞處理,獲得視頻文本分詞;
[0022]統(tǒng)計(jì)各個(gè)所述視頻文本分詞在相應(yīng)視頻聚類集合中的出現(xiàn)頻率;
[0023]提取出現(xiàn)頻率高于第一預(yù)設(shè)頻率值的視頻文本分詞作為關(guān)鍵分詞;
[0024]將各個(gè)所述視頻聚類集合中的關(guān)鍵分詞組合成符合自然語(yǔ)言表達(dá)的分詞關(guān)鍵短語(yǔ)。
[0025]優(yōu)選的,所述根據(jù)所述第一視頻文本獲取模板關(guān)鍵短語(yǔ)的步驟包括:
[0026]加載預(yù)置關(guān)鍵短語(yǔ)模板;
[0027]將與所述預(yù)置關(guān)鍵短語(yǔ)模板匹配的第一視頻文本作為候選模板關(guān)鍵短語(yǔ);
[0028]統(tǒng)計(jì)各個(gè)所述候選模板關(guān)鍵短語(yǔ)在相應(yīng)視頻聚類集合中的出現(xiàn)頻率;
[0029]提取出現(xiàn)頻率高于第二預(yù)設(shè)頻率值的候選模板關(guān)鍵短語(yǔ)作為模板關(guān)鍵短語(yǔ)。
[0030]優(yōu)選的,所述頻道分類器通過(guò)以下方式訓(xùn)練:
[0031 ]確定各個(gè)頻道下的視頻樣本數(shù)據(jù);
[0032]獲取各個(gè)頻道下的視頻樣本數(shù)據(jù)的第二視頻文本;
[0033]采用所述第二視頻文本訓(xùn)練頻道分類器。
[0034]優(yōu)選的,所述對(duì)各個(gè)所述新的視頻聚類集合進(jìn)行去重處理的步驟包括:
[0035]獲取各個(gè)所述新的視頻聚類集合中視頻數(shù)據(jù)的第三視頻文本;
[0036]針對(duì)各個(gè)所述新的視頻聚類集合,提取視頻數(shù)據(jù)的第三視頻文本中的量詞;
[0037]針對(duì)各個(gè)所述新的視頻聚類集合,對(duì)具有相同量詞的多個(gè)視頻數(shù)據(jù),只保留其中一個(gè)視頻數(shù)據(jù)。
[0038]優(yōu)選的,還包括:
[0039]采用視頻文本中的量詞,對(duì)各個(gè)所述新的視頻聚類集合中的視頻數(shù)據(jù)進(jìn)行排序。
[0040]優(yōu)選的,所述計(jì)算各個(gè)所述新的視頻聚類集合的平均相似度的步驟包括:
[0041]計(jì)算各個(gè)所述新的視頻聚類集合中的視頻數(shù)據(jù)兩兩之間的相似度;
[0042]將所計(jì)算獲得的相似度累加,獲得總和相似度;
[0043]統(tǒng)計(jì)所計(jì)算獲得的相似度的個(gè)數(shù);
[0044]將所述總和相似度與所述相似度的個(gè)數(shù)的比值作為平均相似度。
[0045]本發(fā)明實(shí)施例還公開(kāi)了一種視頻數(shù)據(jù)的挖掘裝置,包括:
[0046]頻道分類模塊,用于采用預(yù)先訓(xùn)練的頻道分類器對(duì)待挖掘視頻數(shù)據(jù)進(jìn)行頻道分類,獲得頻道視頻集;
[0047]過(guò)濾模塊,用于針對(duì)各個(gè)所述頻道視頻集,過(guò)濾掉不滿足預(yù)設(shè)過(guò)濾條件的視頻數(shù)據(jù);
[0048]聚類模塊,用于對(duì)各個(gè)所述頻道視頻集中的視頻數(shù)據(jù)進(jìn)行聚類,獲得視頻聚類集合;
[0049]視頻集關(guān)鍵短語(yǔ)獲取模塊,用于獲取各個(gè)所述視頻聚類集合的視頻集關(guān)鍵短語(yǔ);
[0050]新的視頻聚類集合生成模塊,用于針對(duì)各個(gè)所述視頻聚類集合,提取包含所述視頻集關(guān)鍵短語(yǔ)的視頻數(shù)據(jù),形成新的視頻聚類集合;
[0051]去重模塊,用于對(duì)各個(gè)所述新的視頻聚類集合進(jìn)行去重處理;
[0052]平均相似度計(jì)算模塊,用于計(jì)算各個(gè)所述新的視頻聚類集合的平均相似度;
[0053]挖掘結(jié)果確定模塊,用于保留平均相似度大于或等于預(yù)設(shè)閾值的新的視頻聚類集入口 ο
[0054]優(yōu)選的,所述視頻集關(guān)鍵短語(yǔ)獲取模塊包括:
[0055]第一視頻文本獲取子模塊,用于獲取各個(gè)所述視頻聚類集合中視頻數(shù)據(jù)的第一視頻文本;
[0056]分詞關(guān)鍵短語(yǔ)獲取模塊,用于根據(jù)所述第一視頻文本獲取分詞關(guān)鍵短語(yǔ);
[0057]模板關(guān)鍵短語(yǔ)獲取模塊,用于根據(jù)所述第一視頻文本獲取模板關(guān)鍵短語(yǔ);
[0058]視頻集關(guān)鍵短語(yǔ)獲取模塊,用于將所述分詞關(guān)鍵短語(yǔ)和所述模板關(guān)鍵短語(yǔ)進(jìn)行融合,獲得視頻集關(guān)鍵短語(yǔ)。
[0059]本發(fā)明實(shí)施例包括以下優(yōu)點(diǎn):
[0060]本發(fā)明實(shí)施可以采用預(yù)先訓(xùn)練的頻道分類器對(duì)待挖掘視頻數(shù)據(jù)進(jìn)行頻道分類,獲得頻道視頻集,針對(duì)各個(gè)頻道視頻集,過(guò)濾掉不滿足預(yù)設(shè)過(guò)濾條件的視頻數(shù)據(jù),對(duì)各個(gè)頻道視頻集中的視頻數(shù)據(jù)進(jìn)行聚類,獲得視頻聚類集合,獲取各個(gè)視頻聚類集合的視頻集關(guān)鍵短語(yǔ),針對(duì)各個(gè)視頻聚類集合,提取包含視頻集關(guān)鍵短語(yǔ)的視頻數(shù)據(jù),形成新的視頻聚類集合,對(duì)各個(gè)新的視頻聚類集合進(jìn)行去重處理,計(jì)算各個(gè)新的視頻聚類集合的平均相似度,保留平均相似度大于或等于預(yù)設(shè)閾值的新的視頻聚類集合,最終所獲得的新的視頻聚類集合中的視頻數(shù)據(jù)具有高度的趨同性,進(jìn)而實(shí)現(xiàn)了從海量的UGC視頻中挖掘出優(yōu)質(zhì)的UGC視頻,并將這些優(yōu)質(zhì)的UGC視頻進(jìn)行歸類,提高了優(yōu)質(zhì)視頻的挖掘效率,避免了人工挖掘優(yōu)質(zhì)視頻的成本過(guò)高的問(wèn)題。
【附圖說(shuō)明】
[0061 ]圖1是本發(fā)明的一種視頻數(shù)據(jù)的挖掘方法實(shí)施例的步驟流程圖;
[0062]圖2是本發(fā)明的一種視頻數(shù)據(jù)的挖掘裝置實(shí)施例的結(jié)構(gòu)框圖。
【具體實(shí)施方式】
[0063]為使本發(fā)明的上述目的、特征和優(yōu)點(diǎn)能夠更加明顯易懂,下面結(jié)合附圖和【具體實(shí)施方式】對(duì)本發(fā)明作進(jìn)一步詳細(xì)的說(shuō)明。
[0064]本發(fā)明實(shí)施例的核心構(gòu)思之一在于,本發(fā)明實(shí)施可以采用預(yù)先訓(xùn)練的頻道分類器對(duì)待挖掘視頻數(shù)據(jù)進(jìn)行頻道分類,獲得頻道視頻集,針對(duì)各個(gè)頻道視頻集,過(guò)濾掉不滿足預(yù)設(shè)過(guò)濾條件的視頻數(shù)據(jù),對(duì)各個(gè)頻道視頻集中的視頻數(shù)據(jù)進(jìn)行聚類,獲得視頻聚類集合,獲取各個(gè)視頻聚類集合的視頻集關(guān)鍵短語(yǔ),針對(duì)各個(gè)視頻聚類集合,提取包含視頻集關(guān)鍵短語(yǔ)的視頻數(shù)據(jù),形成新的視頻聚類集合,對(duì)各個(gè)新的視頻聚類集合進(jìn)行去重處理,計(jì)算各個(gè)新的視頻聚類集合的平均相似度,保留平均相似度大于或等于預(yù)設(shè)閾值的新的視頻聚類集合,最終所獲得的新的視頻聚類集合中的視頻數(shù)據(jù)具有高度的趨同性,進(jìn)而實(shí)現(xiàn)了從海量的UGC視頻中挖掘出優(yōu)質(zhì)的UGC視頻,并將這些優(yōu)質(zhì)的UGC視頻進(jìn)行歸類,提高了優(yōu)質(zhì)視頻的挖掘效率,避免了人工挖掘優(yōu)質(zhì)視頻的成本過(guò)高的問(wèn)題。
[0065]參照?qǐng)D1,示出了本發(fā)明的一種視頻數(shù)據(jù)的挖掘方法實(shí)施例的步驟流程圖,具體可以包括如下步驟:
[0066]步驟101,采用預(yù)先訓(xùn)練的頻道分類器對(duì)待挖掘視頻數(shù)據(jù)進(jìn)行頻道分類,獲得頻道視頻集;
[0067]在本發(fā)明實(shí)施例中,待挖掘視頻數(shù)據(jù)主要是指用戶生成(Generated Content,UGC)的視頻數(shù)據(jù),即UGC視頻數(shù)據(jù),這些UGC視頻通常由