日韩成人黄色,透逼一级毛片,狠狠躁天天躁中文字幕,久久久久久亚洲精品不卡,在线看国产美女毛片2019,黄片www.www,一级黄色毛a视频直播

一種基于圖像和文本相關性挖掘的Web圖像聚類方法

文檔序號:6575844閱讀:302來源:國知局
專利名稱:一種基于圖像和文本相關性挖掘的Web圖像聚類方法
技術領域
本發(fā)明涉及多媒體檢索,尤其涉及一種基于圖像和文本相關性挖掘的Web圖像聚類方法。

背景技術
在Web上,使用關鍵字搜索圖像仍然是有效的常用檢索手段,如商業(yè)搜索引擎Google和AltaVista的圖片搜索。在Web圖像檢索中,用戶提交的關鍵字往往是視覺多義詞,這類單詞包含多個不同視覺含義。例如單詞“mouse”可表示“computer mouse”、“mouse animal”和“Mickey mouse”等多個主題。因此,用這些視覺多義詞查詢圖像,所返回的圖像檢索結果會包含多個主題,并且不同主題的圖像混合在一起。這就需要提供一種檢索后處理過程來對表達不同主題的圖像進行歸類。近來,很多研究者提出了Web圖像聚類方法來解決這個問題。由于圖像的底層特征和高層語義之間存在“語義鴻溝”,這些聚類方法往往同時利用了被聚類圖像集合所包含的視覺、文本和鏈接等多模態(tài)信息。屬于不同特征空間的多模態(tài)信息是相互關聯(lián)的,挖掘和利用這些相關性關聯(lián)以進行多模態(tài)信息融合的學習是近期機器學習研究的一個重點課題,代表性工作有多視角學習和遷移學習。前者同時利用同一數(shù)據(jù)的多種特征空間表示進行學習,而后者研究訓練數(shù)據(jù)和測試數(shù)據(jù)有不同分布或屬于不同特征空間的學習問題。本發(fā)明挖掘文本與圖像兩種模態(tài)信息的相關性關聯(lián),通過圖模型對其關聯(lián)關系進行建模,并利用圖聚類算法對Web圖像進行聚類。
Web圖像通常與其伴隨文本共存于HTML頁面之中,伴隨文本以及一些文本標簽描述了圖像的語義內容。在Web圖像檢索和標注領域,很多研究利用了圖像和文本之間的相關性關聯(lián)。但是,伴隨文本中不同單詞對圖像語義描述所做貢獻不同。對于文本中多個單詞,有的單詞能夠找到合適的圖像來形象地描述該單詞的含義,例如“chairs”;有的單詞比較抽象,則很難找到一個合適圖像來形象地描述該單詞的含義,例如“statistics”。從形象思維的角度,這種差異反映了單詞和圖像之間存在不同語義關聯(lián),也反映單詞具有“可見度”屬性。所謂可見度即某個單詞可被視覺感知的概率。作為一種文本處理技術,TF-IDF并不能直接度量單詞和圖像之間的相關性,傳統(tǒng)通過TF-IDF方法衡量伴隨文本中單詞對圖像的重要性一定程度上忽略了圖像本身具有的視覺特征。因此,本發(fā)明提出一種單詞可見度模型,并將該模型與TF-IDF方法結合來定義一種新的單詞和圖像相關性關聯(lián)。
另一方面,對于包含多個主題的Web圖像集合,其伴隨文本中的隱含主題信息間接反映了圖像間的主題相關性。為了將這種主題相關性引入Web圖像聚類,本發(fā)明利用隱含狄利克雷分配進行學習以得到分布在每個單詞上的隱含主題概率,通過定義的主題相關度函數(shù)計算單詞和單詞主題相關性。隱含狄利克雷分配模型,即Latent Dirichlet Allocation,是近年來提出的一種能提取文本隱含主題的非監(jiān)督學習模型,作為一種生成概率模型,隱含狄利克雷分配建模在一個離散數(shù)據(jù)的集合上,如文本數(shù)據(jù)集。在文本表示領域,隱含狄利克雷分配是主題模型的典型代表,能夠對文本數(shù)據(jù)包含的主題信息進行建模。
因此,本發(fā)明通過挖掘圖像和伴隨文本之間的相關性關聯(lián)得到兩種關聯(lián)關系單詞和圖像相關性關聯(lián)以及單詞和單詞主題相關性關聯(lián),這種交叉關聯(lián)可用圖模型進行建模。傳統(tǒng)的圖模型只能對單一類型結點及結點間的同構鏈接進行建模。二部圖能夠對兩種類型結點進行建模,但是該圖模型只包含不同類型結點之間的異構鏈接。由于本發(fā)明涉及的兩種關聯(lián)關系既包含單詞和圖像兩類不同結點之間的異構鏈接,又包含單詞和單詞同類型結點之間的同構鏈接,因此提出用更一般的復雜圖模型對這兩種關聯(lián)關系進行建模,并應用復雜圖聚類算法對圖像進行聚類。


發(fā)明內容
本發(fā)明的目的是為了對Web圖像檢索結果進行聚類,使得相同主題圖像聚成一類,以方便用戶進行檢索,提出一種基于圖像和文本相關性挖掘的Web圖像聚類方法。
基于圖像和文本相關性挖掘的Web圖像聚類方法包括如下步驟 (1)根據(jù)用戶查詢提取Google圖片搜索的檢索結果中的圖像及其伴隨文本,提取伴隨文本中的名詞構成詞匯表; (2)對伴隨文本進行文本處理并提取文本特征; (3)計算詞匯表中每個單詞的可見度; (4)將單詞的可見度與TF-IDF方法集成以計算單詞和圖像相關性關聯(lián); (5)根據(jù)主題模型對伴隨文本集合進行分析,提取隱含主題概率分布以計算詞匯表中任意兩個單詞間的主題相關度; (6)利用復雜圖模型對單詞和圖像相關性關聯(lián)以及單詞和單詞主題相關性關聯(lián)進行建模; (7)應用復雜圖聚類算法對圖像進行聚類。
所述的根據(jù)用戶查詢提取Google圖片搜索的檢索結果中的圖像及其伴隨文本,提取伴隨文本中的名詞構成詞匯表的步驟如下 (1)編寫爬蟲程序下載Google圖片搜索的檢索結果中的圖像,構成圖像集合IMG={Image1,...,ImageNd},其中Nd是集合IMG中的圖像總數(shù); (2)下載圖像集合IMG中每個圖像所在網頁,利用頁面解析程序對每個網頁進行解析,去除HTML標記和標點符號后,保留頁面上的文本內容作為圖像的伴隨文本; (3)對每個圖像的伴隨文本進行詞性標注,去除非名詞單詞,保留文本中的名詞,構成伴隨文本集合D={d1,...,dNd},其中Nd是集合D中的伴隨文本總數(shù); (4)順序掃描伴隨文本集合D中的每個伴隨文本di中的所有單詞,其中i=1,…,Nd,每個不同單詞保留一個,形成單詞列表表示的詞匯表VOL={wi,…,wNw},其中Nw是詞匯表VOL中的單詞總數(shù)。
所述的對伴隨文本進行文本處理并提取文本特征的步驟如下 (1)對詞匯表VOL中的每個單詞wi,其中i=1,…,Nw,Nw是詞匯表中單詞總數(shù),順序掃描伴隨文本集合D中的每個伴隨文本dj,統(tǒng)計每個單詞wi在每個文檔dj中出現(xiàn)的次數(shù)nij,其中j=1,…,Nd,Nd是伴隨文本總數(shù),并統(tǒng)計集合D中包含單詞wi的伴隨文本個數(shù)num(wi); (2)根據(jù)公式(1)計算每個單詞wi在每個伴隨文本dj中的詞頻freq(wi,dj),其中i=1,…,Nw,Nw是詞匯表中單詞總數(shù),j=1,…,Nd,Nd是集合D中伴隨文本總數(shù); (3)對詞匯表VOL中的每個單詞wi,根據(jù)公式(2)計算其逆文檔詞頻idf(wi); idf(wi)=log(Nd/num(wi)).(2) (4)根據(jù)向量空間模型,將集合D中每個伴隨文本dj表示成Nw維向量,第i維對應詞匯表中的單詞wi,其值為tfidf(wi),計算公式如下 tfidf(wi)=freq(wi,dj)×idf(wi).(3)。
所述的計算詞匯表中每個單詞的可見度的方法是詞匯表VOL中每個單詞wi的可見度值vis(wi)由公式(4)計算; 其中,C1是將單詞wi作為查詢提交給Google圖片搜索返回的檢索結果總數(shù),C2是將單詞wi作為查詢提交給Google文本搜索返回的檢索結果總數(shù);指數(shù)因子IDFGoogle(wi)的計算公式如下 IDFGoogle(wi)=log(|DGoogle|/C2).(5) 其中,DGoogle是Google索引的所有Web頁面集合,|DGoogle|表示集合DGoogle中的頁面總數(shù)。
所述的將單詞的可見度與TF-IDF方法集成以計算單詞和圖像相關性關聯(lián)的方法是單詞wi與圖像Imagej的相關性關聯(lián)r(wi,Imagei)由公式(6)計算,其中j=1,…,Nd,Nd是伴隨文本總數(shù); r(wi,Imagej)=tfidf(wi)×vis(wi).(6)。
所述的根據(jù)主題模型對伴隨文本集合進行分析,提取隱含主題概率分布以計算詞匯表中任意兩個單詞間的主題相關度的步驟如下 (1)以詞匯表VOL、伴隨文本集合D和集合D中的隱含主題數(shù)k作為主題模型隱含狄利克雷分配的輸入,輸出每個隱含主題zj的概率分布P(zj)和zj在每個單詞wi上的概率分布P(wi|zj),其中j=1,…,k; (2)集合VOL中任意兩個單詞ws和wt之間的主題相關度Topic_r(ws,wt)由公式(7)所定義的主題相關度函數(shù)計算,其中σ是歸一化常數(shù), 所述的利用復雜圖模型對單詞和圖像相關性關聯(lián)以及單詞和單詞主題相關性關聯(lián)進行建模的方法是復雜圖模型包含圖像結點和單詞結點兩種不同類型結點,單詞和圖像間的異構鏈接以及單詞和單詞間的同構鏈接作為結點間的邊,單詞和圖像鏈接權重由公式(6)所定義的單詞和圖像相關性關聯(lián)r(wi,Imagei)計算,單詞和單詞鏈接權重為公式(7)定義的單詞和單詞主題相關度函數(shù)Topic_r(ws,wt)計算,復雜圖模型表示為如公式(8)所示的矩陣集合; {}.(8) 其中,對稱矩陣表示單詞和單詞相關性矩陣,Nw是詞匯表中單詞總數(shù),R+是正實數(shù)集合,矩陣元素Sij(i≠j)表示單詞wi和wj之間的主題相關度,Sij=Topic_r(wi,wj)矩陣表示單詞和圖像相關性矩陣,Nd是圖像總數(shù),矩陣元素Aij表示單詞wi和第j個圖像Imagej之間的相關性關聯(lián),Aij=tfidf(wi)·vis(wi)。
所述的應用復雜圖聚類算法對圖像進行聚類的方法可表示為如公式(9)所定義的優(yōu)化問題; 其中,向量1的每個分量都為1,k1和k2分別表示單詞和圖像的聚類個數(shù),類屬指示矩陣C(1)和C(2)是復雜圖聚類算法的輸出,矩陣元素Cpq(2)表示第p個圖像Imagep屬于第q類,對公式(9)所定義的優(yōu)化問題進行求解的復雜圖聚類算法如算法1所示 算法1.復雜圖G1的聚類算法CGC. 輸入矩陣S和A; 輸出類屬指示矩陣C(1)和C(2),k1和k2分別是單詞和圖像的聚類個數(shù); 步驟1.重復迭代步驟2-5直到收斂; 步驟2.計算D=((C(1))TC(1))-1(C(1))TSC(1)(C(1))TC(1))-1; 步驟3.計算B=((C(1))TC(1))-1(C(1))TAC(2)(C(2))TC(2))-1; 步驟4.固定D,B和C(2),逐行更新C(1),使得最小化L,L計算如下 L=||S-C(1)D(C(1))T||2+||A-C(1)B(C(2))T||2; 步驟5.固定D,B和C(1),逐行更新C(2),使得最小化L,L計算如下 L=||S-C(1)D(C(1))T||2+||A-C(1)B(C(2))T||2. 根據(jù)算法1輸出的類屬指示矩陣C(2)對圖像集合IMG進行聚類的方法是,如果矩陣元素則把第p個圖像Imagep歸為第q類,其中p=1,…,Nd,Nd表示集合IMG中圖像總數(shù),q=1,…,k2,k2表示IMG中圖像的聚類個數(shù)。
本發(fā)明具有的有益的效果是本發(fā)明將單詞可見度模型與傳統(tǒng)的TF-IDF方法結合定義單詞和圖像的相關性關聯(lián),突破了TF-IDF方法作文一種文本處理技術不能直接度量單詞和圖像之間相關性的限制;通過復雜圖對單詞和圖像相關性關聯(lián)以及單詞和單詞主題相關性關聯(lián)進行建模提出了一種新的Web圖像聚類框架,提高了Web圖像聚類精度,使得圖像檢索結果根據(jù)主題進行歸類,方便用戶進行檢索。



圖1是基于圖像和文本相關性挖掘的Web圖像聚類方法的關鍵步驟工作流程圖,其中(a)是根據(jù)查詢“bass”從Goole圖像搜索返回結果中提取的部分圖像和相應的伴隨文本,(b)是復雜圖模型示例,實線代表單詞和圖像相關性關聯(lián),虛線代表單詞和單詞主題相關性關聯(lián),(c)是輸出的聚類結果,處理步驟(1)是對伴隨文本進行文本處理并提取文本特征后,挖掘文本和圖像間的相關性關聯(lián),對得到的單詞和圖像以及單詞和單詞兩種關聯(lián)用復雜圖進行建模,處理步驟(2)是利用復雜圖聚類算法對圖1(b)所示復雜圖進行聚類; 圖2是基于圖像和文本相關性挖掘的Web圖像聚類方法中Web圖像及其伴隨文本示意圖,圖中斜體表示名詞; 圖3是圖2伴隨文本中名詞可見度計算結果示意圖; 圖4是對5個查詢實例的復雜圖聚類結果的互信息對比圖; 圖5(a)是查詢jaguar在沒有引入可見度情況下復雜圖聚類結果中三個主題類“jaguar car”、“jaguar animal”和“jaguar car”中的前5個圖像的示意圖,圖中紅色虛線邊框的圖像是錯誤的聚類項; 圖5(b)是查詢jaguar在引入可見度之后復雜圖聚類結果中三個主題類“jaguar car”、“jaguar animal”和“jaguar car”中的前5個圖像的示意圖,圖中紅色虛線邊框的圖像是錯誤的聚類項; 圖6是查詢mouse通過本發(fā)明聚類方法聚類結果中三個主題類“computermouse”、“mouse animal”和“Mickey mouse”中的前10個圖像的示意圖,圖中紅色虛線邊框的圖像是錯誤的聚類項。

具體實施例方式 本發(fā)明提出一種基于圖像和文本相關性挖掘的Web圖像聚類方法,結合附圖,其實施詳細說明如下。
基于圖像和文本相關性挖掘的Web圖像聚類方法包括如下步驟 (1)根據(jù)用戶查詢提取Google圖片搜索的檢索結果中的圖像及其伴隨文本,提取伴隨文本中的名詞構成詞匯表; (2)對伴隨文本進行文本處理并提取文本特征; (3)計算詞匯表中每個單詞的可見度; (4)將單詞的可見度與TF-IDF方法集成以計算單詞和圖像相關性關聯(lián); (5)根據(jù)主題模型對伴隨文本集合進行分析,提取隱含主題概率分布以計算詞匯表中任意兩個單詞間的主題相關度; (6)利用復雜圖模型對單詞和圖像相關性關聯(lián)以及單詞和單詞主題相關性關聯(lián)進行建模; (7)應用復雜圖聚類算法對圖像進行聚類。
所述的根據(jù)用戶查詢提取Google圖片搜索的檢索結果中的圖像及其伴隨文本,提取伴隨文本中的名詞構成詞匯表的步驟如下 (1)編寫爬蟲程序下載Google圖片搜索的檢索結果中的圖像,構成圖像集合IMG={Image1,...,ImageNd},其中Nd是集合IMG中的圖像總數(shù); (2)下載圖像集合IMG中每個圖像所在網頁,利用頁面解析程序對每個網頁進行解析,去除HTML標記和標點符號后,保留頁面上的文本內容作為圖像的伴隨文本; (3)對每個圖像的伴隨文本進行詞性標注,去除非名詞單詞,保留文本中的名詞,構成伴隨文本集合D={d1,...,dNd},其中Nd是集合D中的伴隨文本總數(shù); (4)順序掃描伴隨文本集合D中的每個伴隨文本di中的所有單詞,其中i=1,…,Nd,每個不同單詞保留一個,形成單詞列表表示的詞匯表VOL={wi,…,wNw},其中Nw是詞匯表VOL中的單詞總數(shù)。
所述的對伴隨文本進行文本處理并提取文本特征的步驟如下 (1)對詞匯表VOL中的每個單詞wi,其中i=1,…,Nw,Nw是詞匯表中單詞總數(shù),順序掃描伴隨文本集合D中的每個伴隨文本dj,統(tǒng)計每個單詞wi在每個文檔dj中出現(xiàn)的次數(shù)nij,其中j=1,…,Nd,Nd是伴隨文本總數(shù),并統(tǒng)計集合D中包含單詞wi的伴隨文本個數(shù)num(wi); (2)根據(jù)公式(1)計算每個單詞wi在每個伴隨文本dj中的詞頻freq(wi,dj),其中i=1,…,Nw,Nw是詞匯表中單詞總數(shù),j=1,…,Nd,Nd是集合D中伴隨文本總數(shù); (3)對詞匯表VOL中的每個單詞wi,根據(jù)公式(2)計算其逆文檔詞頻idf(wi); idf(wi)=log(Nd/num(wi)).(2) (4)根據(jù)向量空間模型,將集合D中每個伴隨文本dj表示成Nw維向量,第i維對應詞匯表中的單詞wi,其值為tfidf(wi),計算公式如下 tfidf(wi)=freq(wi,dj)×idf(wi).(3)。
所述的計算詞匯表中每個單詞的可見度的方法是詞匯表VOL中每個單詞wi的可見度值vis(wi)由公式(4)計算; 其中,C1是將單詞wi作為查詢提交給Google圖片搜索返回的檢索結果總數(shù),C2是將單詞wi作為查詢提交給Google文本搜索返回的檢索結果總數(shù);指數(shù)因子IDFGoogle(wi)的計算公式如下 IDFGoogle(wi)=log(|DGoogle|/C2).(5) 其中,DGoogle是Google索引的所有Web頁面集合,|DGoogle|表示集合DGoogle中的頁面總數(shù)。
所述的將單詞的可見度與TF-IDF方法集成以計算單詞和圖像相關性關聯(lián)的方法是單詞wi與圖像Imagej的相關性關聯(lián)r(wi,Imagei)由公式(6)計算,其中j=1,…,Nd,Nd是伴隨文本總數(shù); r(wi,Imagej)=tfidf(wi)×vis(wi).(6)。
所述的根據(jù)主題模型對伴隨文本集合進行分析,提取隱含主題概率分布以計算詞匯表中任意兩個單詞間的主題相關度的步驟如下 (1)以詞匯表VOL、伴隨文本集合D和集合D中的隱含主題數(shù)k作為主題模型隱含狄利克雷分配的輸入,輸出每個隱含主題zj的概率分布P(zj)和zj在每個單詞wi上的概率分布P(wi|zj),其中j=1,…,k; (2)集合VOL中任意兩個單詞ws和wt之間的主題相關度Topic_r(ws,wt)由公式(7)所定義的主題相關度函數(shù)計算,其中σ是歸一化常數(shù), 所述的利用復雜圖模型對單詞和圖像相關性關聯(lián)以及單詞和單詞主題相關性關聯(lián)進行建模的方法是復雜圖模型包含圖像結點和單詞結點兩種不同類型結點,單詞和圖像間的異構鏈接以及單詞和單詞間的同構鏈接作為結點間的邊,單詞和圖像鏈接權重由公式(6)所定義的單詞和圖像相關性關聯(lián)r(wi,Imagei)計算,單詞和單詞鏈接權重為公式(7)定義的單詞和單詞主題相關度函數(shù)Topic_r(ws,wt)計算,復雜圖模型表示為如公式(8)所示的矩陣集合; {}.(8) 其中,對稱矩陣表示單詞和單詞相關性矩陣,Nw是詞匯表中單詞總數(shù),R+是正實數(shù)集合,矩陣元素Sij(i≠j)表示單詞wi和wj之間的主題相關度,Sij=Topic_r(wi,wj)矩陣表示單詞和圖像相關性矩陣,Nd是圖像總數(shù),矩陣元素Aij表示單詞wi和第j個圖像Imagej之間的相關性關聯(lián),Aij=tfidf(wi)·vis(wi)。
所述的應用復雜圖聚類算法對圖像進行聚類的方法可表示為如公式(9)所定義的優(yōu)化問題; 其中,向量1的每個分量都為1,k1和k2分別表示單詞和圖像的聚類個數(shù),類屬指示矩陣C(1)和C(2)是復雜圖聚類算法的輸出,矩陣元素Cpq(2)表示第p個圖像Imagep屬于第q類,對公式(9)所定義的優(yōu)化問題進行求解的復雜圖聚類算法如算法1所示 算法1.復雜圖G1的聚類算法CGC. 輸入矩陣S和A; 輸出類屬指示矩陣C(1)和C(2),k1和k2分別是單詞和圖像的聚類個數(shù); 步驟1.重復迭代步驟2-5直到收斂; 步驟2.計算D=((C(1))TC(1))-1(C(1))TSC(1)(C(1))TC(1))-1; 步驟3.計算B=((C(1))TC(1))-1(C(1))TAC(2)(C(2))TC(2))-1; 步驟4.固定D,B和C(2),逐行更新C(1),使得最小化L,L計算如下 L=||S-C(1)D(C(1))T||2+||A-C(1)B(C(2))T||2; 步驟5.固定D,B和C(1),逐行更新C(2),使得最小化L,L計算如下 L=||S-C(1)D(C(1))T||2+||A-C(1)B(C(2))T||2. 根據(jù)算法1輸出的類屬指示矩陣C(2)對圖像集合IMG進行聚類的方法是,如果矩陣元素則把第p個圖像Imagep歸為第q類,其中p=1,…,Nd,Nd表示集合IMG中圖像總數(shù),q=1,…,k2,k2表示IMG中圖像的聚類個數(shù)。
實施例 選擇了5個視覺多義詞作為查詢,它們是“apple”,“bass”,“jaguar”,“mouse”和“tower”。編寫了爬蟲程序,根據(jù)提交的關鍵字作為查詢自動提取Goolge ImageSearchTM的返回結果。對返回結果中的每個圖像,下載了圖像文件以及該圖像所在的Web頁面。由于Google限制了搜索實際返回的結果數(shù)量,數(shù)據(jù)集共包含約4000個數(shù)據(jù)項。為了提取圖像的伴隨文本,對圖像所在的Web頁面進行解析,提取圖像周圍的單詞的文本作為該圖像的伴隨文本。所有的伴隨文本通過詞性標注,提取其中的名詞。對于每個查詢其伴隨文本的名詞詞匯表規(guī)模為1000~2000個單詞。為了獲得基準類屬列表向量,我們手工對數(shù)據(jù)集中的圖像類別進行了標注。
本發(fā)明關鍵步驟的工作流程圖如圖1所示,以用戶提交查詢“bass”為例,具體實施步驟為 1.編寫爬蟲程序下載Google圖片搜索的檢索結果中的所有圖像以及圖像所在網頁,通過頁面解析器對每個HTML頁面進行解析,去除HTML標記和標點符號,得到如圖1(a)所示的圖像集合IMG={Image1,...,ImageNd}和伴隨文本集合D={d1,...,dNd},Nd是伴隨文本總數(shù),同時也是圖像總數(shù); 2.利用詞性標注程序對每個伴隨文本di進行詞性標注,其中i=1,…,Nd,去除文本中的非名詞單詞,保留文本中的名詞; 3.順序掃描伴隨文本集合D中的每個伴隨文本di中的所有單詞,每個不同單詞保留一個,形成單詞列表表示的詞匯表VOL={wi,…,wNw},其中Nw是詞匯表VOL中的單詞總數(shù),對詞匯表VOL中的每個單詞wi統(tǒng)計每個單詞wi在每個文檔dj中出現(xiàn)的次數(shù)nij,以及集合D中包含單詞wi的伴隨文本個數(shù)num(wi); 4.對每個伴隨文本dj(j=1,…,Nd)提取其文本特征,具體步驟為 (1)對詞匯表VOL中每個單詞wi,其中i=1,…,Nw,Nw是詞匯表中單詞總數(shù),計算wi在伴隨文本dj中的詞頻 (2)對詞匯表VOL中每個單詞wi,計算wi的逆文檔詞頻idf(wi)=log(Nd/num(wi)); (3)根據(jù)向量空間模型,將文檔dj表示成Nw維向量第i維對應詞匯表中的單詞wi,其值為tfidf(wi)=freq(wi,dj)×idf(wi); 5.對詞匯表VOL中每個單詞wi計算其可見度其中,C1是將單詞wi作為查詢提交給Google圖片搜索返回的檢索結果總數(shù),C2是將單詞wi作為查詢提交給Google文本搜索返回的檢索結果總數(shù);指數(shù)因子IDFGoogle(wi)的計算公式如下 IDFGoogle(wi)=log(|DGoogle|/C2) 其中,DGoogle是Google索引的所有Web頁面集合,|DGoogle|表示集合DGoogle中的頁面總數(shù),本實施例中|DGoogle|=5×1011。
單詞的可見度體現(xiàn)了單詞,尤其是名詞,所蘊含語義可用圖像來描述的程度。從認知心理學和形象思維的角度,高可見度的單詞,如“banana”,要比低可見度的單詞,如“Bayesian”,更易在人腦中形成直接視覺形象??蓪⒖梢姸茸鳛閱卧~一種新的屬性,用來表達單詞與圖像之間的語義關聯(lián)。在Web頁面中,圖像周圍每個單詞具有不同程度的可見度,高可見度單詞對圖像的語義有更強的描述能力。以C1/C2值作為量化指標可以從一定程度上衡量不同單詞的可見度,例如單詞“banana”的C1/C2值大于“Bayesian”。以圖2為例,該圖像是該圖像是用關鍵字“bass”作為查詢,由Google圖像搜索引擎返回的前5個結果中的一個。伴隨文本中名詞C1和C2值于2009年5月從Google上檢索得到,如表1所示。如圖3所示,“l(fā)egend”、“record”、“scale”等詞的C1/C2的值大于“l(fā)argemouth”和“fishermen”。但是,根據(jù)可見度定義,由于“l(fā)argemouth”和“fishermen”是這幅圖像中兩個主要對象,它們應有更高可見度。造成這種結果的原因是,“record”等主題較寬泛單詞大量地出現(xiàn)在Web頁面上,同時也大量地出現(xiàn)在圖像的伴隨文本中,從而提高了它們的C1/C2值。主題寬泛單詞的C2值往往很大,因此本發(fā)明所提出的可見度模型利用“逆文檔詞頻因子”IDFGoogle(wi)=log(|DGoogle|/C2)來對其可見度進行抑制,|DGoogle|是Google索引的所有Web頁面總數(shù)。圖3中名詞的vis(w)值如圖3所示,“l(fā)argemouth”和“fishermen”的vis(w)值最大,可見本發(fā)明所提可見度模型的合理性。
表1
6.計算VOL中每個單詞wi與圖像Imagej的相關性關聯(lián)r(wi,Imagej)=tfidf(wi)×vis(wi);構造單詞和圖像相關性矩陣矩陣元素Aij表示單詞wi和第j個圖像Imagej之間的相關度,Aij=r(wi,Imagej). 7.對詞匯表VOL中任意兩個單詞ws和wt計算其主題相關度,并構造單詞和單詞相關性矩陣,具體步驟如下 (1)以詞匯表VOL、伴隨文本集合D和隱含主題數(shù)k作為主題模型隱含狄利克雷分配的輸入,輸出每個隱含主題zj(j=1,…,k)的概率分布P(zj)和zj在每個單詞wi上的概率分布P(wi|zj); (2)任意兩個單詞ws和wt之間的主題相關度Topic_r(ws,wt)計算如下,σ是歸一化常數(shù)。
(3)構造單詞和單詞相關性矩陣為對稱矩陣矩陣元素Sij(i≠j)表示單詞wi和wj之間的主題相關度,Sij=Topic_r(wi,wj)。
8.經過以上步驟得到如圖1(b)所示的復雜圖模型,該復雜圖模型可表示為矩陣集合{}.應用復雜圖聚類算法可對圖像集合IMG進行聚類,復雜圖聚類算法表示為如下優(yōu)化問題; 其中,向量1的每個分量都為1,k1和k2分別表示單詞和圖像的聚類個數(shù),類屬指示矩陣C(1)和C(2)是復雜圖聚類算法的輸出,矩陣元素Cpq(2)表示第p個圖像Imagep屬于第q類,復雜圖聚類算法的具體步驟如算法1所示 算法1.復雜圖G1的聚類算法CGC. 輸入矩陣S和A; 輸出類屬指示矩陣C(1)和C(2),k1和k2分別是單詞和圖像的聚類個數(shù); 步驟1.重復迭代步驟2-5直到收斂; 步驟2.計算D=((C(1))TC(1))-1(C(1))TSC(1)(C(1))TC(1))-1; 步驟3.計算B=((C(1))TC(1))-1(C(1))TAC(2)(C(2))TC(2))-1; 步驟4.固定D,B和C(2),逐行更新C(1),使得最小化L,L計算如下 L=||S-C(1)D(C(1))T||2+||A-C(1)B(C(2))T||2; 步驟5.固定D,B和C(1),逐行更新C(2),使得最小化L,L計算如下 L=||S-C(1)D(C(1))T||2+||A-C(1)B(C(2))T||2. 根據(jù)算法1輸出的類屬指示矩陣C(2)對圖像集合IMG進行聚類的方法是,如果矩陣元素則把第p個圖像Imagep歸為第q類,其中p=1,…,Nd,Nd表示集合IMG中圖像總數(shù),q=1,…,k2,k2表示IMG中圖像的聚類個數(shù)。
如圖1所示,經過步驟(2)得到聚類結果,該示例中圖像被歸為3個主題類,分別是“bass fishing”、“bass fish”和“bass guitar”。
為了表明本發(fā)明核心內容的有效性和聚類框架的整體性能,我們進行以下聚類結果對比 (1)區(qū)分r(wi,Imagej)=tfidf(wi)和r(wi,Imagej)=tfidf(wi)×vis(wi)兩種情況進行聚類; (2)將單詞間的主題相關性關聯(lián)Topic_r(ws,wt)和單詞共生相關性關聯(lián)P(ws,wt)對比,圖像的伴隨文本中,任意兩個單詞ws和wt的共生相關性定義為它們同時出現(xiàn)在某個圖像的伴隨文本中的概率P(ws,wt)=num(ws,wt)/Nd,num(ws,wt)是其伴隨文本中同時包含單詞ws和wt的圖像的個數(shù)。結合主題相關性和共生相關性關聯(lián),單詞和單詞同構鏈接權重定義為λ·p(ws,wt)+(1-λ)Topic_r(ws,wt),其中λ(0<λ<1)是可調參數(shù)。
聚類性能評價標準采用歸一化的聚類互信息,即Normalized MutualInformation。歸一化的聚類互信息的定義為給定聚類個數(shù)k,類屬列表向量λ=(λ1,...,λK)中λi的取值范圍為λi=1,...k,λi=j表示第i個數(shù)據(jù)項屬于第Cj類。用λ(a)和λ(b)分別表示結果的和基準類屬列表向量,則λ(a)和λ(b)的歸一化聚類互信息φ(NMI)定義為 其中,nh(a)是對應于λ(a)的類Ch中的數(shù)據(jù)項個數(shù),nl(b)是對應于λ(b)的類Cl中的數(shù)據(jù)項個數(shù)。Chl表示同時被聚在λ(a)的類Ch中和λ(b)的類Cl中的數(shù)據(jù)項的個數(shù)。某次聚類結果的λ(a)和基準類屬λ(b)之間的互信息值φ(NMI)(λ(a),λ(b))越大,表示本次聚類效果越好。理想的聚類是φ(NMI)(λ(a),λ(b))=1. 對于參數(shù)λ,考慮三種情況 1)λ=1; 2)λ=0; 3)λ=0.15; 如圖4所示對于所有5個查詢復雜圖聚類的NMI值都在λ=0時達到最好,因此可表明本發(fā)明所提出的單詞和單詞主題相關度的合理性。
如圖4所示“λ=0(vis(w))”表示單詞和圖像鏈接權重采用Aij=tfidf(wi)×vis(wi)。由聚類互信息結果可以看到,在復雜圖聚類中,將單詞的可見度引入單詞和圖像鏈接權重使得高可見度單詞向與之關聯(lián)的圖像結點傳遞更多的主題相關性信息,提高了聚類性能。
以圖5所示對查詢“jaguar”檢索圖像聚類結果為例,對比(a)、(b)圖可以看得在引入可見度增強某些描述圖像特定對象的單詞與圖像鏈接權重情況下,聚類性能得到改善。
如圖6所示是采用本發(fā)明基于圖像和文本相關性挖掘的Web圖像聚類方法對查詢mouse提交給Google圖片搜索所返回結果進行聚類所得三個主題中的前10個圖像,第一列是主題“computer mouse”,第二列是主題“mouse animal”,第三列是主題“Mickey mouse”;紅色虛線邊框的圖像是錯誤的聚類項。
權利要求
1.一種基于圖像和文本相關性挖掘的Web圖像聚類方法,其特征在于包括如下步驟
(1)根據(jù)用戶查詢提取Google圖片搜索的檢索結果中的圖像及其伴隨文本,提取伴隨文本中的名詞構成詞匯表;
(2)對伴隨文本進行文本處理并提取文本特征;
(3)計算詞匯表中每個單詞的可見度;
(4)將單詞的可見度與TF-IDF方法集成以計算單詞和圖像相關性關聯(lián);
(5)根據(jù)主題模型對伴隨文本集合進行分析,提取隱含主題概率分布以計算詞匯表中任意兩個單詞間的主題相關度;
(6)利用復雜圖模型對單詞和圖像相關性關聯(lián)以及單詞和單詞主題相關性關聯(lián)進行建模;
(7)應用復雜圖聚類算法對圖像進行聚類。
2.根據(jù)權利要求1所述的一種基于圖像和文本相關性挖掘的Web圖像聚類方法,其特征在于所述的根據(jù)用戶查詢提取Google圖片搜索的檢索結果中的圖像及其伴隨文本,提取伴隨文本中的名詞構成詞匯表的步驟如下
(1)編寫爬蟲程序下載Google圖片搜索的檢索結果中的圖像,構成圖像集合IMG={Image1,...,ImageNd},其中Nd是集合IMG中的圖像總數(shù);
(2)下載圖像集合IMG中每個圖像所在網頁,利用頁面解析程序對每個網頁進行解析,去除HTML標記和標點符號后,保留頁面上的文本內容作為圖像的伴隨文本;
(3)對每個圖像的伴隨文本進行詞性標注,去除非名詞單詞,保留文本中的名詞,構成伴隨文本集合D={d1,...,dNd},其中Nd是集合D中的伴隨文本總數(shù);
(4)順序掃描伴隨文本集合D中的每個伴隨文本di中的所有單詞,其中i=1,…,Nd,每個不同單詞保留一個,形成單詞列表表示的詞匯表VOL={wi,…,wNw},其中Nw是詞匯表VOL中的單詞總數(shù)。
3.根據(jù)權利要求1所述的一種基于圖像和文本相關性挖掘的Web圖像聚類方法,其特征在于所述的對伴隨文本進行文本處理并提取文本特征的步驟如下
(1)對詞匯表VOL中的每個單詞wi,其中i=1,…,Nw,Nw是詞匯表中單詞總數(shù),順序掃描伴隨文本集合D中的每個伴隨文本dj,統(tǒng)計每個單詞wi在每個文檔dj中出現(xiàn)的次數(shù)nij,其中j=1,…,Nd,Nd是伴隨文本總數(shù),并統(tǒng)計集合D中包含單詞wi的伴隨文本個數(shù)num(wi);
(2)根據(jù)公式(1)計算每個單詞wi在每個伴隨文本dj中的詞頻freq(wi,dj),其中i=1,…,Nw,Nw是詞匯表中單詞總數(shù),j=1,…,Nd,Nd是集合D中伴隨文本總數(shù);
(3)對詞匯表VOL中的每個單詞wi,根據(jù)公式(2)計算其逆文檔詞頻idf(wi);
idf(wi)=log(Nd/num(wi)).(2)
(4)根據(jù)向量空間模型,將集合D中每個伴隨文本dj表示成Nw維向量,第i維對應詞匯表中的單詞wi,其值為tfidf(wi),計算公式如下
tfidf(wi)=freq(wi,dj)×idf(wi).(3)。
4.根據(jù)權利要求1所述的一種基于圖像和文本相關性挖掘的Web圖像聚類方法,其特征在于所述的計算詞匯表中每個單詞的可見度的方法是詞匯表VOL中每個單詞wi的可見度值vis(wi)由公式(4)計算;
其中,C1是將單詞wi作為查詢提交給Google圖片搜索返回的檢索結果總數(shù),C2是將單詞wi作為查詢提交給Google文本搜索返回的檢索結果總數(shù);指數(shù)因子IDFGoogle(wi)的計算公式如下
IDFGoogle(wi)=log(|DGoogle|/C2).(5)
其中,DGoogle是Google索引的所有Web頁面集合,|DGoogle|表示集合DGoogle中的頁面總數(shù)。
5.根據(jù)權利要求1所述的一種基于圖像和文本相關性挖掘的Web圖像聚類方法,其特征在于所述的將單詞的可見度與TF-IDF方法集成以計算單詞和圖像相關性關聯(lián)的方法是單詞wi與圖像Imagej的相關性關聯(lián)r(wi,Imagei)由公式(6)計算,其中j=1,…,Nd,Nd是伴隨文本總數(shù);
r(wi,Imagej)=tfidf(wi)×vis(wi).(6)。
6.根據(jù)權利要求1所述的一種基于圖像和文本相關性挖掘的Web圖像聚類方法,其特征在于所述的根據(jù)主題模型對伴隨文本集合進行分析,提取隱含主題概率分布以計算詞匯表中任意兩個單詞間的主題相關度的步驟如下
(1)以詞匯表VOL、伴隨文本集合D和集合D中的隱含主題數(shù)k作為主題模型隱含狄利克雷分配的輸入,輸出每個隱含主題zj的概率分布P(zj)和zj在每個單詞wi上的概率分布P(wi|zj),其中j=1,…,k;
(2)集合VOL中任意兩個單詞ws和wt之間的主題相關度Topic_r(ws,wt)由公式(7)所定義的主題相關度函數(shù)計算,其中σ是歸一化常數(shù),
7.根據(jù)權利要求1所述的一種基于圖像和文本相關性挖掘的Web圖像聚類方法,其特征在于所述的利用復雜圖模型對單詞和圖像相關性關聯(lián)以及單詞和單詞主題相關性關聯(lián)進行建模的方法是復雜圖模型包含圖像結點和單詞結點兩種不同類型結點,單詞和圖像間的異構鏈接以及單詞和單詞間的同構鏈接作為結點間的邊,單詞和圖像鏈接權重由公式(6)所定義的單詞和圖像相關性關聯(lián)r(wi,Imagei)計算,單詞和單詞鏈接權重為公式(7)定義的單詞和單詞主題相關度函數(shù)Topic_r(ws,wt)計算,復雜圖模型表示為如公式(8)所示的矩陣集合;
其中,對稱矩陣表示單詞和單詞相關性矩陣,Nw是詞匯表中單詞總數(shù),R+是正實數(shù)集合,矩陣元素Sij(i≠j)表示單詞wi和wj之間的主題相關度,Sij=Topic_r(wi,wj),矩陣表示單詞和圖像相關性矩陣,Nd是圖像總數(shù),矩陣元素Aij表示單詞wi和第j個圖像Imagej之間的相關性關聯(lián),Aij=tfidf(wi)·vis(wi)。
8.根據(jù)權利要求1所述的一種基于圖像和文本相關性挖掘的Web圖像聚類方法,其特征在于所述的應用復雜圖聚類算法對圖像進行聚類的方法可表示為如公式(9)所定義的優(yōu)化問題;
其中,向量1的每個分量都為1,k1和k2分別表示單詞和圖像的聚類個數(shù),類屬指示矩陣C(1)和C(2)是復雜圖聚類算法的輸出,矩陣元素Cpq(2)表示第p個圖像Imagep屬于第q類,對公式(9)所定義的優(yōu)化問題進行求解的復雜圖聚類算法如算法1所示
算法1.復雜圖G1的聚類算法CGC.
輸入矩陣S和A;
輸出類屬指示矩陣C(1)和C(2),k1和k2分別是單詞和圖像的聚類個數(shù);
步驟1.重復迭代步驟2-5直到收斂;
步驟2.計算D=((C(1))TC(1))-1(C(1))TSC(1)(C(1))TC(1))-1;
步驟3.計算B=((C(1))TC(1))-1(C(1))TAC(2)(C(2))TC(2))-1;
步驟4.固定D,B和C(2),逐行更新C(1),使得最小化L,L計算如下
L=||S-C(1)D(C(1))T||2+||A-C(1)B(C(2))T||2;
步驟5.固定D,B和C(1),逐行更新C(2),使得最小化L,L計算如下
L=||S-C(1)D(C(1))T||2+||A-C(1)B(C(2))T||2.
根據(jù)算法1輸出的類屬指示矩陣C(2)對圖像集合IMG進行聚類的方法是,如果矩陣元素則把第p個圖像Imagep歸為第q類,其中p=1,…,Nd,Nd表示集合IMG中圖像總數(shù),q=1,…,k2,k2表示IMG中圖像的聚類個數(shù)。
全文摘要
本發(fā)明公開了一種基于圖像和文本相關性挖掘的Web圖像聚類方法。包括如下步驟(1)根據(jù)查詢提取Google圖片搜索結果中的圖像及其伴隨文本;(2)提取伴隨文本中名詞構成詞匯表;(3)計算詞匯表中單詞的可見度,并將其與TF-IDF方法集成以計算單詞和圖像相關性關聯(lián);(4)計算詞匯表中任意兩個單詞間的主題相關度;(5)利用復雜圖對相關性關聯(lián)建模;(6)應用復雜圖聚類算法對圖像進行聚類。本發(fā)明將單詞可見度與TF-IDF方法結合定義單詞和圖像的相關性關聯(lián),突破了TF-IDF方法作為一種文本處理技術不能直接度量單詞和圖像之間相關性的限制,通過復雜圖對單詞和圖像以及單詞和單詞相關性關聯(lián)建模提出了一種Web圖像聚類框架,使得圖像檢索結果根據(jù)主題進行歸類,方便用戶進行檢索。
文檔編號G06F17/30GK101582080SQ20091010007
公開日2009年11月18日 申請日期2009年6月22日 優(yōu)先權日2009年6月22日
發(fā)明者莊越挺, 飛 吳, 韓亞洪 申請人:浙江大學
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1