日韩成人黄色,透逼一级毛片,狠狠躁天天躁中文字幕,久久久久久亚洲精品不卡,在线看国产美女毛片2019,黄片www.www,一级黄色毛a视频直播

圖像自動(dòng)標(biāo)注方法、系統(tǒng)、電子設(shè)備及存儲(chǔ)介質(zhì)與流程

文檔序號(hào):39716076發(fā)布日期:2024-10-22 13:02閱讀:2來(lái)源:國(guó)知局
圖像自動(dòng)標(biāo)注方法、系統(tǒng)、電子設(shè)備及存儲(chǔ)介質(zhì)與流程

本發(fā)明涉及圖像處理,尤其是一種圖像自動(dòng)標(biāo)注方法、系統(tǒng)、電子設(shè)備及存儲(chǔ)介質(zhì)。


背景技術(shù):

1、圖像自動(dòng)標(biāo)注是指計(jì)算機(jī)系統(tǒng)能夠自動(dòng)為一張數(shù)字圖像分配元數(shù)據(jù),通常以圖像說(shuō)明或關(guān)鍵詞的形式展現(xiàn),這一技術(shù)主要應(yīng)用于圖像檢索系統(tǒng),幫助組織和定位數(shù)據(jù)庫(kù)中的感興趣圖像,其基本思想是利用已標(biāo)注圖像集或其他可獲得的信息,自動(dòng)學(xué)習(xí)語(yǔ)義概念空間與視覺(jué)特征空間的潛在關(guān)聯(lián)或映射關(guān)系,從而為未知圖像添加文本關(guān)鍵詞。

2、現(xiàn)有的圖像自動(dòng)標(biāo)注方法存在以下缺陷:

3、1)很多情況下,同一副圖像中會(huì)存在不同尺度特征,現(xiàn)有的標(biāo)注方法對(duì)于較小尺度對(duì)象在特征識(shí)別中缺乏足夠特征,自動(dòng)標(biāo)注過(guò)程中對(duì)小尺度對(duì)象的標(biāo)注性能較差;

4、2)現(xiàn)有卷積神經(jīng)網(wǎng)絡(luò)模型在識(shí)別多標(biāo)簽的圖像時(shí),往往集中在一個(gè)主體區(qū)域中,容易忽略圖像的局部微小區(qū)域,無(wú)法全面描述圖像的特征;

5、3)對(duì)于復(fù)雜圖像的自動(dòng)標(biāo)注時(shí),現(xiàn)有識(shí)別模型的識(shí)別精度較低,在處理冗長(zhǎng)復(fù)雜的文本時(shí),模型處理速度較慢,且當(dāng)對(duì)于問(wèn)句的回答出現(xiàn)錯(cuò)誤時(shí),難以在復(fù)雜文本中定位錯(cuò)誤所在位置,修正較為困難和麻煩。


技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明的目的在于至少一定程度上解決現(xiàn)有技術(shù)中存在的技術(shù)問(wèn)題之一。

2、為此,本發(fā)明實(shí)施例的一個(gè)目的在于提供一種圖像自動(dòng)標(biāo)注方法,該方法提高了圖像自動(dòng)標(biāo)注的全面性和準(zhǔn)確性。

3、本發(fā)明實(shí)施例的另一個(gè)目的在于提供一種圖像自動(dòng)標(biāo)注系統(tǒng)。

4、為了達(dá)到上述技術(shù)目的,本發(fā)明實(shí)施例所采取的技術(shù)方案包括:

5、一方面,本發(fā)明實(shí)施例提供了一種圖像自動(dòng)標(biāo)注方法,包括以下步驟:

6、第一步,基于特征融合機(jī)制和注意力機(jī)制構(gòu)建多模態(tài)大模型;

7、第二步,獲取預(yù)設(shè)的標(biāo)注數(shù)據(jù)集,將所述標(biāo)注數(shù)據(jù)集輸入到所述多模態(tài)大模型,得到訓(xùn)練好的圖像標(biāo)注模型;

8、第三步,獲取目標(biāo)圖像和對(duì)應(yīng)的初始描述語(yǔ)句,將所述初始描述語(yǔ)句拆解為多個(gè)最小化問(wèn)句,并將所述目標(biāo)圖像和所述最小化問(wèn)句輸入到所述圖像標(biāo)注模型,得到各所述最小化問(wèn)句對(duì)應(yīng)的目標(biāo)標(biāo)注結(jié)果;

9、第四步,根據(jù)所述目標(biāo)標(biāo)注結(jié)果對(duì)所述最小化問(wèn)句進(jìn)行篩選和內(nèi)容重組,得到所述目標(biāo)圖像的目標(biāo)描述語(yǔ)句。

10、進(jìn)一步地,在本發(fā)明的一個(gè)實(shí)施例中,所述多模態(tài)大模型包括卷積層、注意力模塊、空間金字塔池化層、特征融合層以及全連接層,所述卷積層用于提取輸入圖像的第一圖像特征,所述注意力模塊用于基于通道注意力機(jī)制和空間注意力機(jī)制對(duì)所述第一圖像特征進(jìn)行特征加強(qiáng)得到第二圖像特征,所述空間金字塔池化層用于對(duì)所述第二圖像特征進(jìn)行不同尺度的池化操作得到多尺度圖像特征,所述特征融合層用于對(duì)所述多尺度圖像特征進(jìn)行特征融合得到多模態(tài)融合特征,所述全連接層用于根據(jù)所述多模態(tài)融合特征輸出對(duì)應(yīng)的圖像標(biāo)注結(jié)果。

11、進(jìn)一步地,在本發(fā)明的一個(gè)實(shí)施例中,所述將所述標(biāo)注數(shù)據(jù)集輸入到所述多模態(tài)大模型,得到訓(xùn)練好的圖像標(biāo)注模型,其具體包括:

12、第一步,對(duì)所述標(biāo)注數(shù)據(jù)集進(jìn)行數(shù)據(jù)清洗,得到多個(gè)樣本圖像和對(duì)應(yīng)的真實(shí)標(biāo)注結(jié)果;

13、第二步,將所述樣本圖像輸入到所述多模態(tài)大模型,得到預(yù)測(cè)標(biāo)注結(jié)果;

14、第三步,根據(jù)所述預(yù)測(cè)標(biāo)注結(jié)果和所述真實(shí)標(biāo)注結(jié)果確定損失值,根據(jù)所述損失值更新所述多模態(tài)大模型的模型參數(shù),得到所述圖像標(biāo)注模型。

15、進(jìn)一步地,在本發(fā)明的一個(gè)實(shí)施例中,所述將所述初始描述語(yǔ)句拆解為多個(gè)最小化問(wèn)句,其具體為:

16、將預(yù)設(shè)的提示語(yǔ)句和所述初始描述語(yǔ)句輸入到預(yù)先訓(xùn)練好的語(yǔ)義大模型,得到所述最小化問(wèn)句;

17、其中,所述提示語(yǔ)句用于引導(dǎo)所述語(yǔ)義大模型對(duì)所述初始描述語(yǔ)句進(jìn)行拆解。

18、進(jìn)一步地,在本發(fā)明的一個(gè)實(shí)施例中,所述將所述目標(biāo)圖像和所述最小化問(wèn)句輸入到所述圖像標(biāo)注模型,得到各所述最小化問(wèn)句對(duì)應(yīng)的目標(biāo)標(biāo)注結(jié)果,其具體包括:

19、第一步,通過(guò)所述圖像標(biāo)注模型對(duì)所述目標(biāo)圖像進(jìn)行識(shí)別,得到所述目標(biāo)圖像的預(yù)測(cè)標(biāo)注信息;

20、第二步,根據(jù)所述預(yù)測(cè)標(biāo)注信息確定各所述最小化問(wèn)句對(duì)應(yīng)的所述目標(biāo)標(biāo)注結(jié)果;

21、其中,所述目標(biāo)標(biāo)注結(jié)果包括所述最小化問(wèn)句和對(duì)應(yīng)的答句,所述答句為是或否。

22、進(jìn)一步地,在本發(fā)明的一個(gè)實(shí)施例中,所述根據(jù)所述目標(biāo)標(biāo)注結(jié)果對(duì)所述最小化問(wèn)句進(jìn)行篩選和內(nèi)容重組,得到所述目標(biāo)圖像的目標(biāo)描述語(yǔ)句,其具體包括:

23、第一步,根據(jù)所述答句對(duì)所述最小化問(wèn)句進(jìn)行篩選,確定所述答句為是的若干個(gè)最小化問(wèn)句為目標(biāo)問(wèn)句;

24、第二步,將所述目標(biāo)問(wèn)句轉(zhuǎn)換為目標(biāo)肯定句,并對(duì)所述目標(biāo)肯定句進(jìn)行內(nèi)容重組,得到所述目標(biāo)描述語(yǔ)句。

25、進(jìn)一步地,在本發(fā)明的一個(gè)實(shí)施例中,所述根據(jù)所述目標(biāo)標(biāo)注結(jié)果對(duì)所述最小化問(wèn)句進(jìn)行篩選和內(nèi)容重組之前,還包括:

26、確定各所述目標(biāo)標(biāo)注結(jié)果的置信度,并根據(jù)所述置信度對(duì)所述目標(biāo)標(biāo)注結(jié)果進(jìn)行修正。

27、另一方面,本發(fā)明實(shí)施例提供了一種圖像自動(dòng)標(biāo)注系統(tǒng),包括:

28、模型構(gòu)建模塊,用于基于特征融合機(jī)制和注意力機(jī)制構(gòu)建多模態(tài)大模型;

29、模型訓(xùn)練模塊,用于獲取預(yù)設(shè)的標(biāo)注數(shù)據(jù)集,將所述標(biāo)注數(shù)據(jù)集輸入到所述多模態(tài)大模型,得到訓(xùn)練好的圖像標(biāo)注模型;

30、模型標(biāo)注模塊,用于獲取目標(biāo)圖像和對(duì)應(yīng)的初始描述語(yǔ)句,將所述初始描述語(yǔ)句拆解為多個(gè)最小化問(wèn)句,并將所述目標(biāo)圖像和所述最小化問(wèn)句輸入到所述圖像標(biāo)注模型,得到各所述最小化問(wèn)句對(duì)應(yīng)的目標(biāo)標(biāo)注結(jié)果;

31、標(biāo)注重組模塊,用于根據(jù)所述目標(biāo)標(biāo)注結(jié)果對(duì)所述最小化問(wèn)句進(jìn)行篩選和內(nèi)容重組,得到所述目標(biāo)圖像的目標(biāo)描述語(yǔ)句。

32、另一方面,本發(fā)明實(shí)施例提供了一種電子設(shè)備,所述電子設(shè)備包括存儲(chǔ)器、處理器、存儲(chǔ)在所述存儲(chǔ)器上并可在所述處理器上運(yùn)行的程序以及用于實(shí)現(xiàn)所述處理器和所述存儲(chǔ)器之間的連接通信的數(shù)據(jù)總線,所述程序被所述處理器執(zhí)行時(shí)實(shí)現(xiàn)如前面所述的圖像自動(dòng)標(biāo)注方法。

33、另一方面,本發(fā)明實(shí)施例還提供了一種存儲(chǔ)介質(zhì),所述存儲(chǔ)介質(zhì)為計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),用于計(jì)算機(jī)可讀存儲(chǔ),所述存儲(chǔ)介質(zhì)存儲(chǔ)有一個(gè)或者多個(gè)程序,所述一個(gè)或者多個(gè)程序可被一個(gè)或者多個(gè)處理器執(zhí)行,以實(shí)現(xiàn)如前面所述的圖像自動(dòng)標(biāo)注方法。

34、本發(fā)明的優(yōu)點(diǎn)和有益效果將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過(guò)本發(fā)明的實(shí)踐了解到:

35、本發(fā)明實(shí)施例基于特征融合機(jī)制和注意力機(jī)制構(gòu)建多模態(tài)大模型,獲取預(yù)設(shè)的標(biāo)注數(shù)據(jù)集,將標(biāo)注數(shù)據(jù)集輸入到多模態(tài)大模型,得到訓(xùn)練好的圖像標(biāo)注模型,獲取目標(biāo)圖像和對(duì)應(yīng)的初始描述語(yǔ)句,將初始描述語(yǔ)句拆解為多個(gè)最小化問(wèn)句,并將目標(biāo)圖像和最小化問(wèn)句輸入到圖像標(biāo)注模型,得到各最小化問(wèn)句對(duì)應(yīng)的目標(biāo)標(biāo)注結(jié)果,根據(jù)目標(biāo)標(biāo)注結(jié)果對(duì)最小化問(wèn)句進(jìn)行篩選和內(nèi)容重組,得到目標(biāo)圖像的目標(biāo)描述語(yǔ)句。本發(fā)明實(shí)施例通過(guò)引入特征融合機(jī)制提高了圖像標(biāo)注模型對(duì)不同尺度對(duì)象的識(shí)別能力,通過(guò)引入注意力機(jī)制以提取對(duì)標(biāo)注任務(wù)最相關(guān)、最顯著的特征,通過(guò)將初始描述語(yǔ)句拆解為多個(gè)最小化問(wèn)句,使得訓(xùn)練得到的圖像標(biāo)注模型可以更準(zhǔn)確地識(shí)別并理解圖像中的各個(gè)元素,避免對(duì)復(fù)雜的描述語(yǔ)句進(jìn)行模糊處理,提高了圖像標(biāo)注模型的識(shí)別精度,從而提高了圖像自動(dòng)標(biāo)注的全面性和準(zhǔn)確性。

當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1