本技術(shù)涉及圖文處理,更具體的說,本技術(shù)涉及一種漢藏語多模態(tài)的圖文處理方法及處理系統(tǒng)。
背景技術(shù):
1、圖文處理技術(shù)在信息時代至關(guān)重要,包含了圖像處理技術(shù)、文本處理技術(shù)等,廣泛應(yīng)用于數(shù)字出版、廣告設(shè)計、教育、醫(yī)療和娛樂等領(lǐng)域,其核心在于高效采集、處理、分析和展示圖像與文本數(shù)據(jù),以滿足各類應(yīng)用需求,隨著計算機(jī)技術(shù)、人工智能和大數(shù)據(jù)技術(shù)的快速發(fā)展,圖文處理技術(shù)也在不斷革新,其中,圖像處理技術(shù)涵蓋圖像的獲取、壓縮、存儲、增強(qiáng)、分析和識別,深度學(xué)習(xí)也廣泛應(yīng)用于圖像處理中,如卷積神經(jīng)網(wǎng)絡(luò)(cnn),顯著提升了圖文識別的準(zhǔn)確性和速度,此外,文本處理技術(shù)涉及文本的采集、分析、生成和檢索,包括字符識別(ocr)、自然語言處理(nlp)和文本挖掘,nlp通過機(jī)器學(xué)習(xí)和深度學(xué)習(xí),可以實(shí)現(xiàn)語法分析、情感分析和主題識別等任務(wù),另外,多模態(tài)融合技術(shù)則將圖像、文本和音頻等多種模態(tài)的信息綜合處理,提供了全面的信息理解與分析。
2、在現(xiàn)有技術(shù)中,圖文處理技術(shù)的實(shí)現(xiàn)原理包括:圖像采集、預(yù)處理、特征提取、文本采集、光學(xué)字符識別、自然語言處理以及多模態(tài)數(shù)據(jù)融合等步驟,其中,通過圖像處理,系統(tǒng)能夠識別圖像中的關(guān)鍵信息,而文本處理則利用光學(xué)字符識別和自然語言處理技術(shù),將文本數(shù)據(jù)轉(zhuǎn)換為可編輯的文字,以進(jìn)行語義分析和情感識別,此外,多模態(tài)融合技術(shù)則將圖像、文本等多種模態(tài)的數(shù)據(jù)進(jìn)行綜合利用,提供了更全面的信息分析和決策支持;然而,在漢藏語的圖文交互處理中,不同模態(tài)數(shù)據(jù)之間的語義表示方式存在差異,導(dǎo)致語義鴻溝問題,例如,圖像數(shù)據(jù)是以像素點(diǎn)或特征向量的形式表示,而文本數(shù)據(jù)則是以詞匯或句子的形式表示,這種差異會使得跨模態(tài)之間的語義關(guān)聯(lián)難以建立和理解,從而導(dǎo)致漢藏語多模態(tài)交互處理的處理結(jié)果偏離真實(shí)的語義信息,因此,如何實(shí)現(xiàn)漢藏語圖文跨模態(tài)交互的語義關(guān)聯(lián),從而提高漢藏語圖文跨模態(tài)交互處理結(jié)果的真實(shí)性成為了業(yè)界面臨的難題。
技術(shù)實(shí)現(xiàn)思路
1、本技術(shù)提供一種漢藏語多模態(tài)的圖文處理方法及處理系統(tǒng),可實(shí)現(xiàn)漢藏語圖文跨模態(tài)交互的語義關(guān)聯(lián)。
2、第一方面,本技術(shù)提供一種漢藏語多模態(tài)的圖文處理方法,包括如下步驟:
3、獲取待處理的漢藏語圖文信息;
4、根據(jù)不同模態(tài)提取器對應(yīng)提取所述漢藏語圖文信息中漢藏語圖像模態(tài)的圖像特征和漢藏語文本模態(tài)的文本特征;
5、對所述圖像特征和所述文本特征進(jìn)行特征交互,得到第一漢藏語圖文交互特征信息,根據(jù)所述第一漢藏語圖文交互特征信息構(gòu)建漢藏語圖文的第一交互軌跡,進(jìn)而得到第一交互特征量;
6、根據(jù)預(yù)設(shè)的多梯度切分尺度對所述漢藏語圖像模態(tài)的圖像進(jìn)行切分處理,得到多個切分圖塊,通過所述漢藏語圖像模態(tài)的圖像的畫幅比例重組所有的切分圖塊,得到漢藏語圖像副本,根據(jù)對應(yīng)提取器提取所述漢藏語圖像副本的圖像副本特征;
7、對所述圖像副本特征和所述文本特征進(jìn)行特征交互,得到第二漢藏語圖文交互特征信息,根據(jù)所述第二漢藏語圖文交互特征信息構(gòu)建漢藏語圖文的第二交互軌跡,進(jìn)而得到第二交互特征量;
8、根據(jù)所述第一交互特征量和所述第二交互特征量確定漢藏語圖文交互處理過程中的交互處理置信度,基于所述交互處理置信度輸出漢藏語圖文交互的交互結(jié)果。
9、在一些實(shí)施例中,對所述圖像特征和所述文本特征進(jìn)行特征交互,得到第一漢藏語圖文交互特征信息具體包括:
10、確定所述圖像特征的交互影響參量;
11、確定所述文本特征的第一交互影響參量;
12、將所述圖像特征與所述文本特征進(jìn)行維度對齊;
13、根據(jù)所述圖像特征的交互影響參量、所述文本特征的第一交互影響參量以及維度對齊后的圖像特征和文本特征確定第一漢藏語圖文交互特征信息。
14、在一些實(shí)施例中,確定所述圖像特征的交互影響參量具體包括:
15、獲取所述圖像特征與所述文本特征進(jìn)行維度對齊后的維度大??;
16、獲取所述圖像特征與轉(zhuǎn)置后的文本特征;
17、根據(jù)所述圖像特征、所述轉(zhuǎn)置后的文本特征以及所述維度大小確定所述圖像特征的交互影響參量。
18、在一些實(shí)施例中,根據(jù)所述第一漢藏語圖文交互特征信息構(gòu)建漢藏語圖文的第一交互軌跡,進(jìn)而得到第一交互特征量具體包括:
19、獲取所述第一漢藏語圖文交互特征信息中的所有漢藏語圖文第一交互特征值;
20、對所有的漢藏語圖文第一交互特征值進(jìn)行相連,得到漢藏語圖文的第一交互軌跡;
21、從所述第一交互軌跡中獲取所有的尖峰點(diǎn)和低谷點(diǎn);
22、根據(jù)所述第一交互軌跡獲取的所有尖峰點(diǎn)和低谷點(diǎn)確定第一交互特征量。
23、在一些實(shí)施例中,根據(jù)預(yù)設(shè)的多梯度切分尺度對所述漢藏語圖像模態(tài)的圖像進(jìn)行切分處理,得到多個切分圖塊具體包括:
24、獲取預(yù)設(shè)的多梯度切分尺度,所述多梯度切分尺度包括水平切分尺度和垂直切分尺度;
25、根據(jù)所述水平切分尺度和垂直切分尺度對所述漢藏語圖像模態(tài)的圖像進(jìn)行逐一切割,得到多個切分圖塊。
26、在一些實(shí)施例中,通過所述漢藏語圖像模態(tài)的圖像的畫幅比例重組所有的切分圖塊,得到漢藏語圖像副本具體包括:
27、確定所述漢藏語圖像模態(tài)的圖像的畫幅比例;
28、確定所述切分圖塊的最大擾動距離;
29、基于所述畫幅比例和所述最大擾動距離對所有的切分圖塊進(jìn)行隨機(jī)擾動,進(jìn)而將擾動后的切分圖塊進(jìn)行重組,得到漢藏語圖像副本。
30、在一些實(shí)施例中,通過漢藏語圖文數(shù)據(jù)庫獲取待處理的漢藏語圖文信息。
31、第二方面,本技術(shù)提供一種漢藏語多模態(tài)的圖文處理系統(tǒng),包括:
32、獲取模塊,用于獲取待處理的漢藏語圖文信息;
33、處理模塊,用于根據(jù)不同模態(tài)提取器對應(yīng)提取所述漢藏語圖文信息中漢藏語圖像模態(tài)的圖像特征和漢藏語文本模態(tài)的文本特征;
34、所述處理模塊,還用于對所述圖像特征和所述文本特征進(jìn)行特征交互,得到第一漢藏語圖文交互特征信息,根據(jù)所述第一漢藏語圖文交互特征信息構(gòu)建漢藏語圖文的第一交互軌跡,進(jìn)而得到第一交互特征量;
35、所述處理模塊,還用于根據(jù)預(yù)設(shè)的多梯度切分尺度對所述漢藏語圖像模態(tài)的圖像進(jìn)行切分處理,得到多個切分圖塊,通過所述漢藏語圖像模態(tài)的圖像的畫幅比例重組所有的切分圖塊,得到漢藏語圖像副本,根據(jù)對應(yīng)提取器提取所述漢藏語圖像副本的圖像副本特征;
36、所述處理模塊,還用于對所述圖像副本特征和所述文本特征進(jìn)行特征交互,得到第二漢藏語圖文交互特征信息,根據(jù)所述第二漢藏語圖文交互特征信息構(gòu)建漢藏語圖文的第二交互軌跡,進(jìn)而得到第二交互特征量;
37、執(zhí)行模塊,用于根據(jù)所述第一交互特征量和所述第二交互特征量確定漢藏語圖文交互處理過程中的交互處理置信度,基于所述交互處理置信度輸出漢藏語圖文交互的交互結(jié)果。
38、第三方面,本技術(shù)提供一種計算機(jī)設(shè)備,所述計算機(jī)設(shè)備包括存儲器和處理器,所述存儲器存儲有代碼,所述處理器被配置為獲取所述代碼,并執(zhí)行上述的漢藏語多模態(tài)的圖文處理方法。
39、第四方面,本技術(shù)提供一種計算機(jī)可讀存儲介質(zhì),所述計算機(jī)可讀存儲介質(zhì)存儲有計算機(jī)程序,所述計算機(jī)程序被處理器執(zhí)行時實(shí)現(xiàn)上述的漢藏語多模態(tài)的圖文處理方法。
40、本技術(shù)公開的實(shí)施例提供的技術(shù)方案具有以下有益效果:
41、本技術(shù)提供的漢藏語多模態(tài)的圖文處理方法及處理系統(tǒng)中,首先,獲取待處理的漢藏語圖文信息;其次根據(jù)不同模態(tài)提取器對應(yīng)提取所述漢藏語圖文信息中漢藏語圖像模態(tài)的圖像特征和漢藏語文本模態(tài)的文本特征;進(jìn)一步,對所述圖像特征和所述文本特征進(jìn)行特征交互,得到第一漢藏語圖文交互特征信息,根據(jù)所述第一漢藏語圖文交互特征信息構(gòu)建漢藏語圖文的第一交互軌跡,進(jìn)而得到第一交互特征量;再進(jìn)一步,根據(jù)預(yù)設(shè)的多梯度切分尺度對所述漢藏語圖像模態(tài)的圖像進(jìn)行切分處理,得到多個切分圖塊,通過所述漢藏語圖像模態(tài)的圖像的畫幅比例重組所有的切分圖塊,得到漢藏語圖像副本,根據(jù)對應(yīng)提取器提取所述漢藏語圖像副本的圖像副本特征;然后,對所述圖像副本特征和所述文本特征進(jìn)行特征交互,得到第二漢藏語圖文交互特征信息,根據(jù)所述第二漢藏語圖文交互特征信息構(gòu)建漢藏語圖文的第二交互軌跡,進(jìn)而得到第二交互特征量;最后,根據(jù)所述第一交互特征量和所述第二交互特征量確定漢藏語圖文交互處理過程中的交互處理置信度,基于所述交互處理置信度輸出漢藏語圖文交互的交互結(jié)果。
42、由此可見,本技術(shù)首先通過預(yù)先訓(xùn)練好的圖像特征提取器和文本特征提取器提取得到所述漢藏語圖文信息中漢藏語圖像模態(tài)的圖像特征和漢藏語文本模態(tài)的文本特征,以更加有效的理解漢藏語圖像內(nèi)容和漢藏語文本表達(dá),從而實(shí)現(xiàn)對漢藏語圖像和文本之間的語義理解和分析;其次,對漢藏語圖像內(nèi)容和漢藏語文本表達(dá)進(jìn)行特征交互并確定第一交互特征量,以分析模型對復(fù)雜數(shù)據(jù)的理解和處理能力,進(jìn)而識別跨模態(tài)之間的語義關(guān)聯(lián)建立能力和理解能力;然后,依據(jù)無序重組的漢藏語圖像副本的圖像副本特征與文本特征確定第二交互特征量,以更進(jìn)一步識別跨模態(tài)之間的語義關(guān)聯(lián)建立能力和理解能力,從而避免了漢藏語多模態(tài)交互處理的處理結(jié)果偏離真實(shí)語義信息;最后,根據(jù)所述第一交互特征量和所述第二交互特征量確定漢藏語圖文交互處理過程中的交互處理置信度,基于所述交互處理置信度輸出漢藏語圖文交互的交互結(jié)果;綜上所述,可實(shí)現(xiàn)漢藏語圖文跨模態(tài)交互的語義關(guān)聯(lián),從而提高漢藏語圖文跨模態(tài)交互處理結(jié)果的真實(shí)性。