本申請(qǐng)涉及數(shù)據(jù)處理,特別是涉及一種基于對(duì)抗網(wǎng)絡(luò)的情感信息提取方法和情感識(shí)別方法。
背景技術(shù):
1、情緒識(shí)別技術(shù)的應(yīng)用領(lǐng)域正不斷拓展,涵蓋了娛樂(lè)、交通、醫(yī)療健康和零售等多個(gè)行業(yè),這些應(yīng)用通過(guò)識(shí)別出用戶的情緒來(lái)提供定制化服務(wù),增強(qiáng)了人機(jī)交互的自然性和效率?,F(xiàn)有主流的多模態(tài)情感識(shí)別方法中,在對(duì)不同模態(tài)的信息進(jìn)行融合時(shí),由于融合手段的不嚴(yán)謹(jǐn),往往會(huì)導(dǎo)致模態(tài)信息融合之后的融合向量出現(xiàn)過(guò)多的噪音或重要特征的缺失,不能很好的體現(xiàn)各個(gè)模態(tài)的特性。
2、如申請(qǐng)?zhí)?02110884202.7的專利,其通過(guò)自動(dòng)編碼器將文本上下文特征向量ei和圖像上下文特征向量ej直接融合得到融合向量ef,再通過(guò)對(duì)抗網(wǎng)絡(luò)鑒別出充分融合的ef,可見(jiàn)該專利是通過(guò)先直接融合后再篩選出合格的融合向量,雖然在一定程度上能提高整合向量的質(zhì)量,但本質(zhì)上簡(jiǎn)單的直接融合難以產(chǎn)生高質(zhì)量的融合向量,該專利所作的僅為從低質(zhì)量的融合向量中篩選出較高質(zhì)量的融合向量,難以從根本上解決情緒識(shí)別中多模態(tài)數(shù)據(jù)融合質(zhì)量較差的問(wèn)題。
3、目前針對(duì)相關(guān)技術(shù)中情緒識(shí)別中多模態(tài)數(shù)據(jù)融合質(zhì)量較差的問(wèn)題,尚未提出有效的解決方案。
技術(shù)實(shí)現(xiàn)思路
1、本申請(qǐng)實(shí)施例提供了一種基于對(duì)抗網(wǎng)絡(luò)的情感信息提取方法和情感識(shí)別方法,以至少解決相關(guān)技術(shù)中情緒識(shí)別中多模態(tài)數(shù)據(jù)融合質(zhì)量較差的問(wèn)題。
2、第一方面,本申請(qǐng)實(shí)施例提供了一種基于對(duì)抗網(wǎng)絡(luò)的情感信息提取方法,所述方法包括:
3、獲取待提取目標(biāo)的多模態(tài)數(shù)據(jù),其中,所述多模態(tài)數(shù)據(jù)包括文本數(shù)據(jù)、視覺(jué)數(shù)據(jù)和音頻數(shù)據(jù);
4、分別對(duì)所述文本數(shù)據(jù)、所述視覺(jué)數(shù)據(jù)和所述音頻數(shù)據(jù)進(jìn)行提取,對(duì)應(yīng)得到文本特征、視覺(jué)特征和音頻特征;
5、通過(guò)對(duì)抗網(wǎng)絡(luò)模型將所述文本特征、所述視覺(jué)特征和所述音頻特征映射到共同的潛在子空間,以提取得到共有信息;
6、通過(guò)所述對(duì)抗網(wǎng)絡(luò)模型區(qū)分所述文本特征、所述視覺(jué)特征和所述音頻特征之間的不相同信息,以提取得到異質(zhì)性信息;
7、將所述共有信息和所述異質(zhì)性信息進(jìn)行融合,得到所述多模態(tài)數(shù)據(jù)的多模態(tài)表征,其中,多模態(tài)表征用于表征所述待提取目標(biāo)的情感信息。
8、在其中一些實(shí)施例中,通過(guò)對(duì)抗網(wǎng)絡(luò)模型將所述文本特征、所述視覺(jué)特征和所述音頻特征映射到共同的潛在子空間,以提取得到共有信息包括:
9、基于對(duì)抗網(wǎng)絡(luò)模型中的生成器g(·;θg),利用映射參數(shù)θg將所述文本特征、所述視覺(jué)特征和所述音頻特征映射到具有分布對(duì)齊的共同潛在子空間以提取得到共有信息,其中,t表示文本特征,v表示視覺(jué)特征,a表示音頻特征。
10、在其中一些實(shí)施例中,通過(guò)所述對(duì)抗網(wǎng)絡(luò)模型區(qū)分所述文本特征、所述視覺(jué)特征和所述音頻特征之間的不相同信息,以提取得到異質(zhì)性信息包括:
11、基于對(duì)抗網(wǎng)絡(luò)模型中的模態(tài)鑒別器d(i;θd),識(shí)別出單獨(dú)屬于所述文本特征或所述視覺(jué)特征或所述音頻特征的信息,以提取得到各自的異質(zhì)性信息,其中,i表示模態(tài)鑒別器的輸入,θd是模態(tài)鑒別器d的參數(shù)集合,包括權(quán)重矩陣w和偏置矩陣b,用于對(duì)輸入i進(jìn)行線性變換。
12、在其中一些實(shí)施例中,將所述共有信息和所述異質(zhì)性信息進(jìn)行融合,得到所述多模態(tài)數(shù)據(jù)的多模態(tài)表征包括:
13、通過(guò)cme跨模態(tài)編碼器,將所述視覺(jué)特征的異質(zhì)性信息與所述音頻特征的異質(zhì)性信息進(jìn)行融合,得到第一融合表征;
14、再通過(guò)cme跨模態(tài)編碼器,將所述第一融合表征與所述文本特征的異質(zhì)性信息進(jìn)行融合,得到第二融合表征;
15、再通過(guò)cme跨模態(tài)編碼器,將所述第二融合表征與所述共有信息進(jìn)行融合,得到所述多模態(tài)數(shù)據(jù)的多模態(tài)表征。
16、在其中一些實(shí)施例中,在分別對(duì)所述文本數(shù)據(jù)、所述視覺(jué)數(shù)據(jù)和所述音頻數(shù)據(jù)進(jìn)行提取,對(duì)應(yīng)得到文本特征、視覺(jué)特征和音頻特征之前,所述方法包括:
17、分別對(duì)所述文本數(shù)據(jù)、所述視覺(jué)數(shù)據(jù)和所述音頻數(shù)據(jù)進(jìn)行上下文處理,得到包含時(shí)間信息和上下文信息的文本特征、包含時(shí)間信息和上下文信息的視覺(jué)特征,以及包含時(shí)間信息和上下文信息的音頻特征,其中,所述上下文處理通過(guò)transformer編碼器或lstm模型執(zhí)行。
18、在其中一些實(shí)施例中,對(duì)所述文本數(shù)據(jù)進(jìn)行提取,對(duì)應(yīng)得到文本特征包括:
19、通過(guò)預(yù)設(shè)自然語(yǔ)言處理工具對(duì)文本數(shù)據(jù)進(jìn)行提取,得到文本特征,其中,所述預(yù)設(shè)自然語(yǔ)言處理工具包括roberta工具和bert工具。
20、在其中一些實(shí)施例中,對(duì)所述視覺(jué)數(shù)據(jù)進(jìn)行提取,對(duì)應(yīng)得到視覺(jué)特征包括:
21、通過(guò)預(yù)設(shè)卷積神經(jīng)網(wǎng)絡(luò)模型對(duì)視覺(jué)數(shù)據(jù)進(jìn)行提取,得到視覺(jué)特征,其中,所述預(yù)設(shè)卷積神經(jīng)網(wǎng)絡(luò)模型包括resnet模型和vgg模型。
22、在其中一些實(shí)施例中,對(duì)所述音頻數(shù)據(jù)進(jìn)行提取,對(duì)應(yīng)得到音頻特征包括:
23、通過(guò)預(yù)設(shè)音頻特征提取工具對(duì)音頻數(shù)據(jù)進(jìn)行提取,得到音頻特征,其中,所述預(yù)設(shè)音頻特征提取工具包括opensmile工具。
24、第二方面,本申請(qǐng)實(shí)施例提供了一種基于對(duì)抗網(wǎng)絡(luò)的情感識(shí)別方法,所述情感識(shí)別方法基于多模態(tài)表征識(shí)別待提取目標(biāo)的情感,所述多模態(tài)表征通過(guò)上述第一方面任一項(xiàng)所述的情感信息提取方法得到,所述情感識(shí)別方法包括:
25、將所述多模態(tài)表征輸入多標(biāo)簽分類模型,通過(guò)所述多標(biāo)簽分類模型分類識(shí)別出待提取目標(biāo)的情感,其中,所述多標(biāo)簽分類模型為包含softmax全連接層和relu層的多層感知機(jī)。
26、在其中一些實(shí)施例中,在所述多標(biāo)簽分類模型的訓(xùn)練過(guò)程中,通過(guò)二元交叉熵?fù)p失函數(shù)調(diào)整所述多標(biāo)簽分類模型的模型參數(shù)。
27、相比于相關(guān)技術(shù),本申請(qǐng)實(shí)施例提供的一種基于對(duì)抗網(wǎng)絡(luò)的情感信息提取方法和情感識(shí)別方法,其中,該情感信息提取方法通過(guò)獲取待提取目標(biāo)的多模態(tài)數(shù)據(jù),其中,多模態(tài)數(shù)據(jù)包括文本數(shù)據(jù)、視覺(jué)數(shù)據(jù)和音頻數(shù)據(jù);分別對(duì)文本數(shù)據(jù)、視覺(jué)數(shù)據(jù)和音頻數(shù)據(jù)進(jìn)行提取,對(duì)應(yīng)得到文本特征、視覺(jué)特征和音頻特征;通過(guò)對(duì)抗網(wǎng)絡(luò)模型將文本特征、視覺(jué)特征和音頻特征映射到共同的潛在子空間,以提取得到共有信息;通過(guò)對(duì)抗網(wǎng)絡(luò)模型區(qū)分文本特征、視覺(jué)特征和音頻特征之間的不相同信息,以提取得到異質(zhì)性信息;將共有信息和異質(zhì)性信息進(jìn)行融合,得到多模態(tài)數(shù)據(jù)的多模態(tài)表征,其中,多模態(tài)表征用于表征待提取目標(biāo)的情感信息,實(shí)現(xiàn)了基于對(duì)多模態(tài)數(shù)據(jù)之間異同信息的考慮,通過(guò)gan提取不同模態(tài)的異質(zhì)性信息和模態(tài)之間的共有信息,以基于該異質(zhì)性信息和共有信息來(lái)提升模態(tài)融合的效果,從而提升情感識(shí)別的準(zhǔn)確度,解決了情緒識(shí)別中多模態(tài)數(shù)據(jù)融合質(zhì)量較差的問(wèn)題。
1.一種基于對(duì)抗網(wǎng)絡(luò)的情感信息提取方法,其特征在于,所述方法包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,通過(guò)對(duì)抗網(wǎng)絡(luò)模型將所述文本特征、所述視覺(jué)特征和所述音頻特征映射到共同的潛在子空間,以提取得到共有信息包括:
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,通過(guò)所述對(duì)抗網(wǎng)絡(luò)模型區(qū)分所述文本特征、所述視覺(jué)特征和所述音頻特征之間的不相同信息,以提取得到異質(zhì)性信息包括:
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,將所述共有信息和所述異質(zhì)性信息進(jìn)行融合,得到所述多模態(tài)數(shù)據(jù)的多模態(tài)表征包括:
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,在分別對(duì)所述文本數(shù)據(jù)、所述視覺(jué)數(shù)據(jù)和所述音頻數(shù)據(jù)進(jìn)行提取,對(duì)應(yīng)得到文本特征、視覺(jué)特征和音頻特征之前,所述方法包括:
6.根據(jù)權(quán)利要求1所述的方法,其特征在于,對(duì)所述文本數(shù)據(jù)進(jìn)行提取,對(duì)應(yīng)得到文本特征包括:
7.根據(jù)權(quán)利要求1所述的方法,其特征在于,對(duì)所述視覺(jué)數(shù)據(jù)進(jìn)行提取,對(duì)應(yīng)得到視覺(jué)特征包括:
8.根據(jù)權(quán)利要求1所述的方法,其特征在于,對(duì)所述音頻數(shù)據(jù)進(jìn)行提取,對(duì)應(yīng)得到音頻特征包括:
9.一種基于對(duì)抗網(wǎng)絡(luò)的情感識(shí)別方法,其特征在于,所述情感識(shí)別方法基于多模態(tài)表征識(shí)別待提取目標(biāo)的情感,所述多模態(tài)表征通過(guò)權(quán)利要求1至8任一項(xiàng)所述的情感信息提取方法得到,所述情感識(shí)別方法包括:
10.根據(jù)權(quán)利要求9所述的方法,其特征在于,在所述多標(biāo)簽分類模型的訓(xùn)練過(guò)程中,通過(guò)二元交叉熵?fù)p失函數(shù)調(diào)整所述多標(biāo)簽分類模型的模型參數(shù)。