本申請涉及人工智能,具體而言,涉及一種多模態(tài)個性化遙控方法、裝置、電子設(shè)備和存儲介質(zhì)。
背景技術(shù):
1、隨著人工智能技術(shù)的發(fā)展,越來越多的智能終端(包括手機和智能音箱等)支持創(chuàng)建虛擬遙控器對智能顯示產(chǎn)品(包括智能電視或者智能顯示屏等)進行遠程控制。
2、相關(guān)技術(shù)中,這些智能終端通常僅對用戶發(fā)出的語音指令或者用戶對按鍵的操作進行響應(yīng),操作方式單一且無法根據(jù)用戶身份的改變而對顯示內(nèi)容做出適應(yīng)性改變。
3、因此,如何提高用戶對于智能顯示產(chǎn)品的個性化使用體驗成為業(yè)界亟待解決的技術(shù)問題。
技術(shù)實現(xiàn)思路
1、本申請?zhí)峁┮环N多模態(tài)個性化遙控方法、裝置、電子設(shè)備和存儲介質(zhì),用于解決如何提高用戶對于智能顯示產(chǎn)品的個性化使用體驗的技術(shù)問題。
2、本申請?zhí)峁┮环N多模態(tài)個性化遙控方法,包括:
3、接收用戶的語音指令,并采集所述用戶的圖像信息;
4、基于所述語音指令,確定所述用戶的聲音信息和指令信息;
5、將所述圖像信息和所述聲音信息輸入多模態(tài)特征識別模型,得到所述多模態(tài)特征識別模型輸出的所述用戶的個性化識別特征;
6、基于所述用戶的個性化識別特征和指令信息,確定所述用戶對應(yīng)的多模態(tài)操作界面和/或個性化推薦內(nèi)容。
7、在一些實施例中,所述多模態(tài)特征識別模型包括多個特征識別子模型;所述特征識別子模型至少包括年齡特征識別子模型、性別特征識別子模型、情緒特征識別子模型和語種特征識別子模型;
8、所述將所述圖像信息和所述聲音信息輸入多模態(tài)特征識別模型,得到所述多模態(tài)特征識別模型輸出的所述用戶的個性化識別特征,包括:
9、將所述圖像信息和所述聲音信息輸入各個特征識別子模型,得到各個特征識別子模型輸出的所述用戶的年齡特征、性別特征、情緒特征和語種特征;
10、基于所述用戶的年齡特征、性別特征、情緒特征和語種特征,確定所述用戶的個性化識別特征。
11、在一些實施例中,所述特征識別子模型包括圖像特征提取模塊、聲音特征提取模塊、特征融合模塊和融合特征提取模塊;
12、所述圖像特征提取模塊的輸出端和所述聲音特征提取模塊的輸出端分別與所述特征融合模塊的輸入端連接;所述特征融合模塊的輸出端與所述融合特征提取模塊的輸入端連接;
13、所述圖像特征提取模塊包括圖像前端處理子模塊和至少一個卷積注意力子模塊;所述聲音特征提取模塊包括聲音前端處理子模塊和至少一個卷積注意力子模塊;所述融合特征提取模塊包括至少一個卷積注意力子模塊。
14、在一些實施例中,所述卷積注意力子模塊包括多尺度平均池化層、多頭注意力層和平均池化層;
15、所述多尺度平均池化層用于對輸入特征在不同尺度上進行平均池化,得到不同分辨率的特征表示;
16、所述多頭注意力層用于基于注意力機制對不同分辨率的特征表示,得到多個注意力特征;
17、所述平均池化層用于對所述多個注意力特征進行平均池化,得到輸出特征。
18、在一些實施例中,所述圖像前端處理子模塊包括依次連接的三維卷積特征提取層、最大池化層、殘差特征提取層和全連接層;
19、所述聲音前端處理子模塊包括依次連接的頻域特征提取層、三維卷積特征提取層和全連接層。
20、在一些實施例中,所述基于所述用戶的個性化識別特征和指令信息,確定所述用戶對應(yīng)的多模態(tài)操作界面和/或個性化推薦內(nèi)容,包括:
21、基于所述用戶的個性化識別特征,確定所述用戶的屬性標簽;
22、基于所述屬性標簽,在用戶多模態(tài)個性化方案存儲庫中與各個候選方案進行匹配,基于匹配結(jié)果確定所述用戶對應(yīng)的多模態(tài)操作界面和/或個性化推薦內(nèi)容;
23、其中,所述用戶多模態(tài)個性化方案存儲庫存儲有多個屬性標簽對應(yīng)的多模態(tài)操作界面和個性化推薦內(nèi)容。
24、本申請?zhí)峁┮环N多模態(tài)個性化遙控裝置,包括:
25、采集單元,用于接收用戶的語音指令,并采集所述用戶的圖像信息;
26、確定單元,用于基于所述語音指令,確定所述用戶的聲音信息和指令信息;
27、識別單元,用于將所述圖像信息和所述聲音信息輸入多模態(tài)特征識別模型,得到所述多模態(tài)特征識別模型輸出的所述用戶的個性化識別特征;
28、遙控單元,用于基于所述用戶的個性化識別特征和指令信息,確定所述用戶對應(yīng)的多模態(tài)操作界面和/或個性化推薦內(nèi)容。
29、本申請?zhí)峁┮环N電子設(shè)備,包括存儲器、處理器及存儲在所述存儲器上并可在所述處理器上運行的計算機程序,所述處理器執(zhí)行所述計算機程序時實現(xiàn)所述多模態(tài)個性化遙控方法。
30、本申請?zhí)峁┮环N非暫態(tài)計算機可讀存儲介質(zhì),其上存儲有計算機程序,所述計算機程序被處理器執(zhí)行時實現(xiàn)所述多模態(tài)個性化遙控方法。
31、本申請?zhí)峁┮环N計算機程序產(chǎn)品,包括計算機程序,所述計算機程序被處理器執(zhí)行時實現(xiàn)所述多模態(tài)個性化遙控方法。
32、本申請?zhí)峁┑亩嗄B(tài)個性化遙控方法、裝置、電子設(shè)備和存儲介質(zhì),接收用戶的語音指令,并采集用戶的圖像信息;基于語音指令,確定用戶的聲音信息和指令信息;將圖像信息和聲音信息輸入多模態(tài)特征識別模型,得到多模態(tài)特征識別模型輸出的用戶的個性化識別特征;基于用戶的個性化識別特征和指令信息,確定用戶對應(yīng)的多模態(tài)操作界面和/或個性化推薦內(nèi)容;相比于相關(guān)技術(shù)中僅通過按鍵和語音的方式獲取用戶的信息,通過圖像信息和聲音信息等多模態(tài)信息能夠準確地確定用戶的個性化識別特征,從而獲取與用戶相關(guān)的更多特征,根據(jù)個性化識別特征確定多模態(tài)操作界面和個性化推薦內(nèi)容,使得人機交互方式和推薦內(nèi)容能夠更好地滿足用戶的個性化需求,提高了用戶對于智能顯示產(chǎn)品的個性化使用體驗。
1.一種多模態(tài)個性化遙控方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的多模態(tài)個性化遙控方法,其特征在于,所述多模態(tài)特征識別模型包括多個特征識別子模型;所述特征識別子模型至少包括年齡特征識別子模型、性別特征識別子模型、情緒特征識別子模型和語種特征識別子模型;
3.根據(jù)權(quán)利要求2所述的多模態(tài)個性化遙控方法,其特征在于,所述特征識別子模型包括圖像特征提取模塊、聲音特征提取模塊、特征融合模塊和融合特征提取模塊;
4.根據(jù)權(quán)利要求3所述的多模態(tài)個性化遙控方法,其特征在于,所述卷積注意力子模塊包括多尺度平均池化層、多頭注意力層和平均池化層;
5.根據(jù)權(quán)利要求3所述的多模態(tài)個性化遙控方法,其特征在于,所述圖像前端處理子模塊包括依次連接的三維卷積特征提取層、最大池化層、殘差特征提取層和全連接層;
6.根據(jù)權(quán)利要求1至5任一項所述的多模態(tài)個性化遙控方法,其特征在于,所述基于所述用戶的個性化識別特征和指令信息,確定所述用戶對應(yīng)的多模態(tài)操作界面和/或個性化推薦內(nèi)容,包括:
7.一種多模態(tài)個性化遙控裝置,其特征在于,包括:
8.一種電子設(shè)備,包括存儲器、處理器及存儲在所述存儲器上并可在所述處理器上運行的計算機程序,其特征在于,所述處理器執(zhí)行所述計算機程序時實現(xiàn)如權(quán)利要求1至6任一項所述多模態(tài)個性化遙控方法。
9.一種非暫態(tài)計算機可讀存儲介質(zhì),其上存儲有計算機程序,其特征在于,所述計算機程序被處理器執(zhí)行時實現(xiàn)如權(quán)利要求1至6任一項所述多模態(tài)個性化遙控方法。
10.一種計算機程序產(chǎn)品,包括計算機程序,其特征在于,所述計算機程序被處理器執(zhí)行時實現(xiàn)權(quán)利要求1至6任一項所述多模態(tài)個性化遙控方法。