本技術(shù)涉及計算機(jī),具體涉及一種圖像生成方法、模型訓(xùn)練方法、裝置及電子設(shè)備。
背景技術(shù):
1、在人工智能技術(shù)領(lǐng)域,通過圖像進(jìn)行身份識別是一個重要的發(fā)展方向,如人臉識別、指紋識別、虹膜識別等;將用于進(jìn)行身份識別的神經(jīng)網(wǎng)絡(luò)模型稱為對象識別模型。相關(guān)技術(shù)中,出于避免侵犯或者泄露隱私的目的,會采用圖像生成模型自動生成的圖像來替代真實(shí)采集的圖像,來訓(xùn)練對象識別模型。
2、相關(guān)技術(shù)中,圖像生成模型生成的圖像存在無法保持身份一致性的問題,身份一致性是指針對同一個身份標(biāo)識生成的不同圖像實(shí)質(zhì)上身份是不一致的,由于針對同一個身份標(biāo)識生成的不同圖像不能保持身份一致性,這樣導(dǎo)致對象識別模型的訓(xùn)練效果較差。
技術(shù)實(shí)現(xiàn)思路
1、有鑒于此,本技術(shù)實(shí)施例提出了一種圖像生成方法、模型訓(xùn)練方法、裝置及電子設(shè)備,方法通過將采樣特征映射得到服從第一分布的第一身份特征,由于第一身份特征與對象識別模型所提取的身份特征服從同一特征分布,可以保證通過第一身份特征驅(qū)動生成多張對象圖像具有身份一致性,保證了對象識別模型的訓(xùn)練效果。
2、本技術(shù)實(shí)施例是采用以下技術(shù)方案來實(shí)現(xiàn)的:
3、第一方面,本技術(shù)實(shí)施例提供了一種圖像生成方法,方法包括:獲取采樣特征;由驅(qū)動特征生成模型將所述采樣特征進(jìn)行特征映射,得到服從第一分布的第一身份特征,所述第一分布是對象識別模型提取的身份特征所服從的特征分布;通過所述第一身份特征,驅(qū)動圖像生成模型對多張不同的噪聲圖像分別進(jìn)行擴(kuò)散去噪,得到所述第一身份特征所代表身份標(biāo)識的多張不同的對象圖像,所述第一身份特征所代表身份標(biāo)識的多張不同的對象圖像用于對所述對象識別模型進(jìn)行訓(xùn)練。
4、第二方面,本技術(shù)實(shí)施例提供了一種對象識別模型的訓(xùn)練方法,方法包括:獲取訓(xùn)練數(shù)據(jù),所述訓(xùn)練數(shù)據(jù)包括同一身份標(biāo)識的多張不同的對象圖像,所述同一身份標(biāo)識的多張不同的對象圖像是按照如上的圖像生成方法生成的;根據(jù)同一身份標(biāo)識的多張不同的對象圖像,迭代訓(xùn)練對象識別模型,直至達(dá)到第四訓(xùn)練結(jié)束條件。
5、第三方面,本技術(shù)實(shí)施例提供了一種圖像生成裝置,裝置包括:第一獲取模塊,用于獲取采樣特征;映射模塊,用于由驅(qū)動特征生成模型將所述采樣特征進(jìn)行特征映射,得到服從第一分布的第一身份特征,所述第一分布是對象識別模型提取的身份特征所服從的特征分布;圖像生成模塊,用于通過所述第一身份特征,驅(qū)動圖像生成模型對多張不同的噪聲圖像分別進(jìn)行擴(kuò)散去噪,得到所述第一身份特征所代表身份標(biāo)識的多張不同的對象圖像,所述第一身份特征所代表身份標(biāo)識的多張不同的對象圖像用于對所述對象識別模型進(jìn)行訓(xùn)練。
6、在一些實(shí)施方式中,所述圖像生成模型包括擴(kuò)散網(wǎng)絡(luò)和解碼器網(wǎng)絡(luò);圖像生成模塊包括去噪單元和解碼單元,針對多張不同的噪聲圖像中各所述噪聲圖像,去噪單元,用于由所述擴(kuò)散網(wǎng)絡(luò)將所述第一身份特征作為擴(kuò)散條件,對所述噪聲圖像進(jìn)行t輪擴(kuò)散去噪,得到第t輪擴(kuò)散去噪輸出的目標(biāo)去噪特征;其中,第i輪擴(kuò)散去噪輸出的去噪特征作為第i+1輪擴(kuò)散去噪的輸入,i和t為正整數(shù),i<t;解碼單元,用于由所述解碼器網(wǎng)絡(luò)對所述目標(biāo)去噪特征進(jìn)行解碼,得到所述第一身份特征所代表身份標(biāo)識的對象圖像。
7、在一些實(shí)施方式中,圖像生成裝置還包括第一訓(xùn)練準(zhǔn)備模塊,用于獲取第一樣本對象圖像、所述第一樣本對象圖像對應(yīng)的第一樣本身份特征以及為所述第一樣本對象圖像確定的參考輪次k,所述第一樣本身份特征是參考對象識別模型對所述第一樣本對象圖像進(jìn)行特征提取得到的,所述參考對象識別模型是所述對象識別模型或者是與所述對象識別模型的識別任務(wù)相同的其他模型;k為不超過t的正整數(shù);第一編碼模塊,用于由編碼器網(wǎng)絡(luò)對所述第一樣本對象圖像進(jìn)行編碼處理,得到第一編碼特征;第一加噪模塊,用于由所述擴(kuò)散網(wǎng)絡(luò)對所述第一編碼特征進(jìn)行k輪擴(kuò)散加噪,得到擴(kuò)散加噪結(jié)果;所述擴(kuò)散加噪結(jié)果包括第k輪擴(kuò)散加噪所得到的目標(biāo)樣本加噪特征;第一去噪模塊,用于由所述擴(kuò)散網(wǎng)絡(luò)以所述第一樣本身份特征作為擴(kuò)散條件,對所述目標(biāo)樣本加噪特征進(jìn)行k輪擴(kuò)散去噪處理,得到樣本去噪特征;第一解碼模塊,用于由所述解碼器網(wǎng)絡(luò)對所述樣本去噪特征進(jìn)行解碼,得到對象解碼圖像;第一提取模塊,用于由所述參考對象識別模型對所述對象解碼圖像進(jìn)行身份特征提取,得到所述樣本去噪特征對應(yīng)的參考身份特征;第一損失計算模塊,用于根據(jù)所述第一樣本身份特征與所述參考身份特征,確定身份特征約束損失;第一參數(shù)調(diào)整模塊,根據(jù)所述身份特征約束損失,至少調(diào)整所述擴(kuò)散網(wǎng)絡(luò)的參數(shù),直至達(dá)到第一訓(xùn)練結(jié)束條件。
8、在一些實(shí)施方式中,第一損失計算模塊包括補(bǔ)償系數(shù)確定單元,用于所述參考輪次k,確定補(bǔ)償系數(shù),所述補(bǔ)償系數(shù)與所述參考輪次k負(fù)相關(guān);第一計算單元,用于計算所述第一樣本身份特征與所述參考身份特征之間的特征損失;補(bǔ)償單元,用于通過所述補(bǔ)償系數(shù)對所述特征損失進(jìn)行補(bǔ)償,得到身份特征約束損失。
9、在一些實(shí)施方式中,所述擴(kuò)散去噪結(jié)果還包括在k輪擴(kuò)散去噪處理中所預(yù)測的噪聲,圖像生成裝置還包括擴(kuò)散損失計算模塊,用于根據(jù)在對所述第一編碼特征進(jìn)行k輪擴(kuò)散加噪所加入的噪聲和在對所述目標(biāo)樣本加噪特征進(jìn)行k輪擴(kuò)散去噪處理的過程中所預(yù)測的噪聲,確定擴(kuò)散損失;第一參數(shù)調(diào)整模塊包括還包括加權(quán)計算單元,用于將所述身份特征約束損失與所述擴(kuò)散損失進(jìn)行加權(quán)處理,得到第一損失;調(diào)整單元,用于根據(jù)所述第一損失,至少調(diào)整所述擴(kuò)散網(wǎng)絡(luò)的參數(shù),直至達(dá)到第一訓(xùn)練結(jié)束條件。
10、在一些實(shí)施方式中,第一參數(shù)調(diào)整模塊還用于固定所述編碼器網(wǎng)絡(luò)和所述解碼器網(wǎng)絡(luò)的參數(shù),根據(jù)所述身份特征約束損失,調(diào)整所述擴(kuò)散網(wǎng)絡(luò)的參數(shù),直至達(dá)到第一訓(xùn)練結(jié)束條件。
11、在一些實(shí)施方式中,圖像生成裝置還包括第二訓(xùn)練準(zhǔn)備模塊,用于獲取第二樣本對象圖像;第二編碼模塊,用于由所述編碼器網(wǎng)絡(luò)對所述第二樣本對象圖像進(jìn)行特征提取,得到第二編碼特征;第二解碼模塊,用于由所述解碼器網(wǎng)絡(luò)對所述第二編碼特征進(jìn)行解碼,得到解碼樣本對象圖像;第二損失計算模塊,用于根據(jù)所述第二樣本對象圖像和所述解碼樣本對象圖像,確定第二損失;第二參數(shù)調(diào)整模塊,用于根據(jù)所述第二損失調(diào)整所述編碼器網(wǎng)絡(luò)和所述解碼器網(wǎng)絡(luò)的參數(shù),直至達(dá)到第二訓(xùn)練結(jié)束條件。
12、在一些實(shí)施方式中,第一獲取模塊,用于在編碼特征分布中進(jìn)行采樣,得到所述采樣特征;所述編碼特征分布是指所述編碼器網(wǎng)絡(luò)編碼得到的編碼特征所服從的分布。
13、在一些實(shí)施方式中,圖像生成裝置還包括第三訓(xùn)練準(zhǔn)備模塊,用于獲取第三樣本對象圖像和所述第三樣本對象圖像對應(yīng)的第三樣本身份特征,所述第三樣本身份特征是所述參考對象識別模型對所述第三樣本對象圖像進(jìn)行特征提取得到的;第二映射模塊,用于由分布映射網(wǎng)絡(luò)將所述第三樣本身份特征向編碼特征分布進(jìn)行映射,得到預(yù)測分布參數(shù);所述編碼特征分布是指所述編碼器網(wǎng)絡(luò)編碼得到的編碼特征所服從的分布;特征還原模塊,用于由所述驅(qū)動特征生成模型基于所述預(yù)測分布參數(shù)進(jìn)行特征還原,得到服從所述第一分布的樣本驅(qū)動特征;第三損失計算模塊,用于基于所述樣本驅(qū)動特征和所述第三樣本身份特征,確定第三損失;第三參數(shù)調(diào)整模塊,用于根據(jù)所述第三損失,調(diào)整所述驅(qū)動特征生成模型和所述分布映射網(wǎng)絡(luò)的參數(shù),直至達(dá)到第三訓(xùn)練結(jié)束條件。
14、在一些實(shí)施方式中,所述對象識別模型為人臉識別模型,所述對象圖像為人臉圖像。
15、第四方面,本技術(shù)實(shí)施例提供了一種對象識別模型的訓(xùn)練裝置,裝置包括:第二獲取模塊,用于獲取訓(xùn)練數(shù)據(jù),所述訓(xùn)練數(shù)據(jù)包括各身份標(biāo)識的多張不同的對象圖像,所述各身份標(biāo)識的多張不同的對象圖像是按照上述的圖像生成方法生成的;對象識別模型訓(xùn)練模塊,用于根據(jù)各身份標(biāo)識的多張不同的對象圖像,迭代訓(xùn)練對象識別模型,直至達(dá)到第四訓(xùn)練結(jié)束條件。
16、第五方面,本技術(shù)實(shí)施例提供了一種電子設(shè)備,包括:處理器;存儲器,所述存儲器上存儲有計算機(jī)指令,所述計算機(jī)指令被所述處理器執(zhí)行時,實(shí)現(xiàn)上述的方法。
17、第六方面,本技術(shù)實(shí)施例提供了一種計算機(jī)可讀存儲介質(zhì),所述計算機(jī)可讀存儲介質(zhì)存儲有計算機(jī)指令,所述計算機(jī)指令被處理器執(zhí)行時,實(shí)現(xiàn)上述的方法。
18、第七方面,本技術(shù)實(shí)施例提供了一種計算機(jī)程序產(chǎn)品,包括計算機(jī)指令,該計算機(jī)指令被處理器執(zhí)行時,實(shí)現(xiàn)上述的方法。
19、本技術(shù)實(shí)施例提供的一種圖像生成方法、裝置及電子設(shè)備,在獲取到采樣特征之后,先由驅(qū)動特征生成模型將采樣特征進(jìn)行特征映射,得到服從第一分布的第一身份特征;通過第一身份特征,驅(qū)動圖像生成模型對多張不同的噪聲圖像分別進(jìn)行擴(kuò)散去噪,得到第一身份特征所代表身份標(biāo)識的多張不同的對象圖像,由于第一分布是對象識別模型提取的身份特征所服從的特征分布,第一身份特征服從第一分布,第一身份特征服從的分布與對象識別模型提取的身份特征所服從的特征分布一致,即將采樣特征映射至對象識別模型所提取特征所在特征空間中,保持用于驅(qū)動生成對象圖像的第一身份特征與訓(xùn)練對象識別模型過程的特征分布一致,這樣,在進(jìn)行圖像生成的過程中,相較于采樣特征,第一身份特征的身份信息保持能力更強(qiáng),對于圖像生成過程中身份信息的控制能力更強(qiáng),由此,可以保證在同一個第一身份特征驅(qū)動下生成的不同的對象圖像是對應(yīng)同一身份標(biāo)識的,有效解決了相關(guān)技術(shù)中圖像生成模型生成的圖像無法保持身份一致性的問題。
20、本技術(shù)的這些方面或其他方面在以下實(shí)施例的描述中會更加簡明易懂。