本技術涉及模型調整,特別是涉及一種模型調整方法、電子設備和計算機可讀存儲介質。
背景技術:
1、知識蒸餾是一種經(jīng)典的模型壓縮技術,它旨在通過將復雜教師模型的知識遷移到較小、更加簡單的學生模型的技術。它可以幫助簡化模型,提高模型的泛化能力,并減少計算和存儲資源的需求。在深度學習調整過程中,較大的教師模型需要更大的數(shù)據(jù)和計算資源。然而,這些復雜的教師模型往往不適用于資源有限或計算能力較低的設備或系統(tǒng)。因此,將教師模型的知識傳遞到較小的學生模型中,是一個重要的研究方向。
技術實現(xiàn)思路
1、本技術主要解決的技術問題是提供一種模型調整方法、電子設備和計算機可讀存儲介質,能夠使學生模型學習到教師模型中的知識,提高學生模型的性能。
2、為解決上述技術問題,本技術采用的一個技術方案是:提供一種模型調整方法,該方法用于對學生模型的調整,該方法包括:利用至少兩個教師模型分別對圖像數(shù)據(jù)進行識別,以得到各教師模型對應的第一處理結果,以及,利用學生模型對圖像數(shù)據(jù)進行識別,以得到學生模型對應的第二處理結果;獲取第二處理結果分別與各第一處理結果之間的結果差異;利用各結果差異和各教師模型對學生模型的影響權重,對學生模型的網(wǎng)絡參數(shù)進行調整;其中,至少兩個教師模型包括主教師模型和至少一個輔教師模型,主教師模型的影響權重大于輔教師模型的影響權重。
3、其中,學生模型的調整過程包括若干調整階段,其中:至少一個教師模型在不同調整階段中的影響權重不同;和/或,在利用各結果差異和各教師模型對學生模型的影響權重,對學生模型的網(wǎng)絡參數(shù)進行調整之前,方法還包括:對結果差異進行分析,得到各教師模型匹配結果差異的調整權重,作為各教師模型對學生模型的影響權重。
4、其中,第一處理結果和第二處理結果均包括相應模型的中間層的處理結果和輸出層的處理結果中的至少一者;在第一處理結果和第二處理結果均包括相應模型的中間層的處理結果的情況下,結果差異包括學生模型的中間層的處理結果分別與各教師模型的中間層的處理結果之間的第一差異;在第一處理結果和第二處理結果均包括相應模型的輸出層的處理結果的情況下,結果差異包括學生模型的輸出層的處理結果分別與各教師模型的輸出層的處理結果之間的第二差異。
5、其中,第一處理結果和第二處理結果均包括相應模型的中間層的處理結果,且中間層包括特征提取層,教師模型的特征提取層的處理結果為第一特征提取結果,學生模型的特征提取層的處理結果為第二特征提取結果;獲取第二處理結果分別與各第一處理結果之間的結果差異,包括:確定各教師模型對應的第一特征提取結果,與學生模型對應的第二特征提取結果的維度是否對齊,得到對齊確定結果;其中,對齊確定結果用于表征是否存在與第二特征提取結果的維度未對齊的第一特征提取結果;響應于對齊確定結果為存在與第二特征提取結果的維度未對齊的第一特征提取結果,對與第二特征提取結果的維度未對齊的第一特征提取結果的維度進行轉換,得到對應的新的第一特征提取結果;獲取維度與第二特征提取結果對齊的第一特征提取結果,與第二特征提取結果之間的第一差異;以及,獲取新的第一特征提取結果與第二特征提取結果之間的第一差異。
6、其中,第一處理結果和第二處理結果均包括相應模型的輸出層的處理結果,教師模型的輸出層的處理結果為第一識別結果,學生模型的輸出層的處理結果為第二識別結果,輸出層對應的第二差異的表征值包括第一識別結果與第二識別結果之間的信息散度;和/或,第一處理結果和第二處理結果均包括相應模型的中間層的處理結果,中間層包括特征提取層,教師模型的特征提取層的處理結果為第一特征提取結果,學生模型的特征提取層的處理結果為第二特征提取結果,特征提取層對應的第一差異的表征值包括第一特征提取結果與第二特征提取結果之間的相似度。
7、其中,學生模型用于對象的器官識別或者對象重識別。
8、為解決上述技術問題,本技術采用的另一個技術方案是:提供一種模型調整方法,該方法用于對學生模型的調整,該方法包括:協(xié)調方利用至少兩個教師模型對目標數(shù)據(jù)進行識別,以得到各教師模型對應的第一處理結果;其中,至少兩個教師模型包括主教師模型和至少一個輔教師模型;向參與方反饋各教師模型對應的第一處理結果,以使參與方獲取第二處理結果與各第一處理結果之間的結果差異,并利用各結果差異和各教師模型對學生模型的影響權重,對學生模型的網(wǎng)絡參數(shù)進行調整;其中,第二處理結果是參與方利用學生模型對目標數(shù)據(jù)進行識別得到,主教師模型的影響權重大于輔教師模型的影響權重。
9、其中,學生模型的調整過程包括若干調整階段,至少一個教師模型在不同調整階段中的影響權重不同。
10、其中,在利用各結果差異和各教師模型對學生模型的影響權重,對學生模型的網(wǎng)絡參數(shù)進行調整之前,方法還包括:參與方對結果差異進行分析,得到各教師模型匹配結果差異的調整權重,作為各教師模型對學生模型的影響權重。
11、其中,第一處理結果和第二處理結果均包括相應模型的中間層的處理結果和輸出層的處理結果中的至少一者;在第一處理結果和第二處理結果均包括相應模型的中間層的處理結果的情況下,結果差異包括學生模型的中間層的處理結果分別與各教師模型的中間層的處理結果之間的第一差異;在第一處理結果和第二處理結果均包括相應模型的輸出層的處理結果的情況下,結果差異包括學生模型的輸出層的處理結果分別與各教師模型的輸出層的處理結果之間的第二差異。
12、其中,第一處理結果和第二處理結果均包括相應模型的中間層的處理結果,且中間層包括特征提取層,教師模型的特征提取層的處理結果為第一特征提取結果,學生模型的特征提取層的處理結果為第二特征提取結果;參與方獲取第二處理結果與各第一處理結果之間的結果差異,包括:參與方確定各教師模型對應的第一特征提取結果,與學生模型對應的第二特征提取結果的維度是否對齊,得到對齊確定結果;其中,對齊確定結果用于表征是否存在與第二特征提取結果的維度未對齊的第一特征提取結果;基于對齊確定結果,獲取第二特征提取結果與各第一特征提取結果之間的第一差異。
13、其中,基于對齊確定結果,獲取第二特征提取結果與各第一特征提取結果之間的第一差異,包括:參與方響應于對齊確定結果為存在與第二特征提取結果的維度未對齊的第一特征提取結果,對與第二特征提取結果的維度未對齊的第一特征提取結果的維度進行轉換,得到對應的新的第一特征提取結果;獲取維度與第二特征提取結果對齊的第一特征提取結果,與第二特征提取結果之間的第一差異;以及,獲取新的第一特征提取結果與第二特征提取結果之間的第一差異。
14、其中,第一處理結果和第二處理結果均包括相應模型的輸出層的處理結果,教師模型的輸出層的處理結果為第一識別結果,學生模型的輸出層的處理結果為第二識別結果,輸出層對應的第二差異的表征值包括第一識別結果與第二識別結果之間的信息散度;和/或,第一處理結果和第二處理結果均包括相應模型的中間層的處理結果,中間層包括特征提取層,教師模型的特征提取層的處理結果為第一特征提取結果,學生模型的特征提取層的處理結果為第二特征提取結果,特征提取層對應的第一差異的表征值包括第一特征提取結果與第二特征提取結果之間的相似度。
15、其中,目標數(shù)據(jù)包括圖像數(shù)據(jù);和/或,學生模型用于對象的器官識別或者對象重識別。
16、為解決上述技術問題,本技術采用的另一個技術方案是:提供一種電子設備,該電子設備包括存儲器和處理器,存儲器存儲有程序指令,處理器用于執(zhí)行程序指令以實現(xiàn)上述的模型調整方法。
17、為解決上述技術問題,本技術采用的另一個技術方案是:提供一種計算機可讀存儲介質,該計算機可讀存儲介質用于存儲程序指令,程序指令能夠被執(zhí)行以實現(xiàn)上述的模型調整方法。
18、上述技術方案,通過設置主教師模型的影響權重大于輔教師模型的影響權重,使得學生模型更多地關注其自身輸出與主教師模型輸出之間的差異,以更多地學習到主教師模型中的知識,提高學生模型在主任務下的能力;另外,由于也關注到其自身輸出與輔教師模型輸出之間的差異,所以,也能夠學習到輔教師模型中的知識,提高學生模型在劣勢任務下的能力。