本申請(qǐng)涉及圖像壓縮,尤其涉及一種端到端圖像壓縮方法、裝置、電子設(shè)備、介質(zhì)及程序產(chǎn)品。
背景技術(shù):
1、大數(shù)據(jù)時(shí)代下,現(xiàn)有的移動(dòng)網(wǎng)絡(luò)中超過(guò)85%的數(shù)據(jù)是圖像/視頻,雖然5g網(wǎng)絡(luò)提高了網(wǎng)絡(luò)帶寬,但是人們對(duì)更大分辨率、更高清晰度的視頻/圖像的需求仍然會(huì)造成傳輸擁塞,或者存儲(chǔ)成本增高。高效的視頻/圖像壓縮方法同時(shí)兼顧高壓縮比和低計(jì)算復(fù)雜度兩個(gè)方面,對(duì)解決上述問(wèn)題至關(guān)重要。
2、現(xiàn)有的視頻/圖像壓縮方法大致可以分為基于傳統(tǒng)的圖像壓縮和基于學(xué)習(xí)的圖像壓縮。傳統(tǒng)的圖像壓縮采用預(yù)測(cè)、殘差、熵編碼的混合框架去除像素之間的空間冗余?;趯W(xué)習(xí)的圖像壓縮利用神經(jīng)網(wǎng)絡(luò)的非線性能力估計(jì)出圖像的近似分布,進(jìn)而采用傳統(tǒng)的熵編碼方法壓縮圖像數(shù)據(jù),包括基于卷積神經(jīng)網(wǎng)絡(luò)(convolutionalneuralnetwork,cnn)的端到端圖像壓縮方法和基于tansformer的端到端圖像壓縮方法。
3、傳統(tǒng)圖像壓縮方法對(duì)圖像進(jìn)行高斯分布的先驗(yàn)假設(shè),通過(guò)預(yù)測(cè)、殘差、變換、量化、熵編碼、后處理等手段去除像素間的冗余。當(dāng)圖像的真實(shí)分布與高斯分布相差很大,傳統(tǒng)方法的編碼效率將會(huì)降低。此外,傳統(tǒng)圖像編碼需要人工設(shè)計(jì)各個(gè)環(huán)節(jié)的參數(shù),部分參數(shù)需要大量嘗試得到一個(gè)經(jīng)驗(yàn)值。
4、cnn網(wǎng)絡(luò)通過(guò)卷積進(jìn)行特征提取與變換,卷積核感受野較小,無(wú)法捕獲全局的相關(guān)性,只能捕獲局部特征。從而造成隱空間表示的冗余度仍然較大,無(wú)法進(jìn)一步提升壓縮效率。tansformer網(wǎng)絡(luò)具有全局特征提取的能力,相較于cnn網(wǎng)絡(luò),能進(jìn)一步降低隱空間表示的冗余,提升壓縮效率。但是transformer網(wǎng)絡(luò)為了提取全局特征所需全局自相關(guān)性計(jì)算的時(shí)間復(fù)雜度很高,這種高計(jì)算復(fù)雜度不利于實(shí)際的應(yīng)用場(chǎng)景,此外,與transformer搭配使用的層標(biāo)準(zhǔn)化(layernormalization)會(huì)導(dǎo)致引入額外的噪聲,并不利于圖像壓縮任務(wù)。
技術(shù)實(shí)現(xiàn)思路
1、本申請(qǐng)?zhí)峁┮环N端到端圖像壓縮方法、裝置、電子設(shè)備、介質(zhì)及程序產(chǎn)品,用以解決現(xiàn)有技術(shù)中圖像壓縮方法編碼效率低,復(fù)雜度高的缺陷。
2、第一方面,本申請(qǐng)?zhí)峁┮环N端到端圖像壓縮方法,包括:
3、獲取待壓縮圖像;
4、輸入所述待壓縮圖像至圖像壓縮模型,得到所述圖像壓縮模型輸出的壓縮圖像;
5、其中,所述圖像壓縮模型由主編碼網(wǎng)絡(luò)、主解碼網(wǎng)絡(luò)、輔編碼網(wǎng)絡(luò)、輔解碼網(wǎng)絡(luò)以及上下文網(wǎng)絡(luò)構(gòu)成vae框架,所述主編碼網(wǎng)絡(luò)、所述主解碼網(wǎng)絡(luò)、所述輔編碼網(wǎng)絡(luò)和所述輔解碼網(wǎng)絡(luò)中的至少一個(gè)基于聚類塊構(gòu)成。
6、在一個(gè)實(shí)施例中,所述主編碼網(wǎng)絡(luò)、所述主解碼網(wǎng)絡(luò)、所述輔編碼網(wǎng)絡(luò)和所述輔解碼網(wǎng)絡(luò)均包括至少一殘差塊和至少一所述聚類塊,所述殘差塊和所述聚類塊交替設(shè)置,所述殘差塊用于提取特征以及空間分辨率的下采樣或上采樣,所述聚類塊用于對(duì)特征進(jìn)行動(dòng)態(tài)變換和聚類。
7、在一個(gè)實(shí)施例中,所述聚類塊包括至少一聚類層。
8、在一個(gè)實(shí)施例中,所述聚類層包括特征聚類層、自注意力層、特征聚合層和特征發(fā)散層,所述特征聚類層用于對(duì)接收到的特征進(jìn)行聚類,所述自注意力層用于確定聚類后的特征的全局相關(guān)性,所述特征聚合層用于根據(jù)所述全局相關(guān)性對(duì)聚類后的特征進(jìn)行聚合,所述特征發(fā)散層用于對(duì)聚合后的特征進(jìn)行特征發(fā)散,所述聚類層還用于對(duì)發(fā)散后的特征進(jìn)行線性變換并與所述特征聚類層接收到的特征進(jìn)行相加,得到聚類變換特征。
9、在一個(gè)實(shí)施例中,所述殘差塊的輸出端還設(shè)有歸一化層,所述歸一化層用于對(duì)所述殘差塊輸出的特征進(jìn)行歸一化處理,將歸一化處理后的特征輸入至所述聚類塊。
10、在一個(gè)實(shí)施例中,所述主編碼網(wǎng)絡(luò)的輸出端和所述輔編碼網(wǎng)絡(luò)的輸出端分別連接有量化模塊,所述量化模塊通過(guò)均勻分布噪聲進(jìn)行模擬量化。
11、第二方面,本申請(qǐng)還提供了一種端到端圖像壓縮裝置,包括:
12、獲取模塊,用于獲取待壓縮圖像;
13、壓縮模塊,用于輸入所述待壓縮圖像至圖像壓縮模型,得到所述圖像壓縮模型輸出的壓縮圖像;
14、其中,所述圖像壓縮模型由主編碼網(wǎng)絡(luò)、主解碼網(wǎng)絡(luò)、輔編碼網(wǎng)絡(luò)、輔解碼網(wǎng)絡(luò)以及上下文網(wǎng)絡(luò)構(gòu)成vae框架,所述主編碼網(wǎng)絡(luò)、所述主解碼網(wǎng)絡(luò)、所述輔編碼網(wǎng)絡(luò)和所述輔解碼網(wǎng)絡(luò)中的至少一個(gè)基于聚類塊構(gòu)成。
15、第三方面,本申請(qǐng)還提供一種電子設(shè)備,包括存儲(chǔ)器、處理器及存儲(chǔ)在存儲(chǔ)器上并可在處理器上運(yùn)行的計(jì)算機(jī)程序,所述處理器執(zhí)行所述程序時(shí)實(shí)現(xiàn)如上述任一種所述端到端圖像壓縮方法。
16、第四方面,本申請(qǐng)?zhí)峁┮环N非暫態(tài)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,該計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上述任一種所述端到端圖像壓縮方法。
17、第五方面,本發(fā)明還提供一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上述任一種所述端到端圖像壓縮方法。
18、本申請(qǐng)?zhí)峁┑亩说蕉藞D像壓縮方法、裝置、電子設(shè)備、介質(zhì)及程序產(chǎn)品,圖像壓縮模型由主編碼網(wǎng)絡(luò)、主解碼網(wǎng)絡(luò)、輔編碼網(wǎng)絡(luò)、輔解碼網(wǎng)絡(luò)以及上下文網(wǎng)絡(luò)構(gòu)成vae框架,所述主編碼網(wǎng)絡(luò)、所述主解碼網(wǎng)絡(luò)、所述輔編碼網(wǎng)絡(luò)和所述輔解碼網(wǎng)絡(luò)中的至少一個(gè)由低復(fù)雜度的聚類塊替換復(fù)雜度高的深度網(wǎng)絡(luò),降低了圖像壓縮模型的復(fù)雜度,通過(guò)設(shè)置上下文網(wǎng)絡(luò)實(shí)現(xiàn)注意力機(jī)制,能夠更好地捕獲特征的全局相關(guān)性,從而有效識(shí)別圖像冗余,提升編碼效率。
1.一種端到端圖像壓縮方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的端到端圖像壓縮方法,其特征在于,所述主編碼網(wǎng)絡(luò)、所述主解碼網(wǎng)絡(luò)、所述輔編碼網(wǎng)絡(luò)和所述輔解碼網(wǎng)絡(luò)均包括至少一殘差塊和至少一所述聚類塊,所述殘差塊和所述聚類塊交替設(shè)置,所述殘差塊用于提取特征以及空間分辨率的下采樣或上采樣,所述聚類塊用于對(duì)特征進(jìn)行動(dòng)態(tài)變換和聚類。
3.根據(jù)權(quán)利要求1或2所述的端到端圖像壓縮方法,其特征在于,所述聚類塊包括至少一聚類層。
4.根據(jù)權(quán)利要求3所述的端到端圖像壓縮方法,其特征在于,所述聚類層包括特征聚類層、自注意力層、特征聚合層和特征發(fā)散層,所述特征聚類層用于對(duì)接收到的特征進(jìn)行聚類,所述自注意力層用于確定聚類后的特征的全局相關(guān)性,所述特征聚合層用于根據(jù)所述全局相關(guān)性對(duì)聚類后的特征進(jìn)行聚合,所述特征發(fā)散層用于對(duì)聚合后的特征進(jìn)行特征發(fā)散,所述聚類層還用于對(duì)發(fā)散后的特征進(jìn)行線性變換并與所述特征聚類層接收到的特征進(jìn)行相加,得到聚類變換特征。
5.根據(jù)權(quán)利要求2所述的端到端圖像壓縮方法,其特征在于,所述殘差塊的輸出端還設(shè)有歸一化層,所述歸一化層用于對(duì)所述殘差塊輸出的特征進(jìn)行歸一化處理,將歸一化處理后的特征輸入至所述聚類塊。
6.根據(jù)權(quán)利要求1所述的端到端圖像壓縮方法,其特征在于,所述主編碼網(wǎng)絡(luò)的輸出端和所述輔編碼網(wǎng)絡(luò)的輸出端分別連接有量化模塊,所述量化模塊通過(guò)均勻分布噪聲進(jìn)行模擬量化。
7.一種端到端圖像壓縮裝置,其特征在于,包括:
8.一種電子設(shè)備,包括存儲(chǔ)器、處理器及存儲(chǔ)在所述存儲(chǔ)器上并可在所述處理器上運(yùn)行的計(jì)算機(jī)程序,其特征在于,所述處理器執(zhí)行所述程序時(shí)實(shí)現(xiàn)如權(quán)利要求1至6任一項(xiàng)所述端到端圖像壓縮方法。
9.一種非暫態(tài)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,其特征在于,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1至6任一項(xiàng)所述端到端圖像壓縮方法。
10.一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序,其特征在于,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1至6任一項(xiàng)所述端到端圖像壓縮方法。