本發(fā)明涉及醫(yī)學圖像分析領(lǐng)域及自然語言領(lǐng)域,尤其涉及一種融合圖像識別和擴散式生成模型的超聲報告生成方法。
背景技術(shù):
1、基于超聲圖像智能分析的掃描報告自動生成技術(shù)可以作為超聲掃描檢查的輔助工具,降低醫(yī)生文案工作的時間,提高檢查效率,提升單位時間內(nèi)超聲檢查的患者數(shù)量,從而緩解基層醫(yī)院超聲科醫(yī)生短缺的問題。為了契合數(shù)字醫(yī)療和病歷電子化,醫(yī)生通過鍵盤或語音輸入的方式生成超聲檢查報告,這種方法節(jié)省了一定的時間,但仍然完全依賴醫(yī)生的專業(yè)知識和個人經(jīng)驗。進一步的,通過以lstm為代表的圖像描述處理模型主要集中在自然圖像領(lǐng)域,其生成的超聲影像報告在準確度上有所欠缺。
2、基于商業(yè)語言大模型的醫(yī)學圖像描述正確率低,理論上對語言大模型進行本地部署,進一步通過檢索增強生成的方式將超聲圖像文字報告數(shù)據(jù)庫作為語料進行增強訓練才能生成具有醫(yī)學價值的超聲報告。然而語言大模型的部署與訓練需要大量的計算資源,且通過檢索增強的圖像語義生成存在大模型幻覺這類難以完全解決的技術(shù)性難題,在沒有大量高質(zhì)量標注數(shù)據(jù)和算力的前提下不適用于超聲醫(yī)療報告的生成。
技術(shù)實現(xiàn)思路
1、針對現(xiàn)有技術(shù)的不足,本發(fā)明提供了一種融合圖像識別和擴散式生成模型的超聲報告生成方法,該方法研究開發(fā)了一種空間信息適配器算法模型結(jié)構(gòu),嵌入圖像大模型框架中提供高準確率的分割和分類結(jié)果;其中的腫瘤分割區(qū)域作為模擬醫(yī)生診斷時的感興趣區(qū)域,替代faster-rcnn方法為擴散生成式模型確定重點圖像描述區(qū)域;最后通過交叉熵損失函數(shù)和adam優(yōu)化器的訓練方法對擴散生成式算法模型進行訓練。
2、本發(fā)明是通過以下技術(shù)方案來實現(xiàn)的:
3、一種融合圖像識別和擴散式生成模型的超聲報告生成方法,包括以下步驟:
4、(1)建立超聲圖像與文字報告數(shù)據(jù)庫,分別對兩種不同模態(tài)的數(shù)據(jù)做數(shù)據(jù)增強;
5、(2)針對超聲圖像設(shè)計空間適配器和特征融合模塊,將其嵌入圖像分割大模型的圖像編碼器中,以準確對腫瘤圖像分割和分類;
6、(3)對超聲圖像的訓練數(shù)據(jù)做數(shù)據(jù)增強,包括旋轉(zhuǎn)、翻轉(zhuǎn)、位移、放大和縮小操作,增強圖像訓練數(shù)據(jù)的泛化性,同時對每張圖片所對應的文字報告進行處理,將診斷關(guān)鍵詞進行語義對齊,以表格的形式列出;
7、(4)建立擴散式文字生成算法模型,該模型包括文本語義編碼器、腫瘤區(qū)域圖像編碼器和混合解碼器,其輸出結(jié)果為輸入超聲腫瘤圖像的文字描述;
8、(5)使用adam優(yōu)化器對擴散式文字生成算法模型完成網(wǎng)絡(luò)訓練,需自主選擇初始學習率,并在訓練中根據(jù)梯度變化持續(xù)變更學習率,最后生成基于腫瘤區(qū)域超聲圖像的文本描述和輔助診斷報告。
9、具體地,所述步驟(2)中的空間適配器由卷積核大小不同的卷積層和最大池化層組成,特征融合模塊由交叉注意力層、線性變換層和激活函數(shù)組成;所述圖像編碼器中每個transformer模塊和空間適配器的輸出由特征融合模塊融合后作為下一個transformer模塊的輸入,嵌入的空間適配器和特征融合模塊數(shù)量能夠根據(jù)不同數(shù)據(jù)進行調(diào)整。
10、具體地,所述步驟(3)中的超聲圖像的訓練數(shù)據(jù)和文字報告為一一對應的關(guān)系。
11、具體地,所述步驟(4)中的文本語義編碼器的輸入從步驟(1)中的文字報告數(shù)據(jù)庫中提取,與圖像輸入存在一一對應關(guān)系,通過embedding的方式將句子文本轉(zhuǎn)化成向量,輸入語義編碼器,其編碼器架構(gòu)與腫瘤圖像編碼器相同。
12、具體地,所述步驟(4)中的腫瘤區(qū)域圖像編碼器是以步驟(2)中分割的結(jié)果作為感興趣區(qū)域輸入,根據(jù)超聲圖像可知感興趣區(qū)域為一個或者多個,其結(jié)構(gòu)為transformer架構(gòu)的編碼器,其由多頭自注意力機制層和正向傳播層組成。
13、具體地,所述步驟(4)中混合解碼器的結(jié)構(gòu)由一個多頭自注意力機制層、一個多頭交叉注意力機制層和一個正向傳播層組成;腫瘤圖像編碼器的輸出特征需要依次通過自注意力和交叉注意力層,語義編碼器的輸出特征直接輸入交叉注意力層,與圖像特征在交叉注意力層進行計算,最后通過正向傳播層和線性層輸出文本結(jié)果。
14、具體地,所述步驟(4)中的擴散式文字生成算法模型使用交叉熵損失函數(shù)crossentropy進行計算,衡量訓練數(shù)據(jù)中真實文本和生成文本之間的差異;同時,在算力充足時該模型能夠通過疊加多個擴散式模塊提高文本生成的準確度。
15、具體地,所述擴散式文字生成算法模型支持不同部位的超聲腫瘤圖像報告生成,即包括盆腔、乳房以及甲狀腺部位。
16、具體地,所述超聲圖像的腫瘤區(qū)域視為醫(yī)生診斷的感興趣區(qū)域,通過分割算法完成提取,更好的替代原模型中faster-rcnn的作用,同一張超聲圖像能夠有一個或多個腫瘤區(qū)域。
17、具體地,所述超聲報告生成在文字生成任務中屬于20個字以內(nèi)的文字生成,需選用單一自回歸的訓練方法刻畫腫瘤圖像與對應文字,以及每一個文字與其他文字之間的條件概率,然后基于最大似然估計mle來訓練擴散式文字生成算法模型。
18、本發(fā)明的有益效果是:本發(fā)明通過對圖像分割大模型中編碼器結(jié)構(gòu)的改動,大幅提高了針對超聲圖像腫瘤區(qū)域分割和分類任務的準確度,同時模擬醫(yī)生診斷思維,使用腫瘤區(qū)域作為超聲報告生成的感興趣區(qū)域,進一步使用擴散式文字生成模型對腫瘤區(qū)域進行醫(yī)學診斷描述,自動完成超聲檢查報告的生成。該發(fā)明可以減少醫(yī)生撰寫報告的文案工作時間,提升檢查效率,同時在基層醫(yī)院可以起到部分替代專家醫(yī)生檢查的效果,緩解基層超聲科醫(yī)生人才缺乏的問題。其中空間適配器針對超聲腫瘤圖像的特點,通過可變感受野卷積運算的圖像特征提取方法,保留更多腫瘤區(qū)域的圖像空間結(jié)構(gòu)特征,進一步使用特征融合模塊對一般圖像特征和空間特征進行融合,達到信息特征進行補全的作用;使用具有診斷價值的腫瘤區(qū)域和類型信息替代傳統(tǒng)文字生成模型使用faster-rcnn輸出的多重感興趣區(qū)域作為訓練輸入,以transformer為基礎(chǔ)架構(gòu)設(shè)計編碼、解碼器結(jié)構(gòu)的自回歸模型,該模型在保證文字生成準確率的同時減少了生成時間。
1.一種融合圖像識別和擴散式生成模型的超聲報告生成方法,其特征在于,包括以下步驟:
2.根據(jù)權(quán)利要求1所述的一種融合圖像識別和擴散式生成模型的超聲報告生成方法,其特征在于,所述步驟(2)中的空間適配器由卷積核大小不同的卷積層和最大池化層組成,特征融合模塊由交叉注意力層、線性變換層和激活函數(shù)組成;所述圖像編碼器中每個transformer模塊和空間適配器的輸出由特征融合模塊融合后作為下一個transformer模塊的輸入,嵌入的空間適配器和特征融合模塊數(shù)量能夠根據(jù)不同數(shù)據(jù)進行調(diào)整。
3.根據(jù)權(quán)利要求1所述的一種融合圖像識別和擴散式生成模型的超聲報告生成方法,其特征在于,所述步驟(3)中的超聲圖像的訓練數(shù)據(jù)和文字報告為一一對應的關(guān)系。
4.根據(jù)權(quán)利要求1所述的一種融合圖像識別和擴散式生成模型的超聲報告生成方法,其特征在于,所述步驟(4)中的文本語義編碼器的輸入從步驟(1)中的文字報告數(shù)據(jù)庫中提取,與圖像輸入存在一一對應關(guān)系,通過embedding的方式將句子文本轉(zhuǎn)化成向量,輸入語義編碼器,其編碼器架構(gòu)與腫瘤圖像編碼器相同。
5.根據(jù)權(quán)利要求1所述的一種融合圖像識別和擴散式生成模型的超聲報告生成方法,其特征在于,所述步驟(4)中的腫瘤區(qū)域圖像編碼器是以步驟(2)中分割的結(jié)果作為感興趣區(qū)域輸入,根據(jù)超聲圖像可知感興趣區(qū)域為一個或者多個,其結(jié)構(gòu)為transformer架構(gòu)的編碼器,其由多頭自注意力機制層和正向傳播層組成。
6.根據(jù)權(quán)利要求1所述的一種融合圖像識別和擴散式生成模型的超聲報告生成方法,其特征在于,所述步驟(4)中混合解碼器的結(jié)構(gòu)由一個多頭自注意力機制層、一個多頭交叉注意力機制層和一個正向傳播層組成;腫瘤圖像編碼器的輸出特征需要依次通過自注意力和交叉注意力層,語義編碼器的輸出特征直接輸入交叉注意力層,與圖像特征在交叉注意力層進行計算,最后通過正向傳播層和線性層輸出文本結(jié)果。
7.根據(jù)權(quán)利要求1所述的一種融合圖像識別和擴散式生成模型的超聲報告生成方法,其特征在于,所述步驟(4)中的擴散式文字生成算法模型使用交叉熵損失函數(shù)crossentropy進行計算,衡量訓練數(shù)據(jù)中真實文本和生成文本之間的差異;同時,在算力充足時該模型能夠通過疊加多個擴散式模塊提高文本生成的準確度。
8.根據(jù)權(quán)利要求1所述的一種融合圖像識別和擴散式生成模型的超聲報告生成方法,其特征在于,所述擴散式文字生成算法模型支持不同部位的超聲腫瘤圖像報告生成,即包括盆腔、乳房以及甲狀腺部位。
9.根據(jù)權(quán)利要求1所述的一種融合圖像識別和擴散式生成模型的超聲報告生成方法,其特征在于,所述超聲圖像的腫瘤區(qū)域視為醫(yī)生診斷的感興趣區(qū)域,通過分割算法完成提取,更好的替代原模型中faster-rcnn的作用,同一張超聲圖像能夠有一個或多個腫瘤區(qū)域。
10.根據(jù)權(quán)利要求1所述的一種融合圖像識別和擴散式生成模型的超聲報告生成方法,其特征在于,所述超聲報告生成在文字生成任務中屬于20個字以內(nèi)的文字生成,需選用單一自回歸的訓練方法刻畫腫瘤圖像與對應文字,以及每一個文字與其他文字之間的條件概率,然后基于最大似然估計mle來訓練擴散式文字生成算法模型。