日韩成人黄色,透逼一级毛片,狠狠躁天天躁中文字幕,久久久久久亚洲精品不卡,在线看国产美女毛片2019,黄片www.www,一级黄色毛a视频直播

一種基于多模態(tài)深度學習模型的單細胞亞群識別方法

文檔序號:39727106發(fā)布日期:2024-10-22 13:28閱讀:2來源:國知局
一種基于多模態(tài)深度學習模型的單細胞亞群識別方法

本公開實施例涉及單細胞亞群識別,尤其涉及一種基于多模態(tài)深度學習模型的單細胞亞群識別方法。


背景技術(shù):

1、隨著高通量測序技術(shù)的不斷發(fā)展,單細胞rna測序(scrna-seq)逐漸成為一種強大的工具,使研究人員能夠在單個細胞水平上研究基因的表達模式,從而對罕見的細胞(例如胚胎細胞)或難以獲得的細胞(例如腦細胞)進行測序,為更好地理解細胞功能和功能紊亂帶來了希望。它與傳統(tǒng)的大量rna測序(bulkrna-seq)不同,scrna-seq技術(shù)可以在單細胞水平上對全轉(zhuǎn)錄組進行擴增和測序,從而更好地了解細胞異質(zhì)性。

2、識別具有不同功能的細胞亞群是單細胞轉(zhuǎn)錄組測序數(shù)據(jù)分析中一個重要研究問題。通過識別細胞亞群,研究人員可以更全面的了解生物系統(tǒng)中細胞的多樣性,有助于揭示不同細胞亞群在生理和病理過程中的具體功能和相互作用。在疾病生物學領(lǐng)域,細胞亞群的識別對于理解疾病的發(fā)病機制至關(guān)重要。例如,在腫瘤生物學中,腫瘤微環(huán)境由多種細胞亞群組成,包括癌細胞的不同克隆亞群以及多種免疫細胞類型。每種亞群都有其獨特的表達特征和功能,對腫瘤的發(fā)展、轉(zhuǎn)移以及對治療的響應起著關(guān)鍵作用。通過識別和分類這些亞群,研究人員能夠更準確地預測疾病軌跡,設(shè)計更有針對性的治療方案。scrna-seq技術(shù)的出現(xiàn)和發(fā)展為通過識別不同的細胞亞群、剖析腫瘤微環(huán)境和表征細胞基因組突變來了解腫瘤生物學的微妙變化提供了機會。近年來,scrna-seq越來越多地應用于癌癥研究中,以探索腫瘤異質(zhì)性和腫瘤微環(huán)境,增加了對腫瘤發(fā)生和進化的理解。除了在腫瘤學中的應用,細胞亞群的識別也對其他多種疾病的研究至關(guān)重要,如自身免疫疾病、神經(jīng)退行性疾病和傳染病。在這些條件下,細胞亞群的變化可能揭示疾病過程中關(guān)鍵的調(diào)控網(wǎng)絡(luò)和潛在的治療靶點。

3、單細胞亞群識別主要通過聚類分析等無監(jiān)督學習實現(xiàn),研究人員已經(jīng)研發(fā)了大量的基于單細胞轉(zhuǎn)錄組數(shù)據(jù)的聚類方法,這些方法大致可以分為三類,分別是基于線性降維的方法、基于深度學習的方法、基于圖聚類的方法,這些方法雖然已被廣泛應用,但依然存在一些缺陷,例如:(1)大量方法在聚類過程中僅考慮到scrna-seq數(shù)據(jù)中的表達信息,而忽略了測序數(shù)據(jù)本身所蘊含的基因組序列信息;(2)還有大量方法簡單地使用線性降維技術(shù)進行特征提取,在面對高維、稀疏且噪聲豐富的數(shù)據(jù)時往往效果欠佳,并且將降維和聚類作為獨立步驟執(zhí)行,可能會導致聚類結(jié)果的進一步偏差。


技術(shù)實現(xiàn)思路

1、為了避免現(xiàn)有技術(shù)的不足之處,本發(fā)明提供一種基于多模態(tài)深度學習模型的單細胞亞群識別方法,用以解決現(xiàn)有技術(shù)中存在僅考慮到scrna-seq數(shù)據(jù)中的表達信息,而忽略了測序數(shù)據(jù)本身所蘊含的基因組序列信息;在面對高維、稀疏且噪聲豐富的數(shù)據(jù)時往往效果欠佳,并且將降維和聚類作為獨立步驟執(zhí)行,會導致聚類結(jié)果的進一步偏差的問題。

2、根據(jù)本公開實施例,提供一種基于多模態(tài)深度學習模型的單細胞亞群識別方法,該方法包括:

3、獲取待識別的亞群數(shù)據(jù)集,并對所述亞群數(shù)據(jù)集進行變異檢測,以得到esnp矩陣;

4、獲取基因表達矩陣,并對所述基因表達矩陣和所述esnp矩陣進行預處理;

5、構(gòu)建基于多模態(tài)深度學習的亞群識別模型;其中,所述亞群識別模型包括第一編碼器、第二編碼器、第一解碼器和第二解碼器;

6、將預處理后的所述esnp矩陣和所述基因表達矩陣分別輸入至所述亞群識別模型中進行訓練;

7、將測試數(shù)據(jù)集輸入至訓練好的所述亞群識別模型中,以得到單細胞亞群識別結(jié)果。

8、進一步的,獲取待識別的亞群數(shù)據(jù)集,并對所述亞群數(shù)據(jù)集進行變異檢測,以得到esnp矩陣的步驟中,包括:

9、獲取待識別的亞群數(shù)據(jù)集,并對所述亞群數(shù)據(jù)集進行質(zhì)量控制和序列比對,以得到bam文件;

10、對所述bam文件進行數(shù)據(jù)清理;

11、從清理后的所述bam文件中檢測esnp,并通過變異質(zhì)量分數(shù)重新校準對所述esnp進一步優(yōu)化,以得到變異檢測結(jié)果;

12、將所述變異檢測結(jié)果轉(zhuǎn)換成矩陣的形式,以得到所述esnp矩陣;其中,所述esnp矩陣中的行代表細胞,列代表esnp位點。

13、進一步的,獲取基因表達矩陣,并對所述基因表達矩陣和所述esnp矩陣進行預處理的步驟中,包括:

14、獲取所述基因表達矩陣,并對所述基因表達矩陣進行過濾,以刪除低質(zhì)量的基因和細胞;

15、對所述esnp矩陣進行過濾,以刪除缺失數(shù)據(jù)超過10%且最小等位基因頻率低于5%的所述esnp矩陣;

16、對過濾后的所述基因表達矩陣和過濾后的所述esnp矩陣標準化預處理。

17、進一步的,構(gòu)建基于多模態(tài)深度學習的亞群識別模型的步驟中,包括:

18、利用基于zinb模型的自編碼器為所述所述亞群識別模型的自編碼器;

19、利用基于zinb的去噪自編碼器計算所述自編碼器中的平均值參數(shù)、離散度參數(shù)和泊松參數(shù);

20、在特征空間結(jié)合dec聚類損失訓練細胞嵌入,通過最小化kl散度優(yōu)化模型參數(shù),以使用所述kl散度表示dec聚類損失函數(shù)。

21、進一步的,所述zinb模型的分布的概率密度函數(shù)的表達式為:

22、

23、

24、式中,表示的負二項分布,為平均值參數(shù),為離散度參數(shù),為泊松參數(shù),表示單位脈沖函數(shù);

25、所述平均值參數(shù)、所述離散度參數(shù)和所述泊松參數(shù)的生成矩陣為:

26、

27、式中,為隨機高斯噪聲,為學習的可訓練矩陣,為學習的可訓練矩陣,為學習的可訓練矩陣;

28、所述dec聚類損失函數(shù)的表達式為:

29、

30、式中,是細胞的軟聚類分布,為輔助目標分布。

31、進一步的,將預處理后的所述esnp矩陣和所述基因表達矩陣分別輸入至所述亞群識別模型中進行訓練的步驟中,包括:

32、將預處理后的所述esnp矩陣和所述基因表達矩陣輸入到所述自編碼器中,當訓練到預設(shè)的次數(shù)時,再結(jié)合所述dec聚類損失進行訓練,以優(yōu)化第一目標函數(shù);

33、基于所述目標函數(shù),利用所述自編碼器、深度嵌入聚類、深度軟k-means聚類和跨實例引導的對比聚類微調(diào)模型參數(shù),并使用跨實例引導的對比聚類方法進行最終聚類,以優(yōu)化第二目標函數(shù)。

34、進一步的,所述第一目標函數(shù)的表達式為:

35、

36、式中,為zinb模型的損失函數(shù),為dec聚類損失函數(shù),為第一權(quán)重;

37、所述第二目標函數(shù)的表達式為:

38、

39、式中,為sdk的損失函數(shù),為跨實例引導的對比聚類的損失函數(shù),為第二權(quán)重,為第三權(quán)重。

40、本公開的實施例提供的技術(shù)方案可以包括以下有益效果:

41、本公開的實施例中,通過上述基于多模態(tài)深度學習模型的單細胞亞群識別方法,一方面,通過設(shè)計包含兩種模態(tài)輸入的自編碼器和融合四種不同角度的損失策略,在一定程度上解決了單細胞數(shù)據(jù)高維稀疏性、高丟失率以及高噪聲帶來的聚類準確性降低的問題,并且適合不同規(guī)模的單細胞數(shù)據(jù)集。采用深度嵌入聚類算法,將降維和聚類同時進行訓練,并且在特征空間結(jié)合自編碼器、深度嵌入聚類、深度軟k-means聚類以及跨實例引導的對比聚類四種損失策略進一步訓練,以確保聚類結(jié)果的準確性和穩(wěn)定性。另一方面,充分考慮了單細胞轉(zhuǎn)錄組測序數(shù)據(jù)的有用信息,引入了單細胞轉(zhuǎn)錄組測序數(shù)據(jù)中包含的變異信息,并結(jié)合基因表達信息,為細胞聚類提供了更多可靠的信息。

當前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1