用于數(shù)字完整載片的自動化評分的基于組織對象的機器學習系統(tǒng)的制作方法
【技術領域】
[0001] 本文公開的技術涉及基于計算機的試樣分析。
【背景技術】
[0002] 乳腺癌是當今最頻繁診斷出的癌癥之一,并且是女性當中與癌癥有關的死亡的第 二主要原因。用于預測患有乳腺癌的患者的臨床行為和預后(prognosis)的一個指示物是 基于用免疫組織化學(IHC)標記(諸如,提供對感興趣的微觀結構進行區(qū)分的能力的組織學 染色劑)染色的切片組織樣本的定性且半定量的視覺檢查而對活組織檢查/外科手術樣本 的組織學檢查。生物標記可以用于表征腫瘤并識別可改進臨床成果的最適當?shù)闹委熀退?物。
[0003]與膜生物標記相對,核生物標記與細胞核中的蛋白質相互作用并對細胞核進行染 色。染色的細胞的顏色指示針對細胞的抗原(生物標記)_抗體結合。在臨床讀取中,病理學 家經常通過在視覺上觀察和估計陽性染色(例如,棕色著色的)核對象與陽性染色和陰性染 色(例如,藍色著色的)核對象的總數(shù)的百分比來報告針對載片的得分。在臨床和實驗室設 置中,精確的測量要求通過識別陽性染色的腫瘤細胞來對腫瘤細胞進行人工計數(shù),這可能 是極度乏味的。在實踐中,載片得分經?;诓±韺W家的"猜測估計"。作為結果,人工得分 不可再現(xiàn),且進一步受制于顯著的讀取器間和讀取器內變化性。此外,出于實踐的原因,完 整載片的解釋僅基于由病理學家識別出的幾個代表性視場(F0V)和僅那些視場中的信息。 不幸的是,該"代表性"分析可能導致取樣偏見。
【發(fā)明內容】
[0004] 公開的技術的至少一些實施例涉及用于對組織試樣載片(例如,利用免疫組織化 學(IHC)化驗染色的試樣)進行自動解釋和評分的成像系統(tǒng)。所述系統(tǒng)至少部分地基于與 完整載片關聯(lián)的信息和特性來分析圖像的區(qū)域或整個圖像(例如,數(shù)字完整載片圖像)并選 擇特征以用于定量分析。完整載片圖像被認為是載片的所有或基本上所有包含組織的區(qū)域 (例如,排除標簽、標記和空白區(qū)的載片的所有區(qū)域)的圖像。公開的系統(tǒng)至少部分地基于關 于與載片的包含組織的區(qū)域關聯(lián)的數(shù)據的信息來識別載片的區(qū)域(例如,載片的特定組織 區(qū)域)或完整載片中的細胞結構(例如,核對象、核種子)和細胞。此外,公開的系統(tǒng)可以對 細胞進行計數(shù),計算這些細胞的各種類型的局部和全局特征,識別細胞類型,并執(zhí)行定量分 析。特征計算可以使用不僅來自載片的注釋區(qū)域的信息而且來自完整載片(例如,以多個放 大而分析的載片的包含組織的區(qū)域)的信息。所述系統(tǒng)可以對細胞進行自動計數(shù)和分類,并 至少部分地基于所選視場來對圖像和/或整個載片進行評分和/或至少部分地基于與完整 載片(即,載片的所有包含組織的區(qū)域)關聯(lián)的信息或數(shù)據來對完整載片進行評分。得分可 以被用于載片解釋。例如,所述系統(tǒng)可以準確地對核對象進行計數(shù)以確定關于組織的信息 以便輔助可靠且可再現(xiàn)的載片解釋。在一個實施例中,所述系統(tǒng)對陽性染色核對象和/或 陰性染色核對象進行計數(shù)以對例如生物試樣(例如,腫瘤組織)進行評分。在一些實施例中, 產生覆蓋圖像以在來自主體的試樣的圖像中給感興趣的特征加標簽。可以執(zhí)行對組織的評 分以預測和/或生成針對組織樣本的預后。
[0005] 在一些實施例中,病理學家可以批準或拒絕載片得分。如果載片得分被拒絕,則 可以用人工得分(例如,至少部分地基于視覺檢查的得分)代替自動化得分。所述系統(tǒng)可以 具有至少部分地基于針對每個標記(例如,生物標記)的訓練或參考載片的集合訓練的分類 器。針對標記的訓練載片的集合可以表示所有期望數(shù)據變化性。不同的載片集合可以被用 于訓練針對每一個標記的分類器。因此,針對單個標記,在訓練之后獲得單個分類器。由于 存在從不同標記獲得的圖像數(shù)據之間的變化性,因此可以針對每個不同的生物標記而訓練 不同的分類器以便確保未見測試數(shù)據上的更好性能,其中測試數(shù)據的生物標記類型將是已 知的??梢灾辽俨糠值鼗诙嗝醋罴训蒯槍d片解釋而處置例如組織類型、染色協(xié)議和其 他感興趣的特征中的訓練數(shù)據變化性來選擇經訓練的分類器。所述系統(tǒng)可以至少部分地基 于該區(qū)域內的信息以及該區(qū)域外的信息來分析圖像的特定區(qū)域。
[0006] 在一些實施例中,多級二進制分類器可以識別陽性和陰性核。陽性核可以與陰性 核、淋巴細胞和基質區(qū)分。此外,陰性核和淋巴細胞可以與基質區(qū)分。然后,淋巴細胞與陰 性核區(qū)分。在進一步分類中,陽性細胞可以與背景細胞區(qū)分。例如,如果陽性細胞具有棕色 染色核,則背景細胞可以是可被濾出的細胞質紅。至少部分地基于陽性/陰性核的數(shù)目,可 以確定得分(例如,完整載片得分)。
[0007] 在一些實施例中,用于完整載片解釋的方法包括識別對應于組織的數(shù)字化完整載 片圖像的部分。至少部分地基于在其上放置生物試樣(例如,組織)的基底(例如,玻璃)和 組織的顏色特性,識別出感興趣的組織區(qū)域。針對識別出的感興趣的組織區(qū)域而檢測種子 點,以及從識別出的區(qū)域中提取組織核對象。針對每一個提取出的組織對象,識別提取出的 對象的特性,并且經訓練的分類器可以被用于對提取出的對象進行分類。經訓練的分類器 可以被用戶、內科醫(yī)師等修改。不同的經訓練的分類器可以被用于分析不同類型的組織和 標記。計算機可讀存儲介質可以存儲數(shù)據(例如,分類器、算法等)和指令,所述指令如果被 具有處理器的計算系統(tǒng)執(zhí)行則使計算系統(tǒng)執(zhí)行這樣的方法。
[0008] 在另外的實施例中,用于對組織數(shù)據的數(shù)字化圖像內的對象進行分類的監(jiān)督學習 系統(tǒng)包括:用于至少部分地基于絕對真實(groundtruth)載片訓練分類器的裝置;用于接 收與輸入載片關聯(lián)的組織數(shù)據的數(shù)字化圖像的裝置;以及用于分析數(shù)字化組織數(shù)據的裝 置。用于分析數(shù)字化組織數(shù)據的裝置可以包括用于檢測數(shù)字化組織圖像內的潛在核種子點 的裝置和用于從數(shù)字化組織圖像中提取對象的裝置。在一個實施例中,所述系統(tǒng)還包括用 于對每一個提取出的對象進行分類的裝置。
[0009] 在一些實施例中,由計算系統(tǒng)使用的方法可以提供組織載片(例如IHC載片)的數(shù) 字化圖像的解釋。所述方法包括接收參考訓練載片(例如,絕對真實或訓練載片)的組織樣 本的數(shù)字化圖像。在一些實施例中,使用參考載片的集合。例如,參考載片圖像可以是與要 分析的組織相同類型的組織的圖像。所述系統(tǒng)至少部分地基于與參考圖像關聯(lián)的已知信息 來學習由于組織、染色協(xié)議、圖像掃描和偽像源中的數(shù)據變化性而在數(shù)字化圖像中觀察到 的變化性的特性。所述系統(tǒng)可以接收至少一個分類方法并使用組織樣本的數(shù)字化圖像來訓 練分類器。分類器可以是使用附加參考載片來修改的,如果需要或期望的話。
[0010] 在一些實施例中,所述系統(tǒng)可以接收與具有來自主體的樣本的輸入載片關聯(lián)的 數(shù)據的數(shù)字化圖像。在一些實施例中,載片的評分以例如以下兩種模式之一而發(fā)生:視場 (F0V)模式和自動化模式。在F0V模式中,諸如病理學家之類的用戶對完整載片圖像中的 多個區(qū)域(例如,三個或更多區(qū)域)畫輪廓或進行"注釋",并且關于注釋區(qū)域執(zhí)行分析算法。 至少部分地基于在所有這些注釋區(qū)域中檢測到的陽性和陰性腫瘤核的數(shù)目獲得最終復合 分數(shù)。在自動化模式中,感興趣的區(qū)(Aol)檢測器找出或識別出完整載片圖像中的組織區(qū) 域,或者由某個其他圖像分析算法自動生成組織注釋,諸如將注釋從鄰近連續(xù)切片(serial section)映射到IHC組織載片的圖像配準算法。然后將組織區(qū)域分段成分片(tile),并關 于包含組織的每個分片執(zhí)行分類和核計數(shù)算法。此外,可以至少部分地基于包含組織的圖 像分片來獲得復合得分。盡管用于對給定圖像中的細胞進行檢測、計數(shù)和分類的基礎方法 論是類似的(圖像可以是用戶注釋的區(qū)域或者是在Aol檢測之后完整載片圖像中的自動獲 得的分片),但是在兩個工作流程中存在至少一個差異。FoV模式依賴于在F0V選擇方面的 人工輸入,而自動化模式不是這樣。關于圖2進一步討論了注釋F0V模式,而關于圖3進一 步討論了自動化模式。至少部分地基于主導顏色來識別所識別出的組織內的一個或多個區(qū) 域。對于識別出的區(qū)域,檢測識別出的區(qū)域內的種子點,并提取來自識別出的區(qū)域的對象。 計算(一個或多個)提取出的對象的特征,以使得經訓練的分類器至少部分地基于提取出的 對象的計算出的特征來對(一個或多個)提取出的對象進行分類。
[0011] 在一些實施例中,計算機系統(tǒng)可以被編程為至少部分地基于一個或多個選擇準則 來自動地識別試樣的圖像中的特征,所述選擇準則包括至少部分地基于顏色特性、樣本形 態(tài)(例如,細胞成分形態(tài)、細胞形態(tài)、組織形態(tài)、解剖結構形態(tài)等)、組織特性(例如,密度、成 分等)、空間參數(shù)(例如,組織結構的布置、組織結構之間的相對位置等)、圖像特性參數(shù)等的 準則。如果特征是核,則選擇準則可以包括而不限于顏色特性、核形態(tài)(例如,形狀、尺寸、成 分等)、空間參數(shù)(例如,細胞結構中核的位置、核之間的相對位置等)、圖像特性、其組合等。 在檢測到候選核之后,可以自動地使用算法來提供關于整個所分析的圖像的得分或信息。 可以至少部分地基于參考圖像來修改或確定選擇準則。例如,可以使用染色的胸部組織的 參考圖像來確定用于從主體中選擇胸部組織的圖像的核的選擇準則。在一些實施例中,用 戶可以逐載片地刪除任何感興趣的區(qū)。例如,用戶可以在視覺上確定圖像的一個或多個區(qū) 不適于評分。
[0012] 在一些實施例中,所述設施提供了用于對組織數(shù)據的數(shù)字化圖像的完整載片解釋 的方法。所述方法包括接收組織樣本的多個數(shù)字化圖像。每個組織樣本對應于絕對真實載 片,且針對所述多個數(shù)字化圖像中的每一個,對應于與數(shù)字化圖像關聯(lián)的分類。所述設施還 被配置成使用組織樣本的所接收的數(shù)字化圖像來訓練組織對象分類器。在接收到與第一載 片關聯(lián)的數(shù)據的數(shù)字化圖像時,其中第一載片不是絕對真實載片,所述設施識別1)與第一 載片關聯(lián)的數(shù)據的數(shù)字化圖像內的組織,2)識別出的組織內的主導顏色,以及3)至少部分 地基于識別出的主導顏色的識別出的組織內的區(qū)域。針對每一個識別出的區(qū)域,所述設施 檢測識別出的區(qū)域內的種子點,并從識別出的區(qū)域中提取對象。此外,針對每一個提取出的 對象,所述設施可以識別提取出的對象的特性,并使用經訓練的分類器、至少部分地基于提 取出的對象的識別出的特性來對提取出的對象進行分類。
【附圖說明】
[0013]圖1圖示根據公開的技術的實施例的用于分析試樣的基于計算機的系統(tǒng)和環(huán)境。
[0014] 圖2是圖示根據公開的技術的實施例的構造分類器組件的處理的框圖。
[0015] 圖3是圖示根據公開的技術的實施例的分析載片組件的處理的流程圖。
[0016] 圖4A是圖示根據公開的技術的實施例的檢測