條文本

下載PDF

原始研究
基於深度學習的自動結直腸腺瘤檢測係統及其與病理學家的相似性
  1. 中國的歌1
  2. Chunkai餘2
  3. Shuangmei鄒3.
  4. Wenmiao王3.
  5. 勇黃1
  6. 曉惠叮1
  7. Jinhong劉1
  8. 身子邵1
  9. 京元1
  10. Xiangnan郭台銘1
  11. 魏金1
  12. Zhanbo王1
  13. 新陳1
  14. 陳黃4
  15. Cancheng劉5
  16. 幫徐6
  17. 卓的太陽5
  18. 卡爾文Ku5
  19. Yongqiang張1
  20. Xianghui董1
  21. Shuhao王57
  22. 徐魏7
  23. Ning Lv3.
  24. 淮陰史1
  1. 1病理學係中國人民解放軍總醫院北京,中國
  2. 2病理學係首都醫科大學附屬北京世紀壇醫院北京,中國
  3. 3.病理學係中國醫學科學院國家腫瘤中心/腫瘤醫院,北京協和醫學院北京,中國
  4. 4病理學係中日友好醫院北京,中國
  5. 5全麵的圖片北京,中國
  6. 6生命科學學院清華大學北京,中國
  7. 7跨學科信息科學研究所清華大學北京,中國
  1. 對應到王博士Shuhao;ericwang在}{tsinghua.edu.cn;淮陰史教授;shihuaiyin在}{sina.com;鄒教授Shuangmei;zousm在}{cicams.ac.cn

摘要

目標近年來,載玻片的顯微評估逐漸走向全數字化,為計算機輔助診斷提供了可能。在我們將深度學習模型應用於實際場景之前,有必要了解深度學習模型和病理學家之間的相似性。結直腸腺瘤診斷標準簡單,是本研究的理想實驗平台。

設計通過177張精確標記的訓練幻燈片(156張帶有腺瘤)對深度學習模型進行訓練。在自行開發的基於iPad的標注係統上進行詳細標注。我們使用ResNet-34構建了基於DeepLab v2的模型。在194張試驗幻燈片上測試模型性能,並與5名病理學家進行比較。此外,通過另外兩家醫院收集的168張幻燈片(111張有腺瘤)測試了學習模型的泛化能力。

結果深度學習模型的曲線下麵積為0.92,在另外兩家醫院的幻燈片上獲得了超過90%的幻燈片水平精度。該表現與有經驗的病理學家的表現相當,超過平均病理學家。通過調查特征圖和被模型誤診的病例,我們發現深度學習模型和病理學家在診斷時的思維過程是一致的。

結論直腸腺瘤診斷的深度學習模型與病理學家非常相似。它的表現與病理學家相當,犯類似的錯誤,並學習理性的推理邏輯。同時,它對不同醫院收集的具有顯著染色配置差異的載玻片具有較高的準確性。

  • 計算病理學
  • 模型可解釋性,結直腸腺瘤
  • 數字病理
  • 深度學習
http://creativecommons.org/licenses/by-nc/4.0/

這是一篇根據創作共用署名非商業性(CC BY-NC 4.0)許可發布的開放獲取文章,該許可允許其他人以非商業的方式發布、重新製作、改編、構建本作品,並以不同的條款授權他們的衍生作品,前提是正確引用了原始作品,給出了適當的榮譽,表明了所做的任何更改,並且使用是非商業性的。看到的:http://creativecommons.org/licenses/by-nc/4.0/

來自Altmetric.com的統計

本研究的優勢與局限性

  • 為了研究深度學習模型與病理學家之間的相似性,我們將其應用到實際場景中,以結直腸腺瘤診斷為實驗平台,利用深度卷積神經網絡建立了結直腸腺瘤診斷的語義分割模型。

  • 深度學習模型在曲線下麵積為0.92,在另外兩家醫院的幻燈片上獲得了超過90%的幻燈片水平精度。

  • 深度學習模型的表現與經驗豐富的病理學家相當。

  • 通過調查特征圖和被模型誤診的病例,我們發現深度學習模型和病理學家在診斷過程中的思維過程是一致的。

  • 由於訓練數據集的大小有限,目前的模型還沒有達到臨床分級。我們需要在訓練過程中納入更多類型的腺瘤,進一步提高模型性能。

簡介

近年來,計算機輔助病理診斷逐漸成為可能,切片的顯微評估也逐漸走向全數字化。在過去的10年裏,研究人員提出了各種使用深度學習的醫療診斷係統。1 - 7深度學習在目標檢測領域得到了廣泛的研究8 - 12和語義分割。13日14與傳統的機器學習方法不同,深度卷積神經網絡(deep convolutional neural networks, CNNs)可以直接從原始醫學圖像中學習,避免了特征工程過程,在模型訓練過程中自動學習關鍵特征。15

對於人工智能驅動的醫療診斷係統來說,解釋和闡述組織學特征的能力至關重要。在實際場景下應用深度學習之前,我們需要解決以下重要問題,以理解模型和病理學家之間的相似性。第一個也是最重要的問題是,深度學習模型是否能像病理學家一樣出色。其次,由於不同的醫院在不同的染色配置下運作,所以在建立係統時,一般化能力應該是一個重要的考慮因素。第三,我們想知道深度學習模型什麼時候會出錯,是否會和病理學家相似。最後,模型的參數應該是可視化的,以便對其推理邏輯進行詢問。

據估計,50%以上的西方人一生中可能會患結直腸腺瘤,其中5%-16%發展為結直腸癌(CRC)。16日至18日通過結腸鏡對這些腺瘤進行診斷和切除,可以降低CRC的預期發生率,並根據切除標本的組織學診斷對患者製定個體化的監測策略。19日20與CRC相比,分析結直腸腺瘤的h&e染色切片更容易,使其成為了解深度學習模型的完美實驗平台。

在本研究中,我們使用深度CNN建立了一個用於診斷結直腸腺瘤的語義分割模型,得到的曲線下麵積(area under the curve, AUC)為0.92,與經驗豐富的病理學家的表現相當。深度學習模型在另外兩家醫院的幻燈片上取得了超過90%的幻燈片級精度。通過對模型的誤診病例和特征圖的調查,我們發現深度學習模型與病理學家在診斷過程中有著一致的思維過程。

方法

數據建設

隨著結腸鏡的普及,結直腸病理切片的數量占用了病理科室的大量工作量。本研究中所有的結直腸組織學切片均為監視結腸鏡檢查的一部分。為了有效訓練概念證明深度CNN,我們從中國人民解放軍總醫院(PLAGH)收集了411張幻燈片,其中232張被診斷為結直腸腺瘤,179張為正常黏膜或慢性炎症,被歸為非腫瘤。我們選擇177例作為訓練集,40例作為驗證,194例作為測試樣本。為了進一步檢驗模型的泛化能力,我們還收集了另外兩家醫院的168張幻燈片,包括中日友好醫院(CJFH)和中國醫學科學院腫瘤醫院(CH),組成外部測試組。數據集的詳細配置顯示在表1.所有載玻片均使用KF-PRO-005掃描儀(KFBio)進行數字化處理,物鏡×40(目鏡放大倍率固定為×10)。與傳統的在固定物鏡上觀察載玻片的方式不同,通過數字縮放,整個載玻片圖像可以在任意水平上觀看。

表1

數據分布,其中T、V、TV、H、L分別代表管狀、絨毛狀、管狀、高等級、低等級

使用基於iPad的自主開發的注釋係統,由合格的病理學家對包含腺瘤的156張培訓和20張驗證幻燈片進行詳細的標記。當采用一個嚴格的定義,即一個腺瘤病例包含一個或多個腺瘤時,即使在經驗豐富的病理學家之間,診斷也變得非常主觀。因此,設計了一個三步程序,包括初始標記、進一步驗證和最後的專家檢查。切片首先分配給隨機選擇的病理學家。當標記完成後,這些帶注釋的幻燈片將被傳遞給另一位隨機選擇的病理學家進行複查。最後,資深病理學家抽查通過第二審查階段的切片。使用這種精心設計的標簽程序,我們能夠獲得更高質量的訓練數據集。

在準備訓練集和驗證集時,使用Otsu的方法過濾掉幻燈片的背景區域。21然後,將幻燈片分割成大小為其一半的塊,形成訓練和驗證數據。對於不同的視場(FoVs),瓦片數量從203 212到2 265 945不等。具體來說,對於使用×10 FOV訓練出的性能最好的模型,我們總共使用了113090塊腺瘤瓦和90 122塊正常瓦進行訓練。

深度學習模型

我們建立了模型19基於DeepLab v2與ResNet-34,這是在圖1一個,改進。我們引入了一種跳躍層融合方法,在這種方法中,我們將上采樣的較低層與較高層結合起來,以保留包含語義信息的更精細的細節。我們還比較了改進後的DeepLab v2與ResNet-50、DenseNet、Inception v3、U-Net和DeepLab v3的性能。

圖1

(A)深度神經網絡結構;(B)分類和分割模型的預測。

由於組織學切片沒有特定的方向,我們應用隨機旋轉和鏡像來增加訓練數據。我們在訓練中使用了精心設計的數據增強而不是染色正常化。由於組織病理學切片沒有特定的方向,我們對訓練斑塊進行了90°、180°、270°的隨機旋轉和(水平和垂直)隨機翻轉。為了提高從不同醫院收集的wsi模型的穩定性,我們還應用了從×1.0到×1.5的隨機縮放、高斯和運動模糊以及亮度(0.0-0.2)、飽和度(0.0-0.25)、對比度(0.0-0.2)和色調(0.0-0.04)的顏色抖動。

所有模型都是在Ubuntu服務器上使用TensorFlow進行訓練和測試的,該服務器上有4個Nvidia GTX1080Ti圖形處理單元(gpu)。使用學習率為0.0001的Adam優化器來訓練模型。批處理大小設置為80(每個GPU 20),訓練過程在25個epoch之後停止。

模型試驗

完全CNN架構的一個好處是,在訓練期間和在推斷時瓦片的大小不需要完全相同。在推斷階段,我們將WSI切成大小為2000×2000像素的塊。為了進一步保留周邊的環境信息,我們采用了重疊貼片的方法22通過向模型中輸入2200×2200像素塊,但隻使用中心的2000×2000像素區域進行最終預測。

我們使用第15大像素級概率進行幻燈片級預測。將滑動水平閾值法應用於概率,得到受試者工作特征(ROC)曲線。

評價指標

我們選擇了三個評估指標來描述模型的性能

嵌入式圖像

其中TP、FP、TN、FN分別代表真陽性、假陽性、真陰性和假陰性。準確性表示正確預測的玻片數量與總玻片數量的比率。敏感性/特異性表明正確鑒別的腺瘤/正常切片的比例。統計采用自行開發的Python腳本進行統計,並用Matlab繪圖。

模型的可解釋性

可解釋性是深度學習在醫學實踐中應用時需要考慮的問題。深度cnn常被描述為黑匣子,難以應用於臨床。這個障礙可以通過將模型視為黑盒功能模塊或白盒來解決。從黑匣子的角度,我們可以研究它的輸入輸出行為,並將其與專家病理學家進行比較。同時,我們也可以分析錯誤的預測,並與病理學家的錯誤進行比較。在白盒視角下,我們可以打開模型,並嚐試將它所學到的東西可視化。模型可視化最有效的方法之一是輸出CNN學習到的特征圖,並推斷其推理邏輯的樣子。我們可視化了特征地圖23來了解輸入樣本是如何通過CNN的。我們將所有的可視化結果歸一化到範圍(0.0-1.0),根據從相應的CNN層導出的所有特征圖的最大值和最小值。

結果

不同深度學習模型的性能

表2,我們給出了6個模型的性能,並在×20 FoV下用320×320像素塊進行了驗證。改進後的DeepLab v2性能優於分類和分割模型。此外,分割模型揭示了更多可解釋的預測,如圖1 b.接下來,我們選擇了改進後的DeepLab v2作為研究對象。

表2

不同深度學習模型的性能

不同視場訓練模型的比較

我們使用×10、×20和×40 FoV貼片訓練了6個模型,其大小分別為640×640和320×320像素,如下所示圖2一個.我們可以很容易地看到,×10 FoV比其他較小的FoV更好地捕捉腺體結構和腺體-基質關係。此外,在更大的塊大小的幫助下,使用×10 FoV和640×640-pixel塊大小訓練的模型在驗證集上優於其他模型,如圖2 b

圖2

(A)一個在×10, ×20和×40 fov瓷磚的例子;(B)驗證集上的瓷磚級分類精度;(C) WSI在不同視場上的相對計算時間。視場,用於不同的視野。

計算速度是另一個需要考慮的重要因素。不同視場下的預測時間值得研究。由於我們的深度學習模型是完全卷積的,因此可以對任意大小的輸入圖像進行預測。在我們的研究中,我們將預測階段的貼圖大小固定為2000×2000像素。給出了不同視場的推理時間圖2 c,在×40網站上,所有數據都被正常化了。我們可以在×10上看到,我們得到了更好的精度和更高的計算速度。使用訓練好的深度學習模型開發的最終診斷係統在在線補充文件1).

與病理學家比較,模型性能最佳

給出滑動水平的ROC曲線圖3, AUC為0.92。我們邀請了5位病理學家對194張測試幻燈片進行診斷。所示圖3, 5位病理學家給出的診斷結果有顯著差異,顯示了腺瘤鑒別過程中的主觀性。我們可以發現模型的表現優於一般的病理學家。在下麵的實驗中,我們選取了在的倒三角處的最佳模型圖3

圖3

深度學習模型的性能和5名病理學家。AUC,曲線下的麵積。

文中給出了一些定性的例子圖4一.當我們將注意力集中在高概率區域(深紅色)時,我們可以看到楔形腺瘤區域,這與病理學家的常見觀察一致。

圖4

(A)測試集中的預測實例;(B)對其他醫院幻燈片的一些預測;(C)係統性能與硬件配置的對比。

概括測試

為了進一步測試模型的泛化能力,我們將生成測試組的幻燈片輸入係統,並將模型給出的預測與組織學報告進行比較。結果顯示在表3.在沒有對原始模型進行任何微調的情況下,它發現了168張幻燈片中的155張(腺瘤:111;正常:57)預測正確,表明模型在不同染色配置下仍保持較高的準確性。圖4 b給出三個例子。

表3

在三個測試數據集上的模型性能,其中T、V、TV、H、L分別代表管狀、絨毛狀、管狀絨毛狀、高級別、低級別腺瘤

係統效率和可擴展性

由於組織學切片文件較大,顯然建立一個支持多gpu的自動診斷係統至關重要。該係統在單個GTX1080Ti GPU上在30秒內完成了500 MB大小的幻燈片分析。所示圖4 c,係統性能隨硬件配置(即gpu數量)近似線性增長。

錯誤分析和模型可視化

所示圖5一個,在(I)和(II)中,腺瘤分級較低,雖然模型成功地定位了這些腺體,但概率太低,無法做出肯定的決定。假陽性預測與組織燒灼和增生密切相關,見圖5一個-分別為(III)和(IV)。

圖5

(A)錯誤預測測試集中的例子;(B)深度CNN提取的特征地圖。CNN,卷積神經網絡。

我們給出了三個有代表性的例子圖5 b揭示模型推理過程。有趣的是,當我們仔細觀察最終的概率圖時,我們可以推斷出模型的注意力到底放在了哪裏。高亮區域與腺瘤增生區域相匹配。

討論

我們發現FoV對機器和病理學家的診斷準確性有實質性的影響。具體來說,除了靶向病變細胞外,細胞周圍的組織學環境對診斷過程也至關重要。我們發現,該模型在×10 FoV上比在×20或×40 FoV上表現出更好的性能。同時,為了進一步提高模型可感知的FoV,我們將訓練塊的大小從常用的像素大小320×320擴大到640×640。最佳深度學習模型的AUC為0.92,表現出與病理學家相當的性能,甚至優於平均病理學家。

該方法可從組織病理學角度應用於其他研討會的檢測。從病理學家的經驗,FoV是特定的疾病類型。例如,對於癌症檢測來說,×20或×40 FoV是做出確認診斷所必需的。盡管如此,在豐富的GPU資源下,增加貼圖大小總是有效的。

該模型需要具有一致和穩健的性能,即泛化能力,以便處理不同醫院組織學切片的不同染色配置。我們從另外兩家醫院收集了168張幻燈片,並取得了超過90%的幻燈片級別的準確性。

假陰性預測是我們需要更加謹慎的情況。所示圖5一個,對於假陰性病例,當腺瘤腺體較小,難以與隱窩基部的再生改變區分時,模型往往會遺漏。這種行為類似於初級病理學家,他們經常對這些模糊的區域診斷不足。假陽性病例與組織燒灼、增生密切相關。巧合的是,這些組織結構經常混淆初級病理學家,一些人可能會忽略炎症背景和誤認為再生異型性腺瘤。需要引入質量保證步驟,過濾掉質量較低的切片,如切片粉碎、折疊、標記燒灼等,然後輸入到分割模型中。

為了決定是否有腺瘤,病理學家主要關注腺體和細胞形態。從模型可視化結果顯示圖5 b,我們可以觀察到較低的CNN層從原始圖像中提取邊緣和顏色信息。隨著網絡的深入,一些特征圖逐漸揭示了腺體和細胞,尤其是腺體的形狀、細胞核和細胞的形態。對於腺體形態和細胞形態異常的病例,模型最終判定為腺瘤腺體。否則,瓷磚被認為是正常的。這種推理方式與經驗豐富的病理學家非常相似。

為了將該方法應用於更多不同器官的疾病,有必要在訓練階段招募大量涵蓋不同腫瘤亞型的WSIs。這些WSI應該由有經驗的病理學家用精確的像素級注釋進行標記。增強數據應由組織病理學領域特異性特征生成,以進一步提高複雜場景下的魯棒性和可生成性。

結論

有必要了解深度學習模型是否與病理學家相似。為了回答這個問題,我們建立了一個使用深度CNNs診斷結直腸腺瘤的語義分割模型,其AUC為0.92,與經驗豐富的病理學家的表現相當。通過仔細研究FoV對模型性能的影響,我們發現FoV越大,診斷準確率越高,這與病理學家的經驗一致。

另外兩家醫院的切片經多中心試驗驗證了模型的泛化能力。我們發現,這個模型在樣本上犯了與初級病理學家類似的錯誤。同時,模型可視化顯示,深度CNN的推理路徑與專家的非常相似。通過增加訓練樣本的數量,在訓練過程中納入更多類型的腺瘤,我們可以進一步提高模型的性能。

致謝

感謝在Thorough Images網站上進行的數據處理和有益的討論,包括高翔、王朗、王嶽峰、鄭思奇、王存光、丁方軍。

參考文獻

腳注

  • 貢獻者ZS、SZ、SW、WX、NL、HS提出研究,CY、YH、XD、JL、LS、JY、XG、WJ、ZW、XC、YZ、XD進行幻燈片標注,WW、HC主導多中心測試,CL、GX、ZS、CK編寫深度學習代碼並進行實驗,ZS、SW撰寫稿件,WX、NL、HS審閱稿件。

  • 資金中國科學院醫學科學創新基金(CIFMS)資助(資助號:2018-I2M-AI-008);國家自然科學基金(NSFC)[項目編號:61532001;“清華計劃研究計劃”資助項目(資助號:20151080475)。

  • 相互競爭的利益SW是Thorough Images的聯合創始人、首席技術官和股權持有人。CL、ZS、CK是Thorough Images的算法研究人員。所有剩下的作者都宣稱沒有利益衝突。

  • 患者和公眾參與患者和/或公眾參與了本研究的設計、實施、報告或傳播計劃。更多細節請參考方法部分。

  • 發表患者同意書不是必需的。

  • 倫理批準該研究獲得各參與醫院機構審查委員會的批準(中國人民解放軍總醫院醫學倫理委員會,S2018-163-01;中日友好醫院臨床研究倫理委員會,2018-106 K75;中國醫學科學院腫瘤醫院腫瘤中心倫理委員會(NCC1789)。

  • 出處和同行評審不是委托;外部同行評議。

  • 數據可用性聲明數據可向相應的作者索取。

請求的權限

如果您希望重用本文的任何部分或全部內容,請使用下麵的鏈接,該鏈接將帶您前往版權清算中心的RightsLink服務。您將能夠獲得一個快速的價格和即時許可,以許多不同的方式重用內容。