條文本
摘要
客觀的開發和驗證一個真實世界的篩選,基於指南的深度學習(DL)係統,用於可參考的糖尿病視網膜病變(DR)檢測。
設計這是一項基於回顧性、橫斷麵數據集的多中心平台開發研究。圖像被二級認證的分級者標記為基本真相。根據英國DR篩查指南,建立了基於彩色視網膜圖像的DL模型,該模型具有五維分類器,即圖像質量、視網膜病變、黃斑病變分級性、黃斑病變和光凝。通過整合所有分類器的輸出生成可參考的決策,並在圖像、眼睛和患者級別報告。DL的表現與DR專家進行了比較。
設置三家醫院的DR篩查項目和中國的生命線快速糖尿病視網膜病變篩查項目。
參與者對21 716例患者的39 836隻眼的83 465張圖像進行了標注,其中53 211張圖像作為發展集,30 254張圖像作為外部驗證集,根據中心和周期進行分割。
主要的結果計算準確性、F1評分、靈敏度、特異性、受試者工作特征曲線下麵積(AUROC)、精度-回憶曲線下麵積(AUPRC)、Cohen’s un加權κ和Gwet’s AC1來評價DL算法的性能。
結果在外部驗證集中,5個分類器的準確性為0.915 ~ 0.980,F1評分為0.682 ~ 0.966,敏感性為0.917 ~ 0.978,特異性為0.907 ~ 0.981,AUROC為0.9639 ~ 0.9944,AUPRC為0.7504 ~ 0.9949。檢測三個水平的DR參考值,準確性為0.918 ~ 0.967,F1評分為0.822 ~ 0.918,敏感性為0.970 ~ 0.971,特異性為0.905 ~ 0.967,AUROC為0.9848 ~ 0.9931,AUPRC為0.9527 ~ 0.9760。對於ground truth, DL體係表現出相當的性能(Cohen’s κ: 0.86-0.93;Gwet’s AC1: 0.89-0.94)與三位DR專家(Cohen’s κ: 0.89-0.96;Gwet 's AC1: 0.91-0.97)檢測參考病變。
結論基於英國指南的可參考DR自動DL檢測係統可實現較高的多維分類精度。它適用於大規模的,真實的DR篩選。
- 糖尿病性視網膜病變
- vetreoretinal
- 醫療視網膜
數據可用性聲明
資料應合理要求提供。正文和補充材料均已出版。
這是一篇開放獲取的文章,按照創作共用署名非商業性(CC BY-NC 4.0)許可發布,該許可允許其他人以非商業性的方式發布、混編、改編、構建本作品,並以不同的條款授權他們的衍生作品,前提是原創作品被正確引用,給予適當的榮譽,任何更改都被注明,且使用是非商業性的。看到的:http://creativecommons.org/licenses/by-nc/4.0/.
來自Altmetric.com的統計
本研究的優勢和局限性
本研究中的數據集來自多個中心,使用不同的設備進行泛化。
五維分類器,即圖像質量,視網膜病變,黃斑病變分級,黃斑病變和光凝,是根據現實的糖尿病視網膜病變篩查方法開發的。
深度學習平台可以自動生成三級(圖像級、眼睛級和患者級)可參考的糖尿病視網膜病變決策。
對不同質量的圖像,充分考慮圖像質量和黃斑病變分級兩個維度的質量評價,符合篩查實踐。
糖尿病性黃斑水腫在沒有立體圖像和光學相幹層析成像的情況下可能被誤診。
簡介
糖尿病視網膜病變(DR)是糖尿病(DM)患者視網膜微血管病變的常見眼部並發症,是全球工作年齡人群不可逆失明和視力損害的主要原因之一。1據估計,到2045年,糖尿病人口將增加到約7億,其中四分之一患有糖尿病。2 3DR篩查規劃是一項重要的幹預策略,可用於早期識別可參考的DR,並允許及時轉診和治療,以防止DR導致的視力喪失。4個5然而,來自大量糖尿病患者的巨大篩查需求和有限的人力資源阻礙了篩查服務的普及和可持續性。6
深度學習(DL)是人工智能(AI)的一個子集,由計算和大數據的最新進展提供了支持,它允許通過反向傳播技術訓練多層卷積神經網絡,以最小化導致分類器輸出的錯誤函數,這在計算機視覺(圖像分類任務)中工作得非常好。7近年來,多種用於DR自動檢測的DL算法被提出,並在檢測參考DR時顯示出較高的靈敏度和特異性(>90%)。8 - 11為人工智能輔助下的大規模DR篩查提供了光明。然而,在複雜的現實篩查場景中,僅根據分類的幾個維度很難做出適當的轉診決定。各種特征或情況應同時識別和處理,包括眼底照片的圖像質量、DR分期、黃斑病變、光凝狀態等。12 - 14因此,需要開發可參考的容災檢測多維特征的DL算法,以識別複雜的現實容災篩查場景中的多種條件。本研究旨在利用真實DR篩查數據集,開發一個具有5個獨立分類器(圖像質量、視網膜病變、黃斑病變分級、黃斑病變和光凝)的可參考DR檢測多維DL平台。生成聯合熱圖以可視化和解釋可參考病變的預測區域。我們的DL平台的性能進一步與視網膜專家進行了比較。
方法
在這項使用去識別視網膜圖像開發DL係統的回顧性研究中,被批準放棄知情同意。本研究遵循《診斷準確性報告標準》報告指南。
數據集
本研究中的圖像是在DR篩查項目中使用三種類型的相機拍攝的,收集自三家醫院(汕頭大學與香港中文大學汕頭國際眼科聯合中心;相機:Top-2000, Topcon,日本);柳州市紅十字醫院(柳州;相機:AFC-230, NIDEK,日本);汕頭大學醫學院第二附屬醫院(st -2;相機:Top-2000, Topcon,日本))和一個活動(Lifeline Express糖尿病視網膜病變篩查計劃(LEDRSP);相機:AFC-230, NIDEK,日本,佳能CR-DGi,佳能,日本)2014年4月至2018年6月。隻有瞳孔視網膜圖像和兩個45o包括場(黃斑中心和視盤中心)。除非與DR同時存在,否則顯示其他眼部疾病的圖像,如青光眼和老年性黃斑變性,將被排除。非眼底圖像也被排除(在線補充圖1).
患者和公眾的參與
參與者和公眾都沒有參與本研究的設計和實施。
標簽和分級
根據英國國民健康檢查(NHS)糖尿病眼檢查計劃(在線補充表1),14日15從4個維度評估視網膜圖像,即(1)圖像質量,(2)視網膜病變,(3)黃斑病變,(4)光凝狀態。視網膜圖像的標簽按以下方式標注:
“圖像質量”被分類為Q0(不可分級質量,定義為一幅圖像中有三分之一的區域暴露不良,即使在該區域的其餘部分觀察到任何DR特征,也不能確定地分類的偽影或模糊)和Q1(可分級質量,圖像可確定分類的不良區域≤1/3)。
根據病變的嚴重程度,“視網膜病變”被分為四個級別:R0(無DR)、R1(背景DR)、R2(增殖前DR)和R3(增殖後DR)。R0和R1進一步定義為不可參考視網膜病變,R2和R3定義為可參考視網膜病變。
“黃斑病”被分為M0(沒有任何M1特征)和M1(隻有在最佳矯正視力≤6/12的情況下,在中央凹中心1個椎間盤直徑(DD)內有滲出或在中央凹中心1個DD內有微動脈瘤/出血)。此外,由於黃斑上的模糊或偽影(小於整個圖像的1/3麵積)有限,黃斑病變可能無法分級。因此,對黃斑病變可分級性的評價應在黃斑病變的分類之前進行,不能以黃斑病變進行可靠分級的圖像將被注釋為黃斑病變不可分級(Mu)。
“光凝”被分為P0(無激光光斑或疤痕的圖像)和P1(有激光光斑或疤痕的圖像)。
詳細定義見在線補充表2.
通過對二級分級機的分級,得到圖像的地麵真相標簽。所有的評分者都通過了NHS視網膜視網膜篩檢的培訓和認證(https://www.gregcourses.com).根據臨床信息進行分級的工作流程如下:(1)圖像主要由兩名低年級學生(PX和YZ)獨立進行分級,並將一致性標簽指定為地麵真實標簽;(2)初級分級標簽不一致的圖像由高級視網膜眼科醫生(GZ)提交最終裁決。最後的判決被指定為基礎真理標簽。滿足納入標準並以地麵真相標簽注釋的圖像作為數據集歸檔。使用LEDRSP和JSIEC的圖像構建開發集,並在患者水平上按75:10:15的比例隨機分為訓練、驗證和測試數據集,使用柳州和stui -2nd的圖像作為外部驗證集。
DL算法開發
DR篩選係統的管路如圖所示在線補充圖2.簡單地說,圖像評估是從評估圖像質量開始的,其中可分級的圖像被輸入到主管道中,而不可分級的圖像被推薦用於“重拍”。為了構建係統的主要結構,我們針對任何給定的圖像提出了四維獨立的分類器(視網膜病變、黃斑病變分級、黃斑病變和光凝),並且每個分類器都是二元的。采用三種不同類型的神經網絡(穀歌Inception-V3、Xception和InceptinReNet-V2)作為基礎模型,采用非加權平均作為模型集成方法。我們還采用後處理方法將所有一維結果整合為圖像級可參考結果,並進一步將圖像級結果整合為眼級或患者級結果。方法的詳細信息見在線補充方式一.
采用t分布隨機近鄰嵌入(t-SNE)熱圖對神經網絡提取的特征進行可視化處理。結合類激活映射(CAM)的SHAP-CAM熱圖16日17DeepSHAP,18用來強調神經網絡用於做出預測的重要區域(在線補充方法二).
根據不同分類器的分類,係統自動生成各種建議:(1)病變較嚴重(R2、R3或M1)的患者,英國NHS糖尿病眼篩查計劃(在線補充表1),建議在研究中轉診,而R0、R1或M0的患者建議隨訪;(2)對於無法分級的黃斑病變,一般建議重拍,除非在同一圖像上檢測到R2或R3,或在同一眼底的其他野像上發現可參考的DR;(3)圖像上的任何激光斑點或疤痕都會讓人想起“光凝治療過一次”,建議事先谘詢眼科醫生。以下是各種建議的優先順序:“參考以前的眼科醫生' > '可參考' > '重拍' > '隨訪'。”該係統由多個分類器集成圖像級決策,自動生成可參考決策,任何可參考病變的維度陽性預測都會推薦可參考決策。可參考的圖像將進一步在眼睛和患者層麵提供可參考的建議。
統計分析
分類器的性能由真陰性、假陽性、假陰性、真陽性、F1評分、敏感性、特異性、95% CI的受試者工作特征曲線(AUROC)下麵積和精確召回曲線(AUPRC)下麵積進行評估。19開源包pROC (V.1.14.0;使用Xavier Robin)用DeLong法計算AUROC的雙麵95% CI。數據分析時間為2019年5月1日至2021年6月12日。
在2019年1月1日至2020年12月31日期間,JSIEC和stui -2的253張圖像組成了額外的獨立數據集,用於與三名經驗豐富的視網膜眼科醫生進行人機比較,以進一步驗證。以兩級分級者所標注的地麵真相作為判斷標準。在人-係統比較中,通過Cohen無加權κ和Gwet的AC1計算評分者(3名經驗豐富的視網膜眼科醫生)與DL係統和標準標準的一致性。20 21進一步采用以下評分標準:0.2及以下為輕微同意,0.21-0.40為一般,0.41-0.60為中等,0.61-0.80為強烈,0.81-1.0為接近完全同意。
結果
共收集了85 977張視網膜圖像,2512張(2.9%)因非眼底視圖或DR以外的疾病而被排除,如果將其納入數據集,將降低DL係統的分類性能。隨後,來自21 716例患者的39 836隻眼睛共83 465張圖像(平均年齡20 150例患者,可用年齡:60.0±12.9歲;17042例(44.0%)男性患者中的7493例最終被注釋並納入數據集。JSIEC和LEDRSP編譯的開發集包含53211張圖像(占83465的63.8%),柳州和stub -2編譯的外部測試集包含30254張圖像(占36.2%)。數據的分布如圖所示表1而且在線補充表3.
係統性能
對於圖像水平的測試集,所有分類器的性能達到了準確性為0.935 ~ 0.994,F1評分為0.868 ~ 0.969,靈敏度為0.925 ~ 0.976,特異性為0.914 ~ 0.995,AUROC為0.9768 (95% CI 0.9737 ~ 0.9798) ~ 0.9979 (95% CI 0.9958 ~ 1.0000), AUPRC為0.9578 ~ 0.9981 (表2,圖1而且在線補充圖3和4).視網膜病變分類器的準確率為0.972,F1評分為0.868,靈敏度為0.976,特異性為0.971,AUROC為0.9962 (95% CI為0.9951 ~ 0.9972),AUPRC為0.9687,而黃斑病變分類器的準確率為0.967,F1評分為0.888,靈敏度為0.925,特異性為0.974,AUROC為0.9928 (95% CI為0.9912 ~ 0.9944),AUPRC為0.9578。
對於圖像水平的外部驗證集,所有分類器的性能達到了準確性為0.915-0.980,F1評分為0.682-0.966,靈敏度為0.917-0.978,特異性為0.907-0.981,AUROC為0.9639 (95% CI 0.9617 ~ 0.9660) ~ 0.9944 (95% CI 0.9936 ~ 0.9952), AUPRC為0.7504 ~ 0.9949 (表2,圖1而且在線補充圖3和4).視網膜病變分類器的準確率為0.966,F1評分為0.870,靈敏度為0.978,特異性為0.965,AUROC為0.9944 (95% CI為0.9936 ~ 0.9952),AUPRC為0.9617,而黃斑病變分類器的準確率為0.965,F1評分為0.885,靈敏度為0.949,特異性為0.967,AUROC為0.9904 (95% CI為0.9888 ~ 0.9919),AUPRC為0.9551。
三水平(圖像、眼睛和患者)可參考DR檢測的準確性為0.952 ~ 0.972,F1評分為0.886 ~ 0.919,靈敏度為0.942 ~ 0.945,特異性為0.954 ~ 0.977,AUROC在0.9914 (95% CI 0.9884 ~ 0.9943) ~ 0.9952 (95% CI 0.9940 ~ 0.9964)之間,AUPRC在0.9679 ~ 0.9773之間,準確性為0.918 ~ 0.967,F1評分為0.822 ~ 0.918,靈敏度為0.970 ~ 0.971,特異性為0.905 ~ 0.967,外部驗證集AUROC從0.9848 (95% CI 0.9819至0.9877)至0.9931 (95% CI 0.9920至0.9942),AUPRC為0.9527-0.9760 (表2,圖1而且在線補充圖3和4).
人類係統的比較
進一步驗證了我們的DL算法和三位經驗豐富的視網膜眼科醫生之間的可參考DR病變的檢測。與視網膜眼科醫生相比,DL算法的靈敏度更高(視網膜病變1.000,黃斑病變0.949,可參考DR 0.953)(平均(範圍):可參考視網膜病變0.935(0.910-0.970),可參考黃斑病變0.936(0.910-0.949),可參考DR 0.933 (0.918-0.953);表3).混淆矩陣幾乎完全一致(Cohen 's κ: 0.86-0.93;DL算法與地麵真值標簽(在線補充圖6),與視網膜眼科醫生的水平相當(Cohen’s κ: 0.89-0.96;Gwet AC1: 0.91 - -0.97)。
錯誤的預測分析
通過熱圖可視化分析外部驗證集的錯誤預測。大多數假陽性是由於不可參考的DR病變,包括預測為可參考的視網膜病變的背景DR(784例中646例,82.4%)和最佳矯正視力>0.5的黃斑出血/微動脈瘤(572例中178例,31.1%)。同時,人工製品是假陽性分類的常見幹擾因素(7.4%在可參考視網膜病變中,20.6%在可參考黃斑病變中)。在兩個可參考病變的假陰性預測中觀察到有限的模糊圖像(在線補充表4).
討論
在本研究中,我們基於真實的DR篩查指南開發了一個多維的DL平台。結果表明:(1)五維分類器(圖像質量、視網膜病變、黃斑病變分級、黃斑病變和光凝)在各分類中均具有較高的準確性;(2) DL平台可自動生成三級可參考DR決策(圖像、眼睛和患者級別);(3) SHAP-CAM熱圖的可視化為平台的參考病變預測提供了可解釋性。
本研究基於NHSDR分級指南(NHSDRCG)而非國際臨床糖尿病視網膜病變嚴重程度量表(ICDRSS)進行多維分類。22在以前的研究中,可參考的DR被定義為中度和較嚴重的DR和糖尿病黃斑水腫(DME)或兩者兼具,其中視網膜病變較輕(定義為僅存在微動脈瘤)的患者將被轉診給眼科醫生。然而,對於早期dr患者,目前仍沒有有效的管理方法。這些患者隻能每年進行監測,而不能轉診給視網膜專科醫生。23日24當采用可參考的DR篩查的臨床標準時,可能會導致過度轉診,增加眼科保健服務的工作量和與DR篩查規劃相關的財政負擔。ICDRSS是基於每個象限的臨床眼底檢查。22然而,在DR篩查項目中,隻有一到兩個45°視場的視網膜圖像被用於DR分級。12 15 25 26這將導致DR分級不準確,或當分級僅基於一到兩張眼底照片時,會使評分者感到困惑。相比之下,NHSDRCG是專門為DR篩查而開發的,並已在不同的國家DR篩查項目中使用多年,包括中國的生命線快速DR項目。對於NHSDRCG,分類是基於DR病變的多維特征,而不是最嚴重的DR病變。此外,我們的係統可以通過整合一隻眼睛的所有圖像級決策提供一個可參考的眼睛級決策,也可以通過結合兩隻眼睛的結果提供患者級決策。在以前的研究中,已經開發了多種DL算法來檢測可參考的或視覺威脅的DR,具有健壯的性能。8 - 10雖然這些研究取得了很高的準確性,但它們主要是針對可參考DR的一般分類。在日常DR篩查實踐中,可能會發現複雜的情況,需要處理。NHSDRCG應該更適合於支持多維係統的發展。
我們係統的兩個質量評價維度,即圖像質量和黃斑病變分級性,更符合篩查實踐。首先,當眼底照片被發送到閱讀中心時,圖像質量評估應在dr嚴重程度分類之前進行。圖像質量差可能是由於屈光介質不透明、人工製品、對比度差、離焦或瞳孔小造成的。27之前的研究將這些不可分級的圖片分配給可參考的DR,9 10 - 30這可能會給患者造成不必要的擔憂,並使評分者在判斷可參考DR或重拍時產生混淆。其次,在對黃斑病變進行分級之前,應評估黃斑病變的分級性。雖然一些眼底圖像質量符合可分級標準,但黃斑區域可能因為模糊或不透明而看不見。第三,我們的平台可以單獨提供黃斑病變的分級結果,而不是將視網膜病變和黃斑病變的結果結合起來。因此,我們可以獲得轉診建議的依據,由視網膜病變或黃斑病變引起。由於DME現在可以在大多數初級醫療單位或醫院使用抗血管內皮生長因子治療,可能沒有必要轉診到高級專科醫院接受玻璃體切除術或光凝治療。31日32
視網膜圖像的光凝狀態受到NHSDRCG的關注。在我們的係統中也建立了相應的模型,通過檢測眼底照片上的激光光斑來判斷患者是否接受過光凝治療。激光斑點表明患者在篩查前接受過光凝治療,對這些患者的治療建議與其他病例不同。
在視網膜眼底圖像上,SHAP-CAM熱圖突出了可預測的參考DR病變。一般來說,CAM可以顯示適當的大小,但對病變識別的精確範圍較差。相比之下,deepsha可以描述特定的細微病變,33但更分散。兩種技術的結合可以提供特定區域的病變熱圖,滿足區分黃斑病和視網膜病的要求。這些可視化提供了可解釋性,並提高了DR分級的準確性和可信度。34 35
限製
這項研究有幾個局限性。首先,與其他研究相似,根據黃斑區域硬滲出物、微動脈瘤或出血的存在,在非立體圖像上對DME進行分級。在一些沒有立體圖像和光學相幹斷層掃描的情況下,這可能被誤診。36其次,視網膜內微血管異常和靜脈串珠等微小或不常見的病變在圖像上可能無法很好地檢測出來。如果需要比基本篩查更精細的分類,則需要訓練更多的數據顯示這些病變。第三,本研究僅采用兩個類別(可參考和不可參考)及相關指標。此外,受限於回顧性數據,部分信息缺失,未根據影響圖像質量的年齡、糖尿病病程和各種器械對DL係統的分類性能進行分層分析。未來可開展多類分類(即DR 0-5)和多因素分析的前瞻性研究。還可以采用適用於多類別分類的其他指標(即加權kappa)。
結論
本研究表明,我們基於現實DR篩查指南的DL平台具有較高的敏感性和特異性,具有多維分類器,表明AI工具可以輔助基層醫療單位的可參考DR的大規模篩查。
數據可用性聲明
資料應合理要求提供。正文和補充材料均已出版。
倫理語句
病人同意發表
倫理批準
本研究經汕頭大學與香港中文大學汕頭國際眼科聯合中心人類醫學倫理委員會(EC20190612(3)-P10)批準,符合《赫爾辛基宣言》。
參考文獻
補充材料
-
補充數據
這個網絡僅文件已由BMJ出版集團從作者提供的電子文件生產(s),並沒有編輯的內容。
腳注
GZ、J-WL、JW和JJ貢獻相當。
貢獻者廣州和MZ提出並設計了這項研究。GZ, JJ, J-WL, WC, PX, YZ, YX, HW和DL收集數據和/或執行研究。GZ、J-WL和JW對數據進行了分析。GZ, JW, J-WL, JJ和TKN編寫了手稿。L-PC和CPP給出了關鍵性的修正。MZ作為擔保人對整體內容負責。
資金本工作得到汕頭市醫藥衛生科技項目基金(項目代碼:190716155262406)和廣東省高水平大學發展計劃臨床醫學重點學科資助。資助機構沒有參與這項研究,包括數據的收集、分析和解釋以及撰寫手稿。
相互競爭的利益沒有宣布。
患者和公眾的參與患者和/或公眾未參與本研究的設計、實施、報告或傳播計劃。
來源和同行評審不是委托;外部同行評議。
補充材料本內容由作者提供。它沒有經過BMJ出版集團有限公司(BMJ)的審查,也可能沒有經過同行評審。討論的任何意見或建議僅僅是那些作者(s)和不被BMJ認可。BMJ放棄從放在內容上的任何依賴產生的所有責任和責任。如果內容包含任何翻譯材料,BMJ不保證翻譯的準確性和可靠性(包括但不限於當地法規、臨床指南、術語、藥品名稱和藥物劑量),並且不對翻譯和改編或其他原因引起的任何錯誤和/或遺漏負責。