條文本

原始研究
綜合深度學習算法是否存在隱性分層?胸片檢查氣胸的回顧性研究
  1. Jarrel Seah12
  2. 西裏爾唐2
  3. 昆蘭D Buchlak23.
  4. 邁克爾·羅伯特·米爾恩22
  5. 澤維爾霍爾特2
  6. 哈桑艾哈邁德2
  7. 約翰·蘭伯特2
  8. Nazanin Esmaili3.4
  9. 路加福音Oakden-Rayner5
  10. 彼得Brotchie26
  11. 凱瑟琳·M·瓊斯27
  1. 1放射學阿爾弗雷德健康墨爾本維多利亞、澳大利亞
  2. 2annalise.ai悉尼新南威爾士、澳大利亞
  3. 3.澳大利亞聖母大學悉尼新南威爾士、澳大利亞
  4. 4悉尼科技大學悉尼新南威爾士、澳大利亞
  5. 5澳大利亞機器學習研究所阿德萊德大學阿德萊德南澳大利亞、澳大利亞
  6. 6放射學墨爾本聖文森特醫院有限公司菲茨羅伊維多利亞、澳大利亞
  7. 7我放射學布裏斯班昆士蘭、澳大利亞
  1. 對應到Jarrel Seah博士;jarrel.seah在{}annalise.ai

摘要

目標為了評估市售綜合胸片深度卷積神經網絡(DCNN)檢測單純性和張力性氣胸的能力,按以下亞組分層:存在肋間引流;肋骨、鎖骨、肩胛骨或肱骨骨折或肋骨切除;皮下肺氣腫與直立與非直立體位的比較。假設與整個測試數據集相比,每一個子組的性能不會有顯著差異。

設計采用回顧性病例對照研究。

設置澳大利亞和美國的社區放射診所和醫院。

參與者2557個胸部x線攝影研究的測試數據集由3個亞專業胸科放射科醫生對是否存在單純性或張力性氣胸以及除體位外的每個亞組進行了實地調查。射線照相定位是由射線照相師在圖像上的注釋得來的。

結果測量利用受試者工作特征曲線(AUC)下的麵積,在整個測試集以及每個亞組中評估DCNN檢測簡單性氣胸和張力性氣胸的性能。AUC差異大於0.05被認為有臨床意義。

結果與總體測試集相比,DCNN在檢測單純性和張力性氣胸方麵的表現在所有亞組中均無統計學差異。DCNN檢測單純性氣胸的AUC為0.981(0.976 ~ 0.986),檢測張力性氣胸的AUC為0.997(0.995 ~ 0.999)。

結論隱藏分層對深度學習在臨床應用中的潛在失敗具有重要意義。這項研究表明,經過全麵訓練的DCNN在檢測氣胸時,對幾個有臨床意義的亞組的隱藏分層具有彈性。

  • 胸部成像
  • 衛生信息學
  • 事故與急診醫學

數據可用性聲明

根據合理的要求提供數據。研究團隊可以將模型和放射科醫生的性能數據集和測試數據集提供給感興趣的研究夥伴,目的是支持研究社區,並為文獻做出進一步的合作貢獻。如欲查閱,可透過編年院提出申請。人工智能網站(https://annalise.ai/contact/).該模型作為商業軟件產品公開提供(https://annalise.ai/products/annalise-cxr/).免費的網上演示可於網上(https://cxrdemo.annalise.ai/).

http://creativecommons.org/licenses/by-nc/4.0/

這是一篇開放獲取的文章,按照創作共用署名非商業性(CC BY-NC 4.0)許可發布,該許可允許其他人以非商業性的方式發布、混編、改編、構建本作品,並以不同的條款授權他們的衍生作品,前提是原創作品被正確引用,給予適當的榮譽,任何更改都被注明,且使用是非商業性的。看到的:http://creativecommons.org/licenses/by-nc/4.0/

來自Altmetric.com的統計

請求的權限

如果您希望重用這篇文章的任何部分或全部,請使用下麵的鏈接,它將帶您訪問版權清除中心的RightsLink服務。您將能夠快速獲得價格和以多種不同方式重用內容的即時許可。

本研究的優勢和局限性

  • 這項研究分析了一個綜合訓練的深度學習算法,它可以檢測胸片上多達124個臨床表現。

  • 優點是不僅評估了算法檢測氣胸的能力,而且還評估了臨床顯著的單純性氣胸和張力性氣胸組。

  • 此外,該研究還評估了該算法在特定的、臨床顯著亞組中檢測氣胸的能力。

  • 對2557張胸片的大數據集進行了評估,這些胸片具有可靠的地麵真實性。

  • 該研究受限於其回顧性性質,因此需要進一步的前瞻性、外部驗證研究。

簡介

深度卷積神經網絡(DCNNs)是最先進的用於各種圖像分類和處理任務1 2在醫學成像和人工智能(AI)文獻中,它們經常聲稱在放射科醫生執行的各種分類任務中具有接近人類甚至超人類的性能。3 4然而,最近有人提出了將這些結果轉化為臨床實踐的擔憂。5醫學成像中的大多數深度學習模型都是為了檢測特定的發現或一組相似的發現而開發的,因此,性能通常使用一個彙總指標來報告,如接受者工作特征曲線(AUC)下的麵積。這可以在這些單一的發現中隱藏模型在臨床不同和有意義的亞組上的表現,這種現象被Oakden-Rayner描述為隱藏分層6這項工作表明,訓練用來在胸部x光片上檢測氣胸的算法經常受到隱藏分層的影響,在整個測試數據集中表現良好,但在沒有伴有肋間引流的氣胸患者子集中表現較差。由於氣胸通常通過插入肋間引流來治療,7許多胸片攝影訓練數據集標記為氣胸,包括著名的公共數據集,如國家衛生研究院CXR14數據集8證明氣胸和肋間引流有很強的相關性。由於這種相關性和缺乏明確的標簽來區分肋間引流作為一個單獨的發現,在這些數據集上訓練的dcnn經常錯誤地依賴肋間引流的存在來識別氣胸,這個過程被稱為“捷徑學習”或“無意提示學習”。9當模型在沒有肋間引流的情況下進行評估時,依賴這些無意的線索可能會導致性能下降。這個例子特別危險,因為肋間引流插入通常表明氣胸已經被識別和治療。因此,一種算法在氣胸檢測總體上表現良好,可能掩蓋了在最臨床相關的亞組中表現不佳的情況,即那些尚未接受治療和最能從及時診斷中獲益的人。

其他有臨床意義的氣胸亞組包括皮下肺氣腫患者;急性肋骨、鎖骨、肩胛骨或肱骨骨折或肋骨切除的患者和半直立或仰臥(稱為非直立)體位的患者。雖然不是一個詳盡的列表,但這些子組包含了與氣胸相關的特征,DCNN可能會錯誤地依賴這些特征。例如,皮下肺氣腫可能是良性的,但通常與縱隔氣腫和氣胸有關。10伴有肋骨和其他骨骼骨折的創傷患者常伴有氣胸或血氣胸。11此外,由於創傷的急性性質,創傷室患者通常以仰臥位或半直立位成像。病人的體位也會改變氣胸的可見性和放射學表現。12氣胸是胸外科手術後常見的術後並發症,肋骨切除是常見的指標。13

對這些子組進行標記並在每個子組上評估DCNN的性能被稱為模式完成。6以這種方式評估dcnn的性能可以幫助回答關於這種人工智能驅動的計算機輔助診斷工具的真正臨床用途的關鍵問題。

我們假設,經過全麵訓練的DCNN能夠檢測多種結果,包括這些亞組中的一些,與整個測試數據集相比,這些亞組的單純性氣胸和張力性氣胸的AUC表現不會差。

方法

DCNN軟件

一種商用的基於dcnn的計算機輔助診斷算法(Annalise CXR V.1.2, Annalise CXR .1.2)。ai,悉尼,澳大利亞)進行評估。該算法已經過訓練,可檢測胸片上124個臨床表現14並可在https://cxrdemo.annalise.ai.該算法指出是否每個發現都存在,並提供一個數值評分,以表明其對發現存在的置信度。該算法由幾個基於EfficientNet架構的卷積神經網絡組成,使用Keras庫和Tensorflow V.2.1。

患者和公眾的參與

患者和公眾均未參與本研究的設計、實施或報告。

研究設計和數據集

該項目的測試數據集是從(Seah)的一項更廣泛的研究中回顧性獲得的),題為“綜合深度學習模型增強放射科醫生胸部x光診斷準確性表現:多讀者多酶研究”,之前進行了驗證DCNN算法,該算法描述了病例選擇和參與者流程。對該研究的性能數據進行了再分析,以測試DCNN算法對隱藏分層具有彈性的假設。測試數據集的胸片回顧性地從兩個來源獲得:來自澳大利亞一家私人放射科診所的大型數據集和可公開獲得的重症監護醫療信息集市CXR (MIMIC-CXR)數據集。15這些x光片沒有在DCNN訓練數據集中使用,訓練組和測試組患者之間沒有重疊。每項研究都包括來自同一名患者的多張圖像。測試數據集的納入標準為年齡>16歲;以及包含至少一個正麵圖像的研究。在每個研究中獲得的額外的正麵或側麵圖像也被使用。研究文獻采用DICOM格式,並進行鑒定。原始分辨率和井深得以保留。在最初的研究中,選擇的病例包括各種各樣的病理,包括本研究中分析的每個亞組,以及非氣胸相關的病理,如肺結節或空氣不透明。表1介紹了在整個數據集和每個亞組中有和沒有單純性和張力性氣胸的病例數的細分。

表1

測試數據集的人口統計數據

地麵真理

每項研究都由三名亞專科胸科放射科醫生進行評估,其中包括一名作者(CMJ),他們都承擔了專門的胸部成像獎學金。每個放射科醫生都接受了單純性和張力性氣胸的一套特定定義的培訓,以及每個亞組的定義在線補充附錄A.張力性氣胸被定義為縱隔向對側肺移位的氣胸。對於“沒有骨折”的亞組,專家放射科醫生被指示標記急性肋骨、肱骨、鎖骨、脊柱和肩胛骨骨折,以及任何肋骨切除的存在。存在任何這些骨折或肋骨切除的研究不符合“無骨折”亞組的研究資格。放射科醫生獨立評估每項研究,獲得患者過去和未來的影像、臨床報告,以及任何CT胸部報告(如果有的話),並確定每項發現是否在該研究中缺失或存在。每個三讀研究的每個發現的共識是使用Dawid-Skene共識算法獲得的,16它考慮的是每個標簽器對每個發現的相對準確性。這樣做是為了減少變化和解決差異。此外,放射科注冊醫師(JS)審查了每張圖像上的放射科注釋,以確定它是直立的、半直立的還是仰臥的。伴側位的研究被認為是勃起的。如果沒有這樣的標注,則通過考慮圖像上的指標,如空氣液位或手臂位置的存在,來估計患者的位置。所有的注釋都是在內部基於網絡瀏覽器的標簽工具上執行的,該工具能夠顯示DICOM圖像。

統計分析

對於單純性氣胸和張力性氣胸,計算了AUC,這是診斷分級試驗評估中常用的度量。17為了獲得亞組的表現,在重新計算AUC之前,樣本被過濾以隻保留該亞組的患者。將完整測試集與每個子組之間的AUC差異進行引導,以獲得Bonferroni調整後的95% CI。AUC大於0.05的差異被認為具有臨床意義,因此,如果delta CI的下限超過- 0.05,則該亞組的表現在統計學上不差。這是診斷性放射學AUC分析中常用的一種非劣緣。18經檢驗的8個假設調整後,p<0.00625被認為具有統計學意義。分析使用了Excel 2016、定製Python腳本和scipy,19scikitlearn,20.nltk,21gensim22和keras23包。

結果

人口特征

共納入2286名患者的2568項研究,包括4568張圖像。測試數據集中43%的病例來自MIMIC-CXR數據集,57%的病例來自澳大利亞私人放射學實踐數據集。表1介紹了測試數據集的人口統計和成像特征。MIMIC-CXR不提供年齡和性別數據。

有11項研究被DCNN認為不合適,因此被排除在分析之外。在這11項研究中,沒有一項被基礎真相者標記為單純性或張力性氣胸陽性。單純性氣胸162例,張力性氣胸49例。大多數氣胸病例是在直立胸片上發現的。在非直立胸片上可見單純氣胸60例,張力性氣胸11例。表2在整個測試數據集中呈現單純性或張力性氣胸的病例數,以及在每個子組內。每個子群的完整共現矩陣在在線補充附錄B

表2

在試驗組以及整個亞組中,單純性或張力性氣胸的研究數量

AUC性能

圖1及2將每個子組內的AUC與整個測試數據集進行比較。對於單純性氣胸,在所有亞組中,調整後的AUC增量95% CI的下限超過−0.05,上限超過0,表明這些亞組的表現在統計上不低於整個測試數據集。對於張力性氣胸,“無骨折”和“無勃起”亞組在統計上並不低於整個測試數據集,然而“無皮下肺氣腫”和“無肋間引流”亞組都顯示了AUC delta調整後95% ci的下限超過0,這意味著這兩個亞組顯示了顯著的更好的表現。表3表示DCNN性能的原始AUC值表4提出了AUC增量。

表3

在測試數據集以及特定亞組中,DCNN對單純性和張力性氣胸的表現的95% CI(未經調整)的AUC值

表4

每個特定子組與95%調整CI的整體測試數據集之間的AUC值的差異

圖1

檢測數據集中單純氣胸的AUC與調整後95% CI的每個特定亞組的差異。AUC,接收器工作特性曲線下的麵積。

圖2

測試數據集中檢測張力性氣胸的AUC與調整後95% CI的每個特定亞組的差異。AUC,接收器工作特性曲線下的麵積。

討論

我們在一項具有代表現實世界臨床條件的大型測試數據集的回顧性研究中,評估了一種商用DCNN算法檢測單純性和張力性氣胸的臨床性能。值得注意的是,測試數據集中33%的圖像是AP圖像,反映了該研究的住院和緊急性質。測試數據集來自廣泛的澳大利亞放射科站點以及MIMIC-CXR數據集,提高了結果的可泛化性。與現有算法相比24日25日DCNN算法在檢測氣胸時顯示出相當或更高的AUC。與單純性氣胸相比,DCNN算法在檢測張力性氣胸方麵表現更好,可能是因為這種類型的氣胸尺寸更大、更明顯,以及其他相關特征,如縱隔移位。DCNN算法似乎對四個測試子組的隱藏分層具有彈性,在八個測試子組中的六個在統計上表現不差,其餘兩個在統計上表現出邊緣優越。無肋間引流或無皮下肺氣腫的張力性氣胸亞組的優越表現可能是由於測試數據集本身的限製,總共包含49個張力性氣胸。由於病例數量相對較少,這些亞組中任何一組所特有的少量強烈自信的陽性或陰性病例可能會影響AUC delta的分布,並可能解釋觀察到的反直覺結果。在所有子組中,DCNN算法在未勃起的子組上顯示了最大的AUC下降,盡管結果在統計上仍然不差。

這種DCNN算法似乎對隱藏的分層很有彈性,因為它是在一個包含124個發現(包括子組)的綜合標記數據集上訓練的。非勃起亞組的AUC下降幅度最大,這一事實間接證明了綜合標記是有益的,因為“非勃起”是本研究中檢查的唯一一個亞組,不在模型訓練中明確標記的124個發現的一部分。另一個可能的原因是,非直立氣胸不太明顯,在仰臥位胸片上可能根本看不見。

隨著計算機輔助診斷和臨床決策支持軟件在臨床實踐中越來越普遍,26有臨床意義的失敗很可能源於隱性分層,或者更具體地說,缺乏對臨床相關亞類的評價6因此,明確評估這些臨床相關的子類對於負責任的臨床決策支持研究是至關重要的,定義這些子類是臨床醫生的領域,並抵製將表現過度簡化為單一指標的誘惑,如廣泛疾病類別的AUC。雖然最近的文獻強調了這個問題,但它已經被發現和警告了多年,27不幸的是,大多數臨床深度學習研究都忽略了這一點。這是在床邊使用計算機輔助診斷工具時要減輕的風險之一。28

局限性和未來研究

該研究的一個顯著局限性是,測試數據集來自與訓練數據集相同的人群,需要進一步的研究和外部驗證來驗證這些結果。另一個限製是,放射科讀者可能會錯過細微的氣胸,特別是在仰臥的病人,12盡管未來的胸部x光片和報告以及同期的CT報告緩解了這種情況。結果可能低估了非勃起亞組的真正性能下降。

未來研究的機會包括向參與實地調查過程的放射科醫生提供配對的胸部CT圖像和x光片,以確保實地調查真實地反映了潛在的病理,以及測試對本研究中未提供的其他亞組的彈性。未來的工作需要在比測試數據集中可用的更多的病例中定義模型在張力性氣胸子組中的性能,以闡明卓越的性能是否真正指示了模型行為,還是僅僅是測試數據集的人工產物。這將需要從訓練數據集以外的來源和人群中獲取數據,並確保足夠多的張力性氣胸病例來驗證結果。

此外,這項工作是作為回顧性分析進行的,這限製了DCNN算法之前沒有見過的數據集的結果的普遍性。此外,由於這是對之前獲得的數據的重新分析,它可能無法檢測出這些子組之間的細微差異。因此,需要在不同地區進行額外的前瞻性研究,使用先驗冪分析來確定足夠的樣本量,以確定是否在其他人群中獲得類似的表現。綜合訓練的DCNN算法對隱藏分層的彈性也可能是由於其他因素,例如在識別單純性氣胸和張力性氣胸方麵已經有很高的基線性能。需要進一步的工作來探索綜合標簽和訓練的好處,發現DCNN算法沒有執行得很好。一種假設是,由於這些發現可能更難識別,DCNN算法可能更多地依賴相關特征或“意外線索”,導致隱藏分層更糟糕。

結論

我們已經在回顧性分析中證明,在檢測臨床相關亞組的單純性和張力性氣胸時,經過全麵訓練的DCNN算法對隱藏分層具有彈性。需要進一步的外部驗證和前瞻性研究,以確定綜合訓練模型的好處是否可在其他環境中推廣。

數據可用性聲明

根據合理的要求提供數據。研究團隊可以將模型和放射科醫生的性能數據集和測試數據集提供給感興趣的研究夥伴,目的是支持研究社區,並為文獻做出進一步的合作貢獻。如欲查閱,可透過編年院提出申請。人工智能網站(https://annalise.ai/contact/).該模型作為商業軟件產品公開提供(https://annalise.ai/products/annalise-cxr/).免費的網上演示可於網上(https://cxrdemo.annalise.ai/).

倫理語句

病人同意發表

倫理批準

該項目獲得了澳大利亞聖母大學人類研究倫理委員會(2020-127S)的批準。所有數據在本研究中使用之前都是匿名的。

參考文獻

補充材料

  • 補充數據

    這個網絡僅文件已由BMJ出版集團從作者提供的電子文件生產(s),並沒有編輯的內容。

腳注

  • 貢獻者JS, CT, QDB, MRM, XH, HA, JL, NE, LO-R, PB和CMJ對工作的規劃,構思和設計,數據的解釋,手稿的修改,最終版本的批準做出了實質性的貢獻,並同意對工作的所有方麵負責。此外,作者JS、CT和XH對數據的采集和分析也做出了貢獻。JS是本次研究的擔保人。

  • 資金這項工作得到了Annalise.ai的支持。獎授予N / A。

  • 相互競爭的利益所有作者已審閱並批準了此手稿。作者JS, CT, QDB, MRM, XH, HA, JL, PB和CMJ是annalisi .ai的員工,或借調到annalisi .ai。NE和LO-R沒有利益需要申報。

  • 來源和同行評審不是委托;外部同行評議。

  • 補充材料本內容由作者提供。它沒有經過BMJ出版集團有限公司(BMJ)的審查,也可能沒有經過同行評審。討論的任何意見或建議僅僅是那些作者(s)和不被BMJ認可。BMJ放棄從放在內容上的任何依賴產生的所有責任和責任。如果內容包含任何翻譯材料,BMJ不保證翻譯的準確性和可靠性(包括但不限於當地法規、臨床指南、術語、藥品名稱和藥物劑量),並且不對翻譯和改編或其他原因引起的任何錯誤和/或遺漏負責。