條文本

原始研究
人工智能在醫療保健中的隨機對照試驗報告的質量:一項係統審查
  1. Rida沙赫紮德1
  2. Bushra阿尤布2
  3. 拉赫曼·西迪基3.
  1. 1眼科學係沙赫紮德眼科醫院卡拉奇、巴基斯坦
  2. 2臨床最佳實踐中心阿迦汗大學醫院卡拉奇、巴基斯坦
  3. 3.眼科學與視覺科學係阿迦汗大學醫院卡拉奇、巴基斯坦
  1. 對應到M A Rehman Siddiqui博士;rehman.siddiqui在}{gmail.com

摘要

目標本研究的目的是評估醫療保健領域人工智能(AI)隨機對照試驗(rct)報告的質量,對照試驗報告綜合標準-AI (consortium -AI)指南。

設計係統的回顧。

數據源我們搜索了PubMed和EMBASE數據庫中2015年1月至2021年12月的研究報告。

合格標準我們納入了使用人工智能作為幹預的英文rct。議定書、會議摘要、機器人研究和與醫學教育有關的研究被排除在外。

數據提取納入的研究使用consortium - ai檢查表(包括43個項目)進行評分,由兩名獨立評分員進行。結果製成表格,並報告描述性統計。

結果我們篩選了1501篇潛在的摘要,其中112篇全文文章進行了資格審查。共納入42項研究。參加者人數從22人到2352人不等。在所有的研究中,consortium - ai項目中隻有兩個項目被完全報道。五個項目在85%以上的研究中不適用。19%(8/42)的研究沒有報告超過50%(21/43)的consortium - ai清單項目。

結論人工智能rct報告的質量是次優的。由於現有rct的報告是可變的,在解釋一些研究的結果時應謹慎。

  • 統計與研究方法
  • 臨床試驗
  • 衛生信息學

數據可用性聲明

沒有相關數據。

http://creativecommons.org/licenses/by-nc/4.0/

這是一篇開放獲取的文章,按照創作共用署名非商業性(CC BY-NC 4.0)許可發布,該許可允許其他人以非商業性的方式發布、混編、改編、構建本作品,並以不同的條款授權他們的衍生作品,前提是原創作品被正確引用,給予適當的榮譽,任何更改都被注明,且使用是非商業性的。看到的:http://creativecommons.org/licenses/by-nc/4.0/

來自Altmetric.com的統計

請求的權限

如果您希望重用這篇文章的任何部分或全部,請使用下麵的鏈接,它將帶您訪問版權清除中心的RightsLink服務。您將能夠快速獲得價格和以多種不同方式重用內容的即時許可。

本研究的優勢和局限性

  • 該係統綜述根據試驗報告綜合標準-AI (consortium -AI)指南,評估了2015年至2021年各醫療領域人工智能(AI)幹預隨機試驗的報告,為未來的研究建立了基線。

  • 我們沒有分別分析2020年9月consortium - ai指南發布前後的出版物,因此無法評估指南發布後報告質量是否有任何變化。

  • 隻搜索了兩個數據庫,隻有英文出版物有資格列入。

簡介

人工智能(AI)在醫療領域的應用越來越多,深度學習受到了特別的重視。人工智能的醫療應用範圍包括篩查、診斷、預後和製定管理計劃。1 - 5例如,人工智能在眼科中被廣泛研究,用於治療各種疾病,如糖尿病視網膜病變,6年齡相關性黃斑變性7和青光眼。8然而,在缺乏可靠證據基礎的情況下,與人工智能相關的炒作可能會導致不適當的臨床決策,這可能對醫療保健有害。9

隨機對照試驗(rct)是臨床醫生在幹預決策中使用的最高質量的證據之一。10隨機對照試驗可能容易受到各種形式的偏差的影響。充分的隨機對照試驗報告對於讓讀者批判性地評估研究得出的結果和結論至關重要。11日12

試驗報告綜合標準(CONSORT)聲明於1996年引入,以建立指導方針以提高臨床試驗的報告質量。此外,CONSORT聲明是一個有用的指南,幫助讀者對rct進行批判性評估,以確定其可靠性和臨床適用性。13CONSORT聲明的最新更新於2010年發布,列出了25項最低報告要求。14CONSORT的一些擴展也存在,以滿足某些特定的研究設計。15—

由於計算能力的快速進步,近年來基於人工智能的醫療保健研究呈指數級增長。然而,方法的嚴謹性並沒有跟上技術的發展。例如,這些研究報告的設計和質量並不總是足夠的。19日20consortium -AI於2020年9月9日發布,作為CONSORT 2010聲明的延伸,用於評估涉及人工智能的rct。清單中增加了14個新項目,包括11個擴展項和3個細化項。21日22這些項目大多與人工智能幹預有關,是獨立評估和複製試驗所必需的。

本研究的目的是評估2015年至2021年發表的基於consortium -AI指南的AI幹預醫療條件rct報告的質量。雖然在這段時間內,consortium - ai並不存在,但本研究將作為報告質量的基線衡量標準,用於與未來研究遵守consortium - ai指南的情況進行比較。

方法

搜索策略

我們對2015年1月至2021年12月發表的人工智能醫療條件rct進行了係統綜述。搜索日期範圍最初設定為任意5年,從2015年到2020年;後來,文獻搜索被更新,包括2021年12月之前的出版物。醫療保健領域的人工智能隨機對照試驗是一個新興領域,我們預計在2015年之前,醫療保健領域的人工智能隨機對照試驗非常少。我們搜索PubMed和EMBASE數據庫尋找潛在的研究。PubMed搜索使用了MeSH術語:“人工智能”、“機器學習”和“深度學習”。EMBASE搜索了“人工智能”、“深度學習”和“機器學習”等詞彙。在這兩個數據庫中,搜索僅限於2015年至2021年的英語出版物rct和人類主題(在線補充附錄1).

篩選和研究選擇

兩名獨立調查人員(RS和BA)對這些記錄進行了篩選,以確定是否可能納入。進一步評估了使用AI、深度學習和機器學習的rct的摘要,以確定是否可能納入。協議、會議摘要、機器人研究和隨機對照試驗的事後分析被排除在外。

然後篩選所有入圍摘要的全文文章的資格。如果人工智能被用作一種醫療條件的幹預手段,如果研究中有一個比較對照組,如果有隨機化的證據,則納入出版物。如果有異議,資深審稿人會對全文進行評估,並以一致意見解決異議。排除標準為非隨機研究、二次研究、事後分析,或調查的幹預不是人工智能。此外,如果目標條件不是醫學疾病,或如果研究與醫學教育有關,則該研究被排除在外。

根據consortium - ai指導進行評估

consortium - ai的43個項目清單(在線補充表1)用於對納入的研究進行分級。每個項目都被完全、部分或不報告打分。如果一個項目與某項研究無關,它就會被標記為“不適用”。每個出版物都由兩位訓練有素的評分員(RS和BA)獨立評分。與資深審稿人(MARS)討論差異,以達成共識。

將所有報告的項目作為分子,適用項目的總數作為分母,將結果製成表格。報告研究人群和臨床特征的描述性統計。與最初審查協議的唯一偏差是將搜索延長至2021年12月,以保持審查的最新進展。

患者和公眾的參與

一個也沒有。

結果

研究選擇

最初的搜索確定了1501條潛在記錄。在篩選摘要後,有112篇文章被認為可能符合條件。在對全文手稿進行審查後,係統審查共納入42份手稿(圖1).

圖1

係統評審和元分析的首選報告項目流程圖。人工智能,人工智能;隨機對照試驗。

一般特征

納入的研究(在線補充表2)為2016年至2021年(圖2).參加者人數從22人到2352人不等。它們涉及不同的醫療領域,包括消化病學(12個)、醫學(6個)、心髒病學(5個)、精神病學(4個)、眼科(2個)、內分泌學(2個)、兒科(2個)、腫瘤學(2個)、骨科(2個)、外科(1個)、放射科(1個)、神經病學(1個)、肺髒學(1個)和牙科(1個)。研究來自世界各地,包括中國(n=16)、美國(n=14)、日本(n=3)、英國(n=2)、西班牙(n=2)、荷蘭(n=1)、德國(n=1)、韓國(n=1)、丹麥(n=1)和以色列(n=1)。(圖3)

圖2

人工智能隨機對照試驗的年度分布。人工智能,人工智能;隨機對照試驗。

圖3

不同國家和專業的人工智能隨機對照試驗的百分比。人工智能,人工智能;隨機對照試驗。

遵守報告標準

在納入的研究中,完全報告的consortium - ai檢查項的中位數為30(範圍7-37),可能總共有43項。總的來說,在可能的43個項目中,隻有2個(項目#1b和21)在所有42項研究中得到充分報道。5個項目(項目#3b, 6b, 7b, 14b和17b)被認為在超過85%的納入研究中不適用。報告最少的兩個項目是項目#5iii(在36/42項研究中未報道)和項目#24(在31/42項研究中未報道)。19%(8/42)納入的研究沒有報告超過50%(21/43)的consortium - ai清單項目。每個項目的報告都在表1

表1

入選研究的consortium - ai評分

討論

在我們的綜述中,觀察了醫療保健領域人工智能隨機對照試驗的可變報告標準。雖然有些項目得到了充分的報告——例如,那些與手稿的摘要和介紹有關的項目——但其他項目,特別是方法部分的項目,報告分數很低。

我們的研究結果加強了之前發表的研究結果。在劉先生進行的係統回顧中在納入的82項深度學習研究中,隻有不到三分之一的研究進行了充分的報告和外部驗證,從而限製了它們的可靠性。23同樣,Nagendran還發現了報告標準的偏差,在個人預後或診斷多變量預測模型(TRIPOD)指南的透明報告中,隻有不到50%的人遵守12/29項,人工智能研究的偏倚水平很高。20.Bozkurt報道稱,在從電子健康記錄開發機器學習(ML)模型的研究中,研究人群的人口學細節報告很少,88%的模型忽略了外部驗證。24在另一篇關於醫療診斷機器學習模型的28篇文章的係統綜述中,Yusuf發現係統綜述中的所有研究都沒有遵循報告指南。25我們的研究還揭示了在醫療保健人工智能rct中consortium -AI項目的可變報告,這表明人工智能研究仍有進一步提高其報告質量的空間。

製定財團-人工智能檢查清單是為了鼓勵透明地報告人工智能領域的rct。對最初的CONSORT指南的擴展和細化很大程度上強調了與人工智能幹預本身及其臨床應用相關的特殊性。這些包括幹預措施的細節,如算法版本、輸入和輸出數據、幹預措施如何融入試驗以及是否存在人類和人工智能的交互。這些信息對於一項研究的關鍵評估和促進臨床試驗的複製是至關重要的。23這些項目在我們的研究中有不同的報告得分(項目4a到5vi)。42項研究中有27項(64%)沒有提及使用的人工智能算法版本。這可能會讓讀者在將研究結果應用到哪個版本時感到困惑,因為人工智能算法可能會經曆多次更新。21此外,大多數納入的研究大都遺漏了有關輸入數據的信息;隻有35%(15/42)的研究確定了輸入數據層麵的納入和排除標準,隻有14%(6/42)的研究報告了如何處理和評估質量差或不可用的輸入數據。這些細節非常重要,因為任何給定AI幹預的整體性能都依賴於輸入數據的質量。此外,這些信息還能讓評估者區分隻在理想條件下工作的AI平台和可應用於現實環境的AI平台。26日27日

另一方麵,大多數研究(分別為37和41/42)充分報道了與人工智能交互、所需專業水平以及人工智能輸出相關的項目。明確人機交互界麵對於確保標準方法和功能安全性至關重要,同時也避免倫理影響。28 29例如,有資格的專家能夠解釋AI界麵顯示的動態複雜變量,這些變量與患者和臨床環境相關,這是至關重要的——隻有這樣,AI平台才有可能改善臨床醫生的決策過程。30.令人鼓舞的是,大多數作者清楚地報告了這些項目。

有趣的是,盡管缺少關於人工智能幹預細節的重要信息,但42/42的研究都有望在臨床環境中推廣其發現。AI係統的可泛化性可能是有限的,特別是在開發環境之外的現實環境中使用時。31日32因此,在評估這類研究時必須謹慎。

然而,關於consortium - ai需要考慮的一個重要因素是每個項目對臨床試驗的適用性。在大多數評估的研究中,consortium - ai檢查表中的五個項目被認為是不適用的。其中三個項目涉及試驗開始後對方法和結果的改變,以及試驗結束的原因(項目3b、6b和14b)。這些項目涉及議定書中所作的修改,但大多數納入的研究都不是這樣。

另一個不適用於大多數納入研究的項目是對任何臨時分析和停止指南的解釋。由於人工智能在醫療保健領域是一個相對較新的進步,人工智能的危害和不良事件尚未明確定義。也許這就是42項納入研究中有40項沒有報告停止指南的原因。這與項目19密切相關:該項目要求報告人工智能試驗中的不良事件,並描述性能錯誤的分析。人工智能平台可能會出現難以預測、超出人類判斷的錯誤,但如果大規模使用,可能會產生有害影響。31隻有4/42項研究充分報告了這一項目,盡管報告有關錯誤的信息和概述降低風險的戰略非常重要,以確定人工智能幹預可以安全應用於哪些環境和人群。21這些觀點強調,醫療保健領域的人工智能臨床試驗尚未整合與人工智能幹預相關的傷害概念,以確定適當的停止指南。

我們對納入的隨機對照試驗提出了一些一般性意見。這些研究的樣本量範圍很大(22-2352)。如此廣泛的範圍表明,在人工智能的隨機對照試驗中沒有采用標準的樣本量計算方法。例如,在采用樣本量估計的情況下,醫護人員的診斷準確性往往被設定為高於AI,這就假設了AI不如人類。33建議使用非劣性設計進行樣本量計算,設置一個更合適的非劣性裕度(診斷準確性,例如5%)。34同樣,大多數研究都是在中國進行的,並且集中在消化病學方麵,這使得它們在其他領域甚至世界其他地區的代表性較小。

我們的回顧有一些局限性。潛在的符合條件的研究可能在納入過程中被遺漏,因為隻搜索了兩個數據庫,而且隻有英文出版物有資格納入。大多數納入的研究是在consortium - ai清單廣泛可用之前發表的。因此,大多數研究作者將無法使用指導來通知他們的報告。此外,在consortium - ai指南發布前後的試驗報告沒有單獨分析,因此我們無法評估指南發布後報告質量是否有任何改善。

綜上所述,AI rct的報告標準是不同的。我們發現,關於人工智能幹預的某些重要信息在許多研究中沒有得到充分報道。因此,醫療保健服務提供者和決策者在使用這些研究為決策提供信息時應保持謹慎。

數據可用性聲明

沒有相關數據。

倫理語句

病人同意發表

倫理批準

不適用。

參考文獻

補充材料

腳注

  • 推特@RehmanSiddiqui

  • 貢獻者這項研究的想法是由MARS公司構想和計劃的。RS和BA進行了包括摘要篩選和全文審查在內的文獻審查過程,MARS則擔任高級審稿人。RS和BA使用consortium - ai檢查表對納入的研究進行獨立評分,分歧在與MARS討論後解決。手稿由RS和BA編寫,MARS審核。所有作者審閱並批準了最終稿件。MARS是這項研究的擔保人。

  • 資金作者們還沒有從任何公共、商業或非營利部門的資助機構為這項研究宣布具體的資助。

  • 相互競爭的利益沒有宣布。

  • 患者和公眾的參與患者和/或公眾未參與本研究的設計、實施、報告或傳播計劃。

  • 來源和同行評審不是委托;外部同行評議。

  • 補充材料本內容由作者提供。它沒有經過BMJ出版集團有限公司(BMJ)的審查,也可能沒有經過同行評審。討論的任何意見或建議僅僅是那些作者(s)和不被BMJ認可。BMJ放棄從放在內容上的任何依賴產生的所有責任和責任。如果內容包含任何翻譯材料,BMJ不保證翻譯的準確性和可靠性(包括但不限於當地法規、臨床指南、術語、藥品名稱和藥物劑量),並且不對翻譯和改編或其他原因引起的任何錯誤和/或遺漏負責。