條文本
摘要
簡介雖然有報告觀察性研究的指南(例如,加強流行病學中觀察性研究的報告,報告使用觀察性常規收集的健康數據聲明進行的研究),但估計觀察性數據和隨機實驗的因果效應(例如,報告隨機試驗和觀察性研究的調解分析指南,報告試驗的綜合標準,PATH)和預測模型(例如,個體預後或診斷的多變量預測模型的透明報告),沒有一個是專門用於從觀察數據中推導和驗證模型,以基於給定(或推斷)的因果結構,預測個體在一種或多種可能幹預措施上的反事實。本文描述了用於製定因果和反事實預測模型(PRECOG)報告指南的方法和流程。
方法與分析PRECOG將根據“提高衛生研究質量和透明度”(EQUATOR)網絡發布的指導方針製定,分為五個階段。第一階段將是每隔一周召開一次工作組會議,由外部顧問輪流擔任(一直持續到第五階段)。第二階段將包括對生物醫學科學反事實預測模型的文獻進行係統評審(在係統評審前瞻性登記冊中注冊)。在第三階段,將進行基於計算機的實時德爾菲調查,以鞏固PRECOG檢查表,涉及因果推斷、流行病學、統計學、機器學習、信息學和協議/標準方麵的專家。第四階段將根據前幾個階段的結果編寫PRECOG指南。第五階段將尋求指南的同行評議出版、範圍/係統審查和傳播。
倫理與傳播這項研究將遵循《赫爾辛基宣言》的原則。該研究已在EQUATOR注冊,並獲得佛羅裏達大學機構審查委員會(#202200495)的批準。將獲得工作組和德爾菲調查參與者的知情同意。PRECOG及其產品的傳播將通過期刊出版物、會議、網站和社交媒體進行。
- 衛生信息學
- 協議和指南
- 信息技術
這是一篇開放獲取的文章,根據創作共用署名非商業(CC BY-NC 4.0)許可證發布,該許可證允許其他人以非商業方式分發、混音、改編、在此基礎上進行構建,並以不同的條款許可其衍生作品,前提是正確引用原始作品,給予適當的榮譽,任何更改都已注明,並且使用是非商業性的。看到的:http://creativecommons.org/licenses/by-nc/4.0/.
數據來自Altmetric.com
本研究的優勢和局限性
數據學習預測模型的報告沒有指導方針,這些模型具有計算替代方案(反事實)和確定幹預措施的個性化效果的具體意圖。
《反事實預測指南》(PRECOG)將填補反事實預測建模報告標準的空白,並將利用“提高衛生研究質量和透明度”網絡的係統化和高質量。
PRECOG將建立在多個發展階段的多樣化(臨床研究人員、計算機科學家、流行病學家、統計學家)專業共識的基礎上。
即使有嚴格的研究設計、執行和報告標準,在觀察數據分析上做出的因果聲明仍然可能因錯誤的假設或未測量的隱藏偏見而錯誤。
簡介
大型電子健康記錄數據的日益可用性導致了預測模型(包括傳統統計和機器學習)的爆炸式發展,用於診斷、預後和治療優化目的。盡管有報告指南,例如“個體預後或診斷的多變量預測模型的透明報告”(TRIPOD),1許多研究的質量較低,以及對報告標準的遵守程度較低,並且經常對模型的操作能力存在誤解,可能在個人和/或人群水平上出現誤用和傷害。2 3這是最常見的錯誤之一4 5是考慮一種預測模型,通過改變某些變量來改善結果,即計算替代方案或所謂的反事實,可以很容易地對個人進行幹預。由於預測模型通常是從觀察數據中學習的,因此不能保證最強的預測因素正在導致感興趣的結果,並且不被其他因素混淆、調解或實際伴隨的原因。雖然這種偏差對於僅僅在相似人群中進行預測不是問題——因為變量並沒有被改變以改變風險——但在新的分布外人群中就會出現問題(即使交叉驗證性能很高)。6當試圖優化結果時。7
因此,在針對觀測數據開發用於替代情景和幹預的預測模型時,需要進行正式的因果評估,即反事實預測模型。傳統統計學、計算科學和計量經濟學的方法,包括潛在結果框架,8微積分和有向無環圖,9通常側重於估計單個介入性查詢(治療或暴露)的人群水平因果效應,但可用於計算個性化治療效果和反事實。10 - 15機器學習也被用於反事實預測。16日17一些現成的方法論已經被重新審視,包括深度學習18 - 20還有隨機森林。21
鑒於反事實預測建模研究的興起,有必要在模型報告方麵達成共識,以提高整體質量(盡管遵守協議可能是必要的,但不是研究質量的充分條件),特別是在結果的透明度和可重複性方麵。
在“提高衛生研究的質量和透明度”(EQUATOR)網絡(https://www.equator-network.org/),有專門設計用於報告隨機臨床試驗(rct)因果效應的指南,例如“報告試驗的綜合標準”。22以及“報告隨機試驗和觀察性研究的調解分析指南”。23觀察性研究的報告指南也提到了因果效應推斷,例如,“使用孟德爾隨機化加強流行病學觀察性研究的報告”,24使用觀察性常規收集的藥物流行病學健康數據聲明進行的研究報告25以及“比較安全性和有效性研究中的工具變量方法”。26除EQUATOR外,以病人為中心的結果研究所(PCORI) (https://www.pcori.org/)提供了“以患者為中心的結果研究中觀察和實驗研究數據分析中的因果推理方法標準”。27此外,在實用的隨機試驗中,也有評估因果效應的指導方針。28值得注意的是“治療效果異質性的預測方法”(PATH)聲明,29該研究雖然側重於隨機對照試驗,但通過考慮風險或協變量作為效果修正因子來檢驗治療效果的異質性,兩種策略都旨在指導治療決策。PATH為特定的多變量回歸配置提供了指導,並警告了可能導致過擬合的更“激進”的方法(例如,具有許多df的機器學習模型)。總體而言,現有指南不太適合觀察性生物醫學數據(或隨機對照試驗和觀察性混合)的因果和反事實預測建模,盡管其中一些指南包含直接相關的元素。
因此,我們的目標是製定一個新的報告準則,我們暫時將其命名為precog -“反事實預測準則”的首字母縮寫。PRECOG的主要重點是為如何報告因果假設以及評估模型的推導/驗證提供指導,至少涉及一個觀察數據源,以潛在結果的形式提供個性化治療/幹預效果的預測。一方麵,這些模型的開發可以遵循PATH中的風險和效果建模方法,但它的目的是更通用,允許任何功能形式和數據生成過程。另一方麵,這些模型的驗證標準屬於TRIPOD範圍,但它也評估它們在診斷和預後之外如何適合於優化(例如,治療決策,風險降低),信任由因果聲明支持的反事實。PRECOG還將為軟件實施和互操作性提供指導。作為一種質量評估工具,PRECOG可以幫助研究人員(以及普通讀者、同行評議者、期刊編輯)以及政策製定者開展並批判性地評估因果和反事實預測建模研究。我們預計該指南將進一步擴大到具體領域,例如藥物幹預。PRECOG的主要使用案例預計將落在生物醫學科學領域,但它們也可以應用於心理學或經濟學等其他領域。
方法與分析
PRECOG將根據EQUATOR網絡發布的指南進行開發。30.我們將分五個階段製定該指引,如下所示圖1:(1)每隔一周召開一次工作組會議;(2)因果和反事實預測模型研究的範圍/係統回顧;(3)報告清單起草和實時德爾菲練習;(4)最終指南的製定;(5)同行評審、出版和傳播。這些階段來自於先前成功的開發研究,主要用於製作tripod -人工智能(AI)和預測模型風險偏差評估工具(PROBAST)-AI的協議。311 - 4期的預期時間為1年,1 - 2期為6-9個月,3-4期為3-6個月。
第一階段:工作組成立和會議
核心工作組由本方案描述的共同作者組成,自2021年9月13日起每隔一周(30-45分鍾)召開一次會議,討論方案本身的製定,為機構審查委員會準備文件,向EQUATOR注冊,並最終在方案描述獲得批準和發布後進行PRECOG製定。
然後,工作組將由具有生物醫學信息學、(生物)統計學、因果推斷、計算機科學、流行病學、衛生經濟學、健康結果研究、標準和相關領域專業知識的外部顧問來擴大。核心工作組的每個成員都將確定一名或多名合適的外部顧問,這些顧問將被邀請參加會議,並被提示建議更多的顧問,總共可能達到10-15名專家。顧問名單也將用於第三階段(實時德爾菲練習)。擴大後的工作組將盡最大努力確保職業階段、地域、性別、種族和多元文化代表的多樣性。擴大的工作組也將每隔一周開會一次,每次會議理想情況下由3-7人組成,輪流參加,至少有一名外部顧問在場(否則將重新安排)。單一會議參與者的輪換和人數限製是基於我們之前在定性研究方麵的經驗,特別是焦點小組,其中緊湊的規模和多樣化的專業知識有助於更好地達到數據飽和。32 33工作組將開展以下工作:(1)審查現有的與預測建模和治療效果估計有關的EQUATOR/PCORI報告指南;(2)評估已發表的生物醫學科學反事實預測模型研究的範圍綜述,並開發新的係統綜述;(3)起草德爾菲調查初始報告清單;(四)審查調查結果,製定最終指南;(5)撰寫稿件;(6)提交同行評審、出版和傳播。
第二階段:反事實預測模型研究的文獻綜述
文獻綜述的目的有兩個:(1)在生物醫學科學的因果推斷和反事實預測研究中建立研究設計、方法學方法、用例和報告共性的知識庫;(2)幫助PRECOG製定報告項目。工作組的一部分成員將集中進行審查工作。林等34發表了一篇關於假設幹預下預測因果方法的範圍綜述,篩選了近5000篇論文,重點關注13篇關鍵文章,包括傳統統計和機器學習建模。大多數工作采用邊緣結構模型和g計算。作者總結說,“驗證因果預測模型的技術仍處於起步階段”。基於範圍審查的結果,並擴展搜索策略和文章來源,團隊將繼續進行係統審查。綜述將提供方法論、綜述和應用論文的計數,但隨後將重點關注至少包括一個觀測數據源和一個應用用例的工作,進一步深化驗證策略。計劃選擇的報告報表是“係統評價和元分析的首選報告項目”,35工作組將把工作登記在“係統評價的前瞻性登記冊”中。36
作為綜述的一部分,我們預計將討論如何評估潛在的偏倚風險(可能導致濫用和患者傷害),以及當前的“PROBAST”等工具是否合適。37
階段3:實時德爾菲練習
我們將進行實時德爾菲調查38審查和完善PRECOG報告清單中的項目。首先通過核心工作組和外部顧問的專業網絡確定參與者,然後通過文獻檢索(包括但不限於現有的範圍審查和計劃中的係統審查)、社交媒體篩選和積極參與者的滾雪球式篩選來進一步確定參與者。至於擴大後的工作小組組成,將邀請來自不同和多元文化背景和不同國家的參與者。受邀者將包括不同職業階段的學者,來自非營利和營利性組織的研究人員和調查人員,來自國家/聯邦資助機構的項目官員,企業家,醫療保健專業人員,期刊編輯,決策者,醫療保健監管機構和預測模型的最終用戶。參與者的選擇將基於領域專業知識分組(計算機科學、生物統計學、生物醫學信息學、統計學、流行病學、標準、因果推理、倫理學),用於確定樣本量(下文將討論)。我們選擇了基於計算機的實時Delphi,38因為它提供了一些操作優勢,相對於傳統的多輪德爾菲技術,例如,響應者的損耗。39簡而言之,實時Delphi是一個基於在線調查平台的“無圓”練習。參與者可以在調查時間範圍內的任何時間訪問和修改他們的回答,並可以查看在所有應答者中計算的調查摘要。通過這種方式,參與者可以看到他們的觀點是否不受歡迎,並添加進一步的評論來支持他們的觀點。
工作組將根據EQUATOR製定的標準和現有的相關指南/聲明,為PRECOG製定初步報告清單。我們預計,PRECOG將大量借鑒TRIPOD的報告項目以及適宜衛生技術方案的建議;然而,我們期待的是重大差異,而不是簡單的合並。例如,TRIPOD中建議的性能評估應該進行修改,以包括特定的指標,如異構效應的精度估計,40並強調分布外驗證。另一個重要方麵是因果假設。PATH依賴於隨機對照試驗,其中隨機化支持治療分配的強可忽略性,而PRECOG模型可能完全建立在觀察數據(或觀察數據和隨機對照試驗數據的混合)之上,需要提供因果聲明的理由。
將創建一個匿名在線調查,使用李克特五分製評估每個清單項目的重要性和與指南的相關性,並提供一個免費的文本框供評論。此外,在調查結束時,另一個文本框將允許更通用的評論和主張,例如,將新項目添加到檢查表中。當參與者第一次同意參與並完成調查時,他們可以查看迄今為止所有回複的摘要,並可以在未來6周內再次訪問調查。在達到要求的樣本量後,調查結束,或者從上次記錄的第一次回應開始,最多過了6周。
德爾菲專家小組的樣本量尚未達成共識,但建議每個專業領域至少有10-18名專家小組成員。41考慮到上述背景專業領域,我們的目標是達到60個最低樣本量,編製80-100個潛在參與者的招聘名單。在德爾菲調查結束時,擴大的工作組將通過協商一致會議審查結果並鞏固清單。工作組還將決定協商一致規則。一般來說,對於李克特五分製的項目,共識規則是80%,42但在相鄰項目的分組或加權方麵可能存在差異。43比如諾頓等44從1(最重要)到5(最不重要)量化李克特分,當至少80%的應答者給出1 - 3分時,定義總分中位數為2.5或更低的項目的共識。最近的研究提出了基於熵的共識。45
第四階段:製定指南和相關產品
在德爾菲演習的報告清單完成後,擴大工作組將製定完整的PRECOG指南。手稿將被發布到公共預印本網站,例如bioRxiv或medRxiv,然後提交給同行評審期刊,並可能在重大國際會議上作為摘要/海報展示,例如,美國醫學信息協會或流行病學研究學會的年會。預計PRECOG倡議將至少產生以下文件:
指南開發協議(此工作)。
生物醫學科學中因果和反事實預測模型的係統綜述。
PRECOG指南。
第五階段:出版和傳播計劃
在預印本服務器上發布後,上述手稿將提交給同行評議的國際期刊進行最終出版。作者名單將根據有效的個人貢獻,遵循“貢獻者角色分類法”(CRediT) (https://casrai.org/credit/),並可能包括除工作小組成員和外部顧問以外的其他貢獻者。傳播戰略將在工作組會議期間討論。除了會議和出版物之外,Twitter等社交媒體平台很可能會被用來告知PRECOG的可用性和實用性。
患者和公眾參與
本研究不包括患者。然而,根據定義,工作組的參與者將參與德爾菲調查的設計、評估和PRECOG指南的最終確定(包括論文的作者身份)。德爾菲調查的參與者不僅可以提供項目的評估,還可以在調查開放的時間內提出新的項目並重新評估項目。
倫理語句
患者發表同意書
致謝
我們感謝TRIPOD的共同作者G Collins博士(U Oxford, UK)、KG Moons博士(UMC Utrecht, NL)和N Peek博士(U Manchester, UK)表示有興趣加入PRECOG工作組。
參考文獻
腳注
貢獻者JX編寫並提交了協議描述。YG對報告標準進行了初步的文獻回顧。FW和HX對反事實預測模型進行了初步的文獻綜述。RL在協議程序和倫理審查方麵提供建議。JB和MP想出了這個主意。
資金這項工作部分得到了美國國立衛生研究院(NIH)-國家過敏和傳染病研究所(NIAID)的資助。R01AI145552和R01AI141810 (MP),由國家老齡化研究所(NIA)批準。R33AG062884-03 (RL和MP)和5R21AG068717-02 (JB和YG),由美國國家癌症研究所(NCI)批準。5R01CA246418-02, 3R01CA246418-02S1, 1R21CA245858-01A1, 3R21CA245858- 01A1S1和1R21CA253394-01A1 (JB和YG),由疾病控製和預防中心(CDC)批準編號。U18DP006512 (JB, YG和MP),由佛羅裏達大學信息學研究所種子資助。
相互競爭的利益沒有宣布。
患者和公眾參與患者和/或公眾沒有參與本研究的設計、實施、報告或傳播計劃。
出處和同行評審不是委托;外部同行評審。