條文本

協議
在英國四個國家驗證QCOVID算法的通用協議
  1. 史蒂文·克爾1,
  2. 克裏斯·羅伯遜2,
  3. Vahe Nafilyan3.,
  4. 羅南·裏昂4,
  5. 弗蘭克·凱5,
  6. 克裏斯托弗·R·卡德威爾6,
  7. 卡羅爾·科普蘭7,
  8. 簡裏昂8,
  9. 本Humberstone9,
  10. 茱莉亞Hippisley-Cox10,
  11. 阿齊茲酋長1
  1. 1開創學院,愛丁堡大學,愛丁堡、英國
  2. 2數學與統計學係,斯特拉斯克萊德大學,格拉斯哥、英國
  3. 3.國家統計局,紐波特、英國
  4. 4斯旺西臨床學校,威爾士斯旺西大學,斯旺西、英國
  5. 5英國兒童權利委員會公共衛生卓越中心,貝爾法斯特女王大學,貝爾法斯特、英國
  6. 6醫學、牙科和生物醫學學院,貝爾法斯特女王大學,貝爾法斯特、英國
  7. 7初級保健科,諾丁漢大學,諾丁漢、英國
  8. 8人口數據科學,斯旺西大學醫學院,斯旺西、英國
  9. 9國家統計局,倫敦、英國
  10. 10納菲爾德初級保健科學係,牛津大學,牛津大學、英國
  1. 對應到Steven Kerr博士;steven.kerr在{}ed.ac.uk

摘要

介紹QCOVID算法是SARS-CoV-2感染和隨後住院/死亡的風險預測工具。在撰寫本文時,英國和地方政府正在將其用於應對COVID-19大流行的重要決策,包括對屏蔽和疫苗優先級的審議。目前計劃對QCOVID算法進行四次統計驗證,分別使用與英格蘭、北愛爾蘭、蘇格蘭和威爾士有關的數據。本文提出了一種用於執行和報告QCOVID算法驗證練習的通用程序。

方法與分析我們將使用開放的回顧性隊列研究來評估QCOVID風險預測工具在英國四個國家中的表現。包括初級和二級保健記錄、病毒學檢測數據和死亡登記的關聯數據集將在英格蘭、蘇格蘭、北愛爾蘭和威爾士可信的研究環境中組裝。我們將爭取在每個國家內盡可能實現人口水平的覆蓋。以下性能指標將按層計算:Harrell 's C, Brier Score, R2和羅伊斯頓的D。

道德與傳播已獲得每個英國國家相關倫理機構的批準。研究結果將提供給國家決策者,在會議上展示,並在同行評議的期刊上發表。

  • 新型冠狀病毒肺炎
  • 流行病學
  • 公共衛生
https://creativecommons.org/licenses/by/4.0/

這是一篇根據知識共享署名4.0 (CC BY 4.0)許可發布的開放獲取文章,該許可允許其他人出於任何目的複製、再發布、再混合、轉換和構建此作品,前提是正確引用原始作品,提供許可鏈接,並指出是否進行了更改。看到的:https://creativecommons.org/licenses/by/4.0/

來自Altmetric.com的統計數據

請求的權限

如果您希望重用這篇文章的任何或全部,請使用下麵的鏈接,這將帶您到版權清算中心的RightsLink服務。您將能夠得到一個快速的價格和即時許可,以許多不同的方式重用的內容。

本研究的優勢和局限性

  • 我們將使用英國每個國家的國家級數據。

  • 數據缺失和每個國家記錄數據的方式存在差異可能會帶來問題。

  • 我們將根據幾個相關指標來評估算法的性能。

介紹

QCOVID算法1已開發用於幫助識別感染SARS-CoV-2後住院或死亡的高風險成年人。該算法將年齡、性別、種族、湯森剝奪分數(TDS)等共40個變量作為輸入。2住房類別,以及包括身體質量指數(BMI)和33個與醫療條件和治療相關的變量在內的臨床信息。它輸出一個人在90天內感染SARS-CoV-2然後住院的預測概率,以及一個人感染SARS-CoV-2然後死亡的預測概率。該算法是使用QResearch數據庫中的信息進行訓練的,3.截至2020年4月,該數據庫包含了從英格蘭1205家全科診所例行收集的數據,涵蓋了1050萬名患者。初始訓練數據集由2020年1月24日至2020年4月30日期間跟蹤的608萬人組成,並在2020年5月1日至2020年6月30日期間跟蹤的217萬人的子集上進行了驗證。開發QCOVID算法的研究協議可在Hippisley-Cox中找到4

QCOVID算法是由英格蘭首席醫療官代表英國政府委托開發的。該算法已被用於為英國和地方政府抗擊SARS-CoV-2大流行的政策提供信息,包括關於社交距離和屏蔽措施的指導,以及疫苗的優先順序。5因此,在英國的亞種群中驗證算法的預測是非常重要的,這些亞種群不在初始訓練集中,但可能會受到這些政策的影響。

在撰寫本文時,蘇格蘭、北愛爾蘭和威爾士計劃進行驗證演習,英格蘭正在進行驗證演習。確認工作被認為是緊急的,並已加快,以支持國家決策。為了便於對不同驗證工作的結果進行有用的比較,有必要建立一套一致的程序。本文的目的是闡明在英國四個國家驗證QCOVID算法的通用方法。

方法與分析

研究設計

將采用開放的回顧性隊列研究設計,利用常規收集的臨床和人口統計信息的一般做法數據,以及關於住院、COVID-19反轉錄PCR檢測和登記死亡的相關數據集。我們的目標是在英國的四個國家中盡可能地覆蓋全國。

數據源

箱1包含將用於每個國家驗證工作的主要數據集的簡要摘要。

箱1

要使用的主要數據集

英格蘭:

國家統計局(ONS)公共衛生相關數據資產。該數據集基於2011年英格蘭人口普查,覆蓋了4010萬人,在個人層麵上使用國家衛生服務(NHS)號碼與死亡率記錄、醫院事件統計和一般實踐提取服務數據聯係起來,用於流行病規劃和研究。該數據涵蓋了英格蘭80%的19歲及以上人口。

北愛爾蘭:

國家保健應用和基礎設施服務將用於人口統計信息。病人管理係統將用於醫院入院數據。死亡數據將從總登記處提取,並通過北愛爾蘭統計和研究機構的官方儀表板確定為與COVID-19相關。全科醫生信息平台將把北愛爾蘭的全科醫生(GP)記錄彙集到一個單一的數據集中,用於驗證。由於在誠實經紀人服務中沒有這樣做,因此正在向其治理委員會提出單獨的請求。電子處方數據庫將用於獲取處方信息。

蘇格蘭:

EAVE II (COVID-19大流行早期評估和加強監測)數據集。9包含涵蓋蘇格蘭99%人口的540萬人的初級保健記錄,與蘇格蘭發病率記錄的二級保健數據、蘇格蘭電子監測通信的COVID-19檢測結果和蘇格蘭國家記錄的死亡率數據相關聯。

威爾士:

安全匿名信息聯動係統。8這將使用控製COVID-19平台,將來自NHS人口脊柱的320萬人的記錄與醫院(威爾士患者事件數據庫)、威爾士縱向全科醫生記錄、實驗室信息管理係統的COVID-19檢測結果以及國家統計局的死亡率和2011年人口普查數據聯係起來。10

選擇標準

在相關的關聯數據集中,年齡在19歲到100歲之間的任何個人都將被包括在內。在第一期(2020年1月24日至2020年4月30日)發生事件(住院或死亡)的個人將被排除在第二期(2020年5月1日至2020年6月30日)的任何分析之外。

選擇這些時間段是為了反映原始QCOVID論文中的時間段。在英國於2020年12月8日啟動疫苗接種計劃後,QCOVID 2和3的工作已經開始,這將考慮到疫苗接種狀況。未來的驗證工作將集中在最近的QCOVID 2和3上。

暴露和結果

表1和表2分別列出QCOVID算法的所有暴露和結果變量,以及描述、變量類型(如整數、實數、分類)和可能的值。

表1

QCOVID算法中的暴露變量

表2

QCOVID算法的結果變量

所有變量都將作為進入隊列之日相關數據集中的最新記錄值。TDS將通過將現有的住宅位置信息與產出麵積和2011年英國人口普查中相應的TDS進行匹配來確定。6中的查找表來確定變量chemocat的類別在線補充材料

數據清理

數據清理將使用以下程序:

  • diabetes_cat:如果最近的條目同時記錄了類型1和類型2,那麼diabetes_cat將被設置為類型2。

  • BMI:最近5年內記錄的患者BMI。如果最近記錄的BMI是在搜索日期的5年以上,BMI將被設置為缺失值。不合理的BMI值(<12或bbb70)將被設置為缺失值。

  • learncat:如果有記錄的患者同時患有學習障礙和唐氏綜合症,learncat將被設置為唐氏綜合症。

缺失的數據

對於合並症和藥物使用和治療,缺失值將被視為缺乏該因素。模態替換將被考慮用於種族缺失值。對於預測變量的任何其他缺失值,將考慮單個輸入。結果變量不會被估算,也不會被作為預測因子納入估算。可考慮使用下列方法:預測均值匹配、最小二乘、邏輯模型和多項模型、鏈式方程的插值。

統計分析

每個驗證練習將報告一個隊列特征表,如下克裏夫中的表2所示1計算的主要性能指標是R2,6哈勒爾是C,羅伊斯頓是D7和布裏爾樂譜。將考慮這些統計數據的不同分層,包括按年齡、性別和時間段劃分。95% ci將報告給R2, Harrell 's C和Royston 's D.分層亞組中觀察到的和預測的住院和死亡概率的圖表將在clelift之後報道1

樣本大小

初步的樣本量計算可以使用原始論文中的數字來完成。1使用女性在第一個時間段的Harrell’s C的估計SD,並假設Harrell’s C是漸近正態分布,這意味著大約5714的樣本量足以在顯著性水平0.05下正確拒絕C=0.5的零假設,在C=0.8的真實值下,概率為80%。對其他人口子組和時間段重複此計算會得到類似的結果。計劃研究的樣本量將達到數十萬或數百萬。

道德、報道和傳播

英國東米德蘭茲-德比研究倫理委員會(參考文獻18/EM/0400)批準了QCOVID的開發和驗證。在蘇格蘭,已獲得國家研究倫理服務委員會(REC)、東南蘇格蘭02 (REC編號:12/SS/0201)以及衛生和社會保健公共利益和隱私小組(參考編號:1920-0279)的批準。在威爾士的這項研究中使用的數據可以在英國斯旺西大學的安全匿名信息鏈接(SAIL)數據庫中獲得。所有使用SAIL數據的建議都要經過一個獨立的信息治理審查小組(IGRP)的審查。在訪問任何數據之前,必須得到IGRP的批準。IGRP仔細考慮每個項目,以確保正確和適當地使用SAIL數據。當訪問被批準時,它是通過隱私保護避風港和遠程訪問係統(稱為SAIL網關)獲得的。SAIL已經建立了一個應用程序,任何想通過SAIL訪問數據的人都可以遵循。8研究結果將在會議上發表,在同行評議的期刊上發表,並酌情提交給資助者和政府COVID-19谘詢機構。加強流行病學觀察性研究的報告和使用常規收集的觀察性數據(通過COVID-19擴展)清單進行的研究報告將指導我們的研究結果報告。北愛爾蘭可信研究環境(NITRE)正在審查通過北愛爾蘭誠實經紀人服務獲取的HSC(衛生和社會保健)數據的北愛爾蘭驗證研究提案;已透過綜合研究申請係統(IRAS)提交倫理申請。

倫理語句

患者同意發表

致謝

這項工作將使用患者提供的數據和由一些組織收集的數據。我們要感謝所有分享其信息的患者以及所有為研究提供匿名數據的數據提供者。特別是蘇格蘭公共衛生、威爾士公共衛生、英格蘭公共衛生、國家衛生服務、安全匿名信息鏈接數據庫和國家統計局。

參考文獻

補充材料

  • 補充數據

    這個僅限網絡的文件由BMJ出版集團從作者提供的電子文件中製作而成,並沒有為內容進行編輯。

腳注

  • 貢獻者我們設想了這個協議。CR、VH、FK、TC、JH-C、BH、CC、RL和JL提供了有關可用數據和分析計劃的國家具體信息。SK起草了該協議草案。所有作者對即將出版的版本都給予了最後的批準。

  • 資金英國的驗證將由英國首席醫療官的委托,由國家衛生研究所撥款資助。在蘇格蘭,EAVE II由醫學研究理事會(MR/R008345/1)資助,並得到蘇格蘭政府的支持。在威爾士,控製COVID-19得到了醫學研究理事會(MR/V028367/1)的支持。

  • 相互競爭的利益在研究進行期間,AS報告來自NIHR、MRC和HRR UK的資助。JL和RL在研究進行期間報告UKRI醫學研究理事會的資助。JH-C報告了約翰·費爾牛津大學出版社研究基金的資助,英國癌症研究中心(CR-UK)的資助,資助號為C5255/A18085,通過英國癌症研究牛津中心,牛津惠康機構戰略支持基金(204826/Z/16/Z)的資助,NIHR的資助,在研究進行期間;提交作品以外的個人費用和其他來自ClinRisk的費用;JH-C是QResearch的無薪董事,QResearch是牛津大學和EMIS Health合作的非營利組織,EMIS Health為這項工作提供了QResearch數據庫。除了提交的工作,Carol Coupland報告了ClinRisk的個人費用。JH-C、AS和CC是參與QCOVID風險預測算法開發的研究團隊成員。所有其他作者報告無利益衝突

  • 病人及公眾參與患者和/或公眾沒有參與本研究的設計、實施、報告或傳播計劃。

  • 出處和同行評審不是委托;外部同行評審。

  • 補充材料本內容由作者提供。它沒有經過英國醫學雜誌出版集團有限公司(BMJ)的審查,也可能沒有經過同行評審。討論的任何意見或建議僅僅是作者的意見或建議,不被BMJ認可。BMJ不承擔所有的責任和責任,因為任何依賴放置在內容上。如果內容包含任何翻譯材料,BMJ不保證翻譯的準確性和可靠性(包括但不限於當地法規,臨床指南,術語,藥物名稱和藥物劑量),並且不對翻譯和改編或其他方式引起的任何錯誤和/或遺漏負責。