條文本

下載PDF

協議
使用電子健康記錄開發和驗證一個機器學習工具來預測2型糖尿病的結果:一個研究協議
  1. 安娜路易莎七巧板1,2,
  2. 佩德羅·佩雷拉羅德裏格斯2,
  3. Abdulrahim毛拉3,
  4. 本Glampson3,
  5. 托尼·威利斯4,
  6. Ara Darzi1,
  7. 埃裏克·邁耶1
  1. 1NIHR帝國患者安全轉化研究中心,倫敦帝國理工學院,倫敦、英國
  2. 2醫療技術和服務研究中心,醫學院,波爾圖大學,波爾圖、葡萄牙
  3. 3帝國理工學院醫療保健服務的信任,倫敦、英國
  4. 4北倫敦西部糖尿病轉換項目,北西倫敦衛生和保健合作夥伴關係,倫敦、英國
  1. 對應到安娜路易莎內維斯博士;ana.luisa.neves14在{}imperial.ac.uk

文摘

介紹2型糖尿病(T2DM)病人體內是一個失明的主要原因,腎功能衰竭、心肌梗死、中風和下肢截肢。然而,我們仍不能準確預測或確定哪些病人惡化的風險更高。大多數風險分層工具並不占小說因素如社會人口因素、自我管理能力或醫療條件。此外,大多數工具都是基於臨床試驗,與外部generalisability有限。

客觀的這項工作的目的是設計和驗證基於機器學習工具來識別高危患者2型糖尿病臨床惡化,基於一組全麵的患者的立場從人口健康與數據集檢索特征。

樣品和設計回顧性隊列研究的診斷的2型糖尿病患者於2015年1月1日,5年隨訪。匿名電子醫療記錄從整個係統綜合保健(WSIC)將使用數據庫。

初步的結果結果變量的臨床惡化將包括視網膜病變、慢性腎髒疾病、心肌梗塞、中風、外周動脈疾病或死亡。預測變量將包括社會人口和地理數據,患者的疾病自我管理能力、臨床和代謝參數和醫療服務使用。預後將定義使用multidependence貝葉斯網絡模型。推導群,包括80%的患者,將被用來定義預後模型。模型參數將在內部驗證通過比較接受者操作特征曲線下的麵積的推導群體與計算分析和雙重的10倍交叉驗證。

道德和傳播這項研究得到了在WSIC信息治理委員會的批準。結果將與2型糖尿病的人,他們的照顧者、資助者、糖尿病保健社會和其他研究人員。

  • 衛生信息學
  • 健康&安全
  • 糖尿病和內分泌學

數據可用性聲明

沒有數據是可用的。患者的立場將不會提供數據。

https://creativecommons.org/licenses/by/4.0/

這是一個開放的分布式依照創作共用署名4.0條Unported (4.0) CC許可,允許他人複製、分配、混音、轉換和發展這項工作為任何目的,提供了最初的工作是正確地引用,執照的鏈接,並表明是否變化。看到的:https://creativecommons.org/licenses/by/4.0/

來自Altmetric.com的統計

請求的權限

如果你想重用任何或所有本文的請使用下麵的鏈接,這將帶你到版權稅計算中心的RightsLink服務。你將能夠獲得快速的價格和即時允許重用內容在許多不同的方式。

本研究的優點和局限性

  • 本研究將開發和驗證一個基於機器學習工具來識別患者2型糖尿病(T2DM)病人體內高危臨床惡化,將一組全麵的相關變量(社會人口、地理、臨床特征、病人自我管理能力和醫療服務利用率),常被忽視的傳統風險評分係統。

  • 縱向,真實的病人數據將被使用,利用相關電子健康記錄包括數據從主、次要的、社會和精神衛生保健。beplay体育相关新闻

  • 該工具將基於貝葉斯網絡,最優方法進行個體層麵的風險估計,輕易之間的關聯變量轉換成決策模型。

  • 驗證後,該工具有巨大的潛在貢獻的決策過程在病人水平人口,提供護理指導定義路徑和分配經濟和人力資源。

  • 這項研究的限製包括診斷2型糖尿病的潛在缺乏準確性和潛在的相關危險因素和/或臨床惡化的結果;然而,質量和結果框架的一部分,2型糖尿病是一個區域醫療專業人士特別激勵保持信息更新。另一個限製是指外部有效性的工具,因此未來的工作應該考慮複製在其他人群。

介紹

2型糖尿病(T2DM)病人是最常見的一種非傳染性現在患病率逐漸上升。目前全世界有3.66億人受到影響,總數預計將增加到5.52億年的2030。1未受控製的糖尿病是一種常見的原因失明由於視網膜損傷,腎功能衰竭和下肢截肢,三倍心血管疾病的風險。2 3因其高患病率,發病率和死亡率,患有2型糖尿病的管理意味著重要的社會和金融成本,成本負擔醫療係統每年增加。4

為了防止或延緩2型糖尿病並發症的發病關鍵是提供個性化護理,包括知識的患者在臨床惡化的風險更高。5雖然風險預測模型有很大的可能導致決策過程在病人的層麵上,他們也可以提供護理指導定義路徑,以及經濟和人員分配資源。盡管一些2型糖尿病風險得分是基於各種回歸模型,需要考慮一些限製。

風險預測模型通常是多元和結合多種因素,但這些往往是大部分先驗已知的臨床危險因素。然而,大量的文獻顯示了顯著的社會和環境因素和不良衛生事件之間的聯係,6 7和顯示,包括這些變量可能提高風險預測模型的準確性。8 9構造包含一係列socioeconomical影響個人,包括但不限於教育、經濟地位和獲得醫療保健。10尤其是對醫療資源的訪問,可能是基於病人的種族不平等,居住地,社會經濟地位和教育。10此外,病人激活(即自主自信和能力)與自我管理行為,有關糖化血紅蛋白(HbA1c)知識和糖化血紅蛋白檢測的頻率,11日12這可能有助於更好地實現血糖目標,因此風險較低的臨床惡化。盡管認識到這些因素的重要性,係統回顧評價各種風險預測模型對於發現他們很少包括在內。隻有少數模型包括種族(23%,n = 10)、社會剝奪(5%,n = 2)或教育水平(2.4%,n = 1)。13以前的文獻也令人越來越關注的是,大部分的風險預測模型是基於隊列的次優選擇,13提高外部有效性的擔憂和generalisability的結果。在這種情況下,使用真實的數據從電子健康記錄(EHRs)可以克服許多的局限性人為選定的軍團。此外,由Mahmoudi係統回顧評估了使用電子醫療紀錄的開發和驗證的風險預測模型,發現平均而言,使用電子病曆數據顯示更好的預測性能模型。9然而,作者強調,大多數模型並不占重要的社會經濟特征和缺乏適當的評估的臨床意義和實施。9

此外,最近的EHR及其投資越來越多地使用在醫療應用機器學習方法提供了新的機會。14一項研究比較了傳統的統計回歸方法得到的預測精度和機器學習方法,在2型糖尿病,顯示更高的機器學習模型的分類精度。15在這種情況下,使用貝葉斯網絡(bn)是一種廣泛使用的方法使用概率的圖形化模型表示一組變量及其條件的依賴性,使識別的關係強調因果關係。16日17這些關係是由一個圖形結構,而量化各個變量之間的依賴關係表示為一個條件概率。18在過去的幾年,bn模型被廣泛用於診斷、風險評估和疾病預測心血管疾病的背景下,月19 - 21日但尚未探索的背景下進行的。最近,一些研究開發有前途的方法應用深度學習神經網絡,預測2型糖尿病的機器學習方法。22 - 24

在這項工作中,我們將使用與患者的立場hers和bn分析一組全麵的病人的特征之間的關係(包括社會人口、地理、臨床病人激活和醫療服務利用率)和臨床惡化。具體來說,我們將設計和驗證工具能夠區分二型糖尿病患者根據臨床麵臨惡化的可能性,因此允許一個戰略方法對預防和治療策略。

和分析方法

研究設計

診斷的2型糖尿病患者的回顧性隊列研究2015年1月1日,5年隨訪。患者2型糖尿病是由相應的閱讀代碼(質量和結果框架(QOF)業務規則V.27)。

數據源和數據管理

匿名電子醫療紀錄被訪問整個係統集成(WSIC)數據庫。25超過360慣例(GP)手術,10急性和專業醫院,8社會保健組織和心理健康信托和2社區衛生信托有助於WSIC,涵蓋超過240萬病人在北倫敦西部,代表倫敦人口的30.0%。beplay体育相关新闻25數據從小學、中學、社區、社會和精神衛生保健病人水平有關。beplay体育相关新闻在這項研究中使用的數據管理作為WSIC係統的一部分,由國家健康運行和管理係統(NHS)和用於直接護理和研究批準。這個係統把信息從醫療服務提供者係統(本地電子醫療紀錄)數據控製器使用共同的模型。數據是在一個安全的NHS-managed環境。我們的方法是數據驅動的(我們使用現有的數據生成和驗證新模型,而不是找到一個特定的假設的證據),沒有具體的樣本大小的計算是適用的,因而不執行。

研究變量

結果變量的臨床惡化將包括編碼(1)視網膜病變的診斷;(2)慢性腎疾病;(3)心肌梗塞;(4)中風;(5)(6)外周動脈疾病或死亡。結果將被相關的臨床規範定義(讀碼)的診斷。

預測變量包括(1)社會人口和地理數據;(2)病人的疾病自我管理能力;(3)臨床和代謝參數和(4)醫療服務使用。

社會人口將在基線提取信息,包括年齡,性別,種族,教育,多個剝奪指數(IMD)和地理位置。相對剝奪的IMD是官方測量在英格蘭和套件的一部分輸出形式剝奪的指標。26它遵循一個既定的方法論框架廣泛定義剝奪涵蓋範圍廣泛的個人的生活條件。這是一個總體衡量經曆多個剝奪人們生活在一個區域,計算每個下層超級輸出區域或附近,在英格蘭。26地理位置將提取的第一部分郵編。27

信息提取病人自我管理能力作為病人激活措施(PAM)值。PAM是一個驗證工具的13個問題,在其整體交付,沒有任何編輯或修改版本進行驗證。26答案是加權和結合提供一個評分,範圍從0到100。28PAM 1和99之間的分數將被認為是有效的反應,並允許四個預定義的歸類到一個水平,從1(病人不積極貢獻他們的醫療保健)到4(患者積極主動地管理自己的健康和從事健康行為)。28分數小於47.0的地方一個病人在1級,2級47.1 - -55.1,55.2 - -72.4三級和四級超過72.5。28

基線將包括T2DM-related臨床和代謝因素提取的變量,如糖化血紅蛋白水平(%)、糖尿病治療方法(歸類為“隻飲食”,“口服治療”或“胰島素治療”)和持續時間的2型糖尿病(年)。心血管疾病的風險因素也將被提取,包括舒張壓(毫米汞柱),收縮壓(毫米汞柱),甘油三酯(更易/ L),高密度脂蛋白膽固醇(更易/ L),低密度脂蛋白膽固醇(更易/ L)、總膽固醇(更易/ L),肌酐,體重(公斤),腰圍(cm)和身體質量指數(公斤/米2)。長期的存在條件,包括哮喘、癌症、慢性腎髒疾病、慢性阻塞性肺疾病、癡呆、抑鬱症、糖尿病、心力衰竭、高血壓、心理健康,肥胖,外周動脈疾病,慢性心髒疾病,中風和短暫性缺血性發作,和缺血性心髒病,也會提取。beplay体育相关新闻搜索條件將基於閱讀代碼的設置用於質量和成果框架,績效工資係統中使用初級保健在英格蘭。

醫療服務利用變量將包括接觸初級保健的數量(數量的接觸全科醫師),二級護理(醫院的預約專家數量設置,包括門診、住院病人選擇性,住院non-elective,事故和緊急)在這項研究的時間和精神衛生保健。beplay体育相关新闻醫療利用的自然高度傾斜,少數患者占很大比例的護理,可以使建模過程。29日因此,極端高使用的任何利用變量(前1%)將被排除在外。

質量檢查和缺失數據處理

隨機數據不太可能丟失30.;因此,任何企圖將轉嫁數字缺失的數據,和連續變量與額外的類別包括“失蹤”的範疇。缺乏臨床診斷代碼將顯示診斷不存在。臨床上難以置信的值將被排除在外的健康調查英國統計作為指南。31日

貝葉斯網絡

機器學習算法利用bn將用於探索臨床惡化在患有2型糖尿病的主要動力。十億年是一個有向無環圖相結合統計和圖論表示條件獨立性。32 33在這種非循環圖,邊表示有條件的依賴關係;不連接節點表示變量條件相互獨立的。每個節點相關聯的概率函數,作為輸入,一個特定的節點的父節點變量的值,並給出了(輸出)的概率(或概率分布,如果適用的話)的變量節點所代表的。32 33

例如,如果我們考慮到兩個變量(A, B)會影響第三個(C);B有直接的影響,這種情況可以被建模為十億。每個變量有兩個可能的值(“真”或“假”)。聯合概率函數是:

嵌入式圖像

模型可以用於回答問題的存在導致了存在的影響(即“逆概率”),如C的概率是多少,因為是真實的:

嵌入式圖像

獲得十億年從數據通常是作為一個兩步的過程完成。第一步是確定圖G,其中包含數據的條件獨立性(“結構學習”)。樹增強樸素貝葉斯(TAN)是一個semi-naive貝葉斯學習方法。它放鬆樸素貝葉斯屬性獨立性假設采用樹狀結構,其中每個屬性隻取決於類和另一個屬性。最大加權生成樹的可能性最大化使用訓練數據進行分類。第二步是稱為“參數學習”和研究每個節點的概率分布表的情況下知道了BN結構本質上。額外的統計描述BN可以找到其他地方。32 33

統計分析

預後模型將使用multi-dependence BN定義,比如TAN分類器模型,建立在一組可用的變量。隊列將隨機分成兩組,分層的結果。第一組,包括80%的病人(n = 1760),將用於定義預後模型(推導隊列)。模型參數將在內部驗證通過對比接受者操作特征(ROC)曲線下麵積(AUC)推導群體與計算分析和雙重的10倍交叉驗證。剩下的20%的患者(n = 240)將被用作一個驗證隊列。將生成的模型形象地表現為風險矩陣,使用選定的變量邏輯回歸。評估風險矩陣的區別的能力對於每一個結果,特定的截止值後將選擇執行ROC分析推導的隊列。派生的決策規則將被評估,估計敏感性、特異性、準確性,預測值,可能性比率,檢測後口服補液鹽和預後。

病人和公眾參與

病人的合作夥伴將會包含在解釋我們的結果,共同發展的傳播策略,和在總結研究成果的總結和報告,為了提高認識,激發公眾參與這個話題。

道德和傳播

這個項目已經批準的信息治理委員會WSIC(2020年5月21日)。

預期結果

我們將開發和驗證預後模型T2D臨床惡化。我們將開發風險矩陣,可以用來準確預測患者的可能性T2D進步麵臨疾病,及時,可以用來識別高危患者,並提供有針對性的早期幹預。這項工作也將提供預後預測支持係統的原型基於web表單。

討論

使用電子醫療紀錄和機器學習方法創造了一個巨大的機會,進一步細化的風險預測工具的背景下進行的。我們的研究旨在提供有價值的進步關於這個主題,通過開發和驗證一個機器學習工具能夠預測臨床惡化的風險,基於一組全麵的病人特點和使用電子醫療紀錄有關。

一項研究由Battineni進行實驗來預測糖尿病的皮馬印第安女性特定的機器學習分類器(ML)。23然而,本研究使用了一個小得多的樣本(n = 768女性患者),並使用一個數據集組成的隻有8個風險因素(年齡,和糖尿病引起的臨床因素)。沒有社會人口因素包括在模型中。此外,本研究使用的數據集由國家糖尿病、消化和腎髒疾病研究所(皮馬印第安人糖尿病數據集),而不是定期收集數據,這是公認的為這些模型有更好的性能。13同樣的限製適用於Kahramanli的研究使用相同的數據集。24這項研究可能會有一個大樣本的大小,因為它將使用WSIC,涵蓋超過240萬病人在北倫敦西部。此外,數據將代表“真實”的病人將會收集作為常規臨床護理的一部分。雖然以前的證據表明,使用電子醫療紀錄數據預測模型有更好的預測性能比使用管理數據,它也發現大多數的模型檢查缺乏包容的社會經濟功能。13在這項研究中,患者的立場關聯數據(包括信息從小學,中學,社會和社區護理)將允許我們探索的貢獻一組全麵的特點,包括社會人口、地理、病人臨床、激活和服務利用率。

這個豐富的數據集將被用於開發一個工具能夠區分二型糖尿病患者根據臨床麵臨惡化的可能性,利用bn,機器學習方法特別有用的探索變量之間的影響。以前的文獻比較傳統的統計回歸方法得到的預測精度和機器學習方法顯示更高的機器學習模型的分類精度,測量的AUC分數(-85% vs 80.8% -99.4% 65%)。15與回歸方法相比,bn現在幾個額外的優勢,包括網絡結構的生成,變量之間的關係可以很容易地溝通,他們的能力應用貝葉斯定理進行個體層麵的風險估計,及其容易轉換成決策模型。16此外,bn甚至允許我們進行推斷的失蹤的觀察,代表與其他毫升方法相比的優勢。

這項研究的限製包括診斷2型糖尿病的潛在缺乏準確性和潛在的相關危險因素和/或臨床惡化的結果;然而,由於2型糖尿病連續監控的質量和成果框架,34它是一個地區醫療保健專業人士特別激勵信息保存和更新完成。臨床惡化的結果,有一個相當大的冗餘的代碼(例如,一些代碼可以用來描述相同的事件)。提高一致性,我們選擇了一個廣泛的臨床代碼列表,包括症狀和診斷定義這些結果。另一個限製是指外部有效性的工具,因此未來的工作應該考慮複製在其他人群。

電子醫療紀錄可用性的增加,越來越多的人意識到健康問題社會決定因素的作用在健康結果和機器學習方法的進步,越來越多的機會製定危險分層的新方法。使用數據驅動方法,包括小說因素,如社會人口、民族、地理因素,以及程度的患者的自我管理能力或醫療使用的模式,可以提供更細粒度的病人更有可能惡化,和惡化的主要因素是什麼。識別這些患者至關重要的病人人口健康和綜合護理路徑交付,將允許及時幹預,更有效的醫療服務。

數據可用性聲明

沒有數據是可用的。患者的立場將不會提供數據。

倫理語句

引用

腳注

  • 推特@tonygwillis

  • 貢獻者ALN、PPR, BG、TW廣告,他們對這項工作的概念和設計起到了推波助瀾的作用。寫輸入從所有作者的手稿。所有作者同意提交出版的版本。

  • 資金這項工作得到了國家衛生研究所(NIHR)患者安全的翻譯研究中心和帝國PARSUK / FCT雙邊研究基金。NIHR帝國提供的基礎設施支持生物醫學研究中心(BRC)。這項研究是通過科舉臨床分析研究和評估(iCARE)環境和使用iCARE團隊和數據資源。

  • 免責聲明作者的觀點不一定反映的NHS, NIHR或衛生部。

  • 相互競爭的利益沒有宣布。

  • 病人和公眾參與病人和/或公眾參與設計,或行為,或報告,或傳播本研究計劃。是指部分進一步了解細節的方法。

  • 出處和同行評議不是委托;外部同行評議。