條文本

選擇一個模型來預測住院:一項觀察性研究的新變種發現病例的預測模型
  1. 約翰·比林斯1,
  2. 西奧Georghiou2,
  3. 伊恩鈍2,
  4. 馬丁·巴茲利2
  1. 1羅伯特F瓦格納公共服務研究生院紐約大學,紐約,紐約美國
  2. 2部門的研究,納菲爾德的信任,倫敦、英國
  1. 對應到西奧Georghiou;theo.georghiou在{}nuffieldtrust.org.uk

文摘

目標測試性能的新變體模型來識別人的緊急住院的風險。我們比較(1)的影響,使用替代的數據源(醫院住院、急救、門診和全科醫生(GP)電子醫療記錄)(2)本地校準的影響的性能模型和(3)人口分母的選擇。

設計多元邏輯回歸使用person-level數據添加每個順序數據集測試值的額外變量和分母。

設置5初級保健信托在英格蘭。

參與者1 836 099人年齡在18 - 95在全球定位係統(GPs) 2009年7月31日注冊。

主要結果測量模型預測住院和重新接納比較的陽性預測值為各種風險和敏感地層和接收機操作曲線C統計。

結果的每個數據集顯示溫和改善的患者數量與很少或沒有陽性預測值的損失。然而,即使包含醫生電子病曆信息,算法確定隻有一小部分患者沒有緊急入院前2年。模型集中在所有網站幾乎以及模型校準執行本地數據從一個網站。使用人口從GP分母寄存器導致更好的發現病例。

結論這些模型提供了一個基礎廣泛的應用在國民健康服務。每個模型研究了產生相當強勁的性能和提供一些預測價值。增加更多的複雜的數據增加了一些價值,但我們無法得出結論,彙集模型比在個人網站的表現較差。選擇模型應與幹預設計。病人的特征識別的算法提供有用的信息設計/成本的幹預策略來改善這些患者護理協調/結果。

這是一個開放的分布式條依照創作共用署名非商業性(3.0 CC通過數控)許可證,允許別人分發,混音,適應,建立這個工作非商業化,和其派生作品在不同的條款進行許可,提供了最初的工作是正確地引用和非商業使用。看到的:http://creativecommons.org/licenses/by-nc/3.0/

來自Altmetric.com的統計

請求的權限

如果你想重用任何或所有本文的請使用下麵的鏈接,這將帶你到版權稅計算中心的RightsLink服務。你將能夠獲得快速的價格和即時允許重用內容在許多不同的方式。

文章總結

文章重點

  • 使用統計模型預測住院的風險正越來越多地用於優先考慮患者的預防保健。模型中存在幾種不同的形式和使用各種各樣的輸入數據集。

  • 本文比較了各種模型的性能使用不同的數據集。

關鍵信息

  • 添加更詳細的數據集導致溫和改善的患者數量與很少或沒有陽性預測值的損失。

  • 全科醫生的使用注冊表數據分母被證明是具有十分重要的意義。不僅包括所有病人在一個區域,那些之前醫院使用,提高發現病例觀察。

  • 模型校準到本地數據集沒有顯示改進模型建立在彙集數據一致。

本研究的優點和局限性

  • 分析是基於來自隻有五個地區的人口在英格蘭;然而,這是一個英國最大的人口(180萬人)中使用公開可用的開發風險的工具。

  • 預測模型的成功取決於許多因素超出了統計模型的性能。

介紹

仍有持續的興趣識別患者未來入院的風險。政策提供處罰1或未付款2醫院再次入院,把供應商占總醫療支出的風險已經開發在美國和英國。這些創造更強的動機來識別高危病人護理協調和管理策略,可能減少未來的住院費用。

大多數預測建模方法使用行政數據聲稱在美國從醫院或醫院數據集數據或二次使用服務(SUS)在英格蘭。這些數據提供的信息利用率和診斷之前曆史發展預測模型對未來風險的病人住院治療。3付款人聲稱在美國數據提供豐富的信息在醫院護理,家庭護理服務和護理之家使用,以及詳細的藥房處方的曆史。4在英格蘭,最常用的模型(如現在的過時的患者再入院的危險(帕爾)算法)5,6基於住院數據(包括天情況下使用和定期上座率)和一些事故和緊急(急診)和門診考勤數據。7

雖然有些預測建模的努力包括在英國全科醫生(GP)的信息電子醫療記錄(電子病曆),8,9使用這些數據提出了許多挑戰。這些包括獲取權限訪問電子病曆對於人口眾多,連接醫院數據的記錄和讀取代碼的使用10發展全科醫生變量。電子病曆的數據包括額外的元素沒有在醫院的數據集,如測試結果(如血壓、糖化血紅蛋白(HbA1c)水平),對患者診斷曆史沒有最近住院率,處方曆史,全科醫生接觸模式(全科醫生訪問和電話聯係人)和其他個人健康標記(如身體質量指數、吸煙狀態)。這些額外的數據元素有可能增加功率預測建模的努力,特別是對於沒有或低水平的最近住院患者使用。

盡管挑戰,許多項目在英國展示全民對EMR數據的訪問。常見的應用程序模型,協助當地臨床的使用調試組識別高危病人。

雖然選擇預測模型的數據集很大區別運行這些模型所需的投資至少在此之前沒有研究看著不同數據集的邊際價值。在這個分析中,我們檢查的附加價值包括急救和門診數據訪問(現成)單獨使用醫院住院數據預測建模的努力。我們也評估添加GP EMR的邊際效應信息,以幫助確定將來住院病人的風險。大多數現有的模型使用的是使用邏輯回歸技術和本文中我們使用此標準方法。我們認識到,不同造型的方法可能會產生不同的結果,但是在這個分析我們關心底層數據集的變化的影響。總是會這樣的模型的限製範圍和數據質量,數據分組的方法和分類方法,用戶可以評估的最新信息。盡管存在這些問題,這些模型已成為常用的工具。除了使用的深度數據,還有一個問題關於generalisable模型在不同的網站。在許多設置,模型調整本地數據集。然而毫無價值的係統分析,這一步添加和模型建立在數據從一個站點是否比那些建立在一個更大的樣本集中的數據。 We therefore explore whether there is a need for development of individual site predictive models, or whether models developed from multiple sites can be applied effectively at a new individual site.

方法

我們進行了單獨分析五初級保健信托(PCT)在英格蘭地區(肯特康沃爾郡紐漢,克羅伊登,雷德布裏奇;成年人口總量從209 661 - 693 089)。結果報告的個人網站和組合/彙集結果(總人口836 099)。從SUS醫院數據提取11係統包含的所有醫院事件記錄(預約門診住院率,和急診)為基礎保健護理信托機構的登記人口2007年8月1日至2010年9月30日。基礎保健護理信托機構也從醫生係統提取數據的兩種形式。首先,作為一個注冊當地的成人人口從2007年8月1日到2009年7月31日,第二,數據集的形式記錄醫生的詳細磋商在同一時期。

個人身份信息被剝奪了任何數據傳遞到之前的研究團隊。個人的NHS數字(個人標識符)是連接通過代碼選擇五PCT領域研究團隊(未知),和這些pseudonymised源使用sha - 256安全散列算法。12這使得之間的聯係醫院和慣例每個區域的數據,同時保留個人的匿名性。

從每個數據集創建一係列的變量,它可以被認為是潛在的預測計劃外(緊急)住院在過去12個月的研究期間。這些變量捕獲資源使用、利用模式、診斷曆史,測試結果和處方前2年曆史預測的時期。18 +歲他們為所有個人創建和注冊醫生的五個領域2009年7月31日。占預計所需的時間獲取和處理醫院和醫生EMR數據,我們在分析,包括兩個月的滯後與數據從2007年8月1日到2009年7月31日期間用來預測緊急招生1 2009年10月至2010年9月30日。

患者年齡和性別是獲得全科醫生注冊。沒有病人居住區域,因此全科醫師認為多個剝奪指數(2007)被用作麵積不足的措施。幾個月病人注冊的PCT preperiod計算,包括在回歸。醫院住院數據被用來捕獲利用0 - 90,91 - 181,180 - 365和366 - 730天前滯後期。緊急和選擇性招生數量的這些時間是包括和二分變量對於任何一天情況或定期參與使用。

廣泛的診斷變量使用主要和次要診斷領域和開發Charlson發病率指數13計算為每個病人,包括在模型中。

A&E數據被用來確定A&E preperiod訪問率不同的時間間隔,總訪問和無計劃的後續訪問。急救診斷信息不可靠的報道在五個網站,並不包括在內,盡管x射線使用是包括在內。門診提供變量在門診訪問數據率不同的間隔,以及錯過了預約率和許多不同類型的專業谘詢。在門診診斷信息數據丟失在超過95%的情況下,不包括在內。

GP EMR數據被用來創建代理訪問利率(這些可能包括實際GP訪問,除了其他活動記錄在一個人的記錄)對各種時間間隔和捕獲任何訪問增加利率最終preperiod可能反映病人的發病率增加。EMR讀碼(CTV3版)被用來獲得測試結果(血壓、血清水平,糖化血紅蛋白水平,等等)、體重指數、吸煙史、處方(數量和類型)和一係列的曆史在preperiod診斷變量。

變量從每個數據集(住院(包括天案件和普通參與者),急診室中,門診病人和醫生電子病曆)添加順序和模仿在SPSS V.20使用標準的邏輯回歸。緊急入院在未來12個月內作為因變量,生產風險得分從0到100不等。單獨的模型為每個PCT區域開發,分析僅限於在GP患者年齡18 - 95歲的人登記。過度學習使用分割測試樣本的方法,隻有細微的差別中觀察到陽性預測值(PPV)的敏感性和特異性。

這裏提供的結果包括個人網站結果和結果相結合五個網站。我們還創建了五個額外的預測模型(以下稱為“four-site回歸模型”),每一個組合數據從四個網站和應用係數到第五剩餘站點。網站,我們可以比較結果與單個預測模型來幫助評估當地模型發展的價值。

超過300個潛在變量的完整列表被排除變量最終減少到88年較低的網站數量和重要性水平低。88年最終變量包含在模型(和回歸係數)可能會發現在網上補充附錄B和D,和一個完整的清單包含的變量被認為是和每個變量的詳細規範http://www.nuffieldtrust.org.uk/

成本變量檢查,二級護理活動花費根據的方法用於發展個人公式分配調試基金一般實踐在英格蘭。14最終,這些都是不包括在預測模型因為擔心未來可能的用戶在構建這些變量的困難;然而,成本都包括在描述性研究來幫助在設計的幹預策略。

預測模型的性能通常是記錄報告PPV和敏感性風險評分閾值的50。然而,由於幹預可能是針對患者或高或低風險分數和幹預策略可能不同的校準根據風險級別和風險評分各級病人的特點,我們報告PPV敏感性在20風險評分截止點(vigintiles)和提供詳細的患者特征風險評分閾值50、30促進幹預設計。

結果

彙集了個人網站的結果

有1 836名18歲及以上的099人注冊醫生實踐2009年7月31日。表1顯示了個人網站的合並後的結果回歸包括病人的數量正確識別,PPV和敏感了四個模型:

  1. IP基於醫院住院病人的數據(包括天病例和正常出勤);

  2. IPAE使用住院和急診數據;

  3. IPAEOP使用住院,急救和門診數據;

  4. IPAEOPGP使用住院,急救,門診數據和GP EMR。

表1

模型的性能,四個模型:IP、IPAE IPAEOP IPAEOPGP

50的傳統風險評分閾值水平,所有四個模型PPV的名額(從0.523到0.538),但靈敏度很低在所有模型(0.049 - -0.060)。或多或少地降低靈敏度閾值增加到30,相應的PPV(從0.417到0.422)。接收者算子特征曲線下的麵積(C統計)改進的每個數據集,與inpatient-only模型從0.731增加到0.780,完整的模型。

需要特別注意的是發現的每一個數據集添加動力,也就是說,正確識別更多的患者承認在接下來的12個月裏,隻有一個小PPV的減少。50的風險閾值,增加急救數據導致增加400(8.6%)正確標記的病人,沒有PPV損失。包含門診數據增加了2.9%,但隨著PPV略有虧損(0.531到0.523)。GP EMR的數據添加一個額外的9.6%的患者,而實際上增加模型的精度(PPV增加從0.523到0.538)。A&E的數據集所增加的能力更實質性的風險評分閾值30(4.9%),但門診和GP EMR數據集的正確識別患者(4.3%和19.9%)。

也有重要的差異模型的病人標識為高風險的特點。例如,風險評分截止的50歲的病人發現單獨使用住院數據有很高的前緊急住院利用率為2.62招生相比前一年2.43當A&E數據添加;2.34的一個門診和2.20的GP EMR數據(見表2)。

表2

病人特點的風險評分閾值,四個模型:IP, IPAE, IPAEOP IPAEOPGP

加入更多的數據集也導致減少50閾值,觀察病人的發病率水平較低數量的長期條件,減少患者多個長期條件下,低Charlson發病率指數評分,減少酒精濫用的曆史和精神疾病和降低緊急住院成本在幾年前預測的時期。實質性相似,但是少,風險評分閾值的差異觀察30。A&E的數據集導致更高的利率preperiod急診的患者中確定在風險評分截止兩個層麵,以及門診數據導致更高的門診訪問和錯過拜訪率確定病人。

這些發現表明,加入更多的數據集添加了一些預測能力,通常傾向於找到額外的患者減少重症(更嚴重的病人傾向於維持高位風險)。因此,他們可能提供了一個機會在早期幹預病人的病情的進展。然而,患者的數量確定沒有之前緊急住院利用在前2年在所有模型相對較小。在50風險評分的閾值,隻有0.3%的病人正確識別inpatient-only模型沒有緊急招生在前2年之前,和完整的模型(僅略有增加3.2%表3)。的風險閾值30日率更高,但隻達到了12.4%的完整模型。

表3

比例的患者正確識別,沒有緊急招生在前2年

個人網站和four-site回歸模型結果

總的來說,模型的性能類似個人網站的水平。隻有適度的差異被發現在整個網站PPV水平和敏感性。僅供運行使用non-GP數據(IPAEOP),一個危險分數閾值50,ppv靈敏度範圍從0.512到0.552,從0.047到0.071不等。為模型包括全科醫生電子病曆、ppv範圍從0.521到0.566,靈敏度從0.053到0.073(見在線補充附錄A)。有一些網站之間的回歸係數的大小的變化,但在一般的係數可比模型基於non-GP數據模型(IPAEOP)(見在線補充附錄B)。為模型包括全科醫生電子病曆的變量(IPAEOPGP)水平的回歸係數的變化(大小和方向)為這些變量來自GP數據有點大。我們觀察到大量的頻率差異報告跨站點閱讀代碼,這無疑導致了這種變化。單個變量的顯著性水準也多種多樣的跨站點(見附錄C在線補充),但大多數變量都強烈重要的所有網站,特別是變量涉及前緊急住院率。再次,更高水平的顯著性水平的變化觀察GP的變量來自閱讀代碼。

我們比較的結果對這些個人網站模型,混合模型相結合的數據從四個網站和係數應用於剩下的個人網站。我們通常發現,隻有微小的差異在預測精度(PPV)這兩種方法之間(表4);然而,個人網站模型識別更多的真正的陽性。例如,在康沃爾的風險評分截止50個人網站模型使用醫院數據正確識別出的1041名患者同時彙集模型識別出隻有754例。然而在紐漢,four-site模型是更強大的,正確地識別相比,858名患者734例為個人網站的方法。在這兩種情況下(通常在所有網站),模型識別大量的真陽性PPV有所降低,表明改進的情況下找到交易量的預測精度。

表4

個人網站和four-site回歸模型

測試替代人口分母

隻使用住院數據構建的模型(IP)也建立了一些住院患者護理的子集在前2年(反映典型的預測建模的努力,可能是沒有醫生注冊信息),以及組織了緊急入院前一年(複製分析由帕爾的用戶)。

結合5網站風險評分的結果閾值50,模型充分利用醫生注冊正確識別與3572年相比,4627例患者在運行限製在3060年之前的住院患者護理和運行限製患者緊急入學前一年。這大幅增加的情況下發現了PPV隻有溫和的虧損(0.589 0.529醫生列表,0.559之前的住院和緊急去年招生)。類似的結果還發現所有醫院的數據模型(IPOPAE,雖然任何醫院使用在前麵的2年,而不是任何住院病人使用)。

充分利用醫生注冊人口沒有結果發現大量的患者在前2年沒有緊急招生,但患者數量的增加確認包括多患者少之前使用和低水平的發病率。概要的病人發現使用這些替代分母,明白了http://www.nuffieldtrust.org.uk/

討論

這一分析的角度來研究發現病例的性能預測模型的新變種。這些模型的目的是更新和改進建立組合預測保密性15和帕爾模型5廣泛用於NHS。

每個模型研究了產生相當強勁的性能,通過一些措施更好的或至少與之前類似的模型。9的風險閾值50,病人識別模型已經ppv從0.523到0.538不等。雖然所有未來招生確認患者的比例相對較低的靈敏度(0.049 - -0.060),降低風險閾值允許識別更多的患者PPV相對小的損失(例如,在一個風險閾值30,完整的模型確定未來招生PPV為0.417的14%)。用戶預測模型算法有明顯權衡最大化的患者數量確定和預測精度。風險降低分數閾值將會發現更多的病人,但這些病人越來越不可能有未來的招生。

對幹預的設計是很重要的。病人住院使用之前都少風險低閾值和較低的發病率,所以一個幹預可能是校準更密集。但由於模型不準確的風險較低的分數,可以花在幹預量也減少了如果你想達到財政收支平衡(即幹預的成本節約成本所抵消減少未來招生)。記錄在表2風險評分閾值50,未來入院病人的速度被完整的模型(IPAEOPGP數據)是1.31每年招生的相關成本£2270。如果有未來招生減少了10%,£227可以用於幹預改善護理協調,仍實現盈虧平衡。然而,以較低的風險閾值30,未來招生和成本的低利率意味著較低的幹預需要支出達到盈虧平衡(£151年未來的招生)減少了10%。詳細的業務案例分析意味著緊急住院費用在未來12個月內在每個vigintile水平可以通過風險http://www.nuffieldtrust.org.uk/

這些數據也提供其他信息,可能是有用的幹預策略的發展。所示表2,病人識別的模型有極高的慢性疾病(85 - 90%的長期條件風險閾值50),通常與多個長期條件和高Charlson發病率指數水平,表明嚴重的醫療需求。然而,這些病人已經高使用的門診醫療和醫生拜訪率非常高。這表明簡單的門診不是問題,但預防需要看護理的協調和管理能力的複雜問題和管理慢性疾病的病人和他們的家屬。高危患者識別的模型也相對高水平的精神疾病(27 - 32%風險閾值50)和中等水平的酒精濫用,因素可能會使任何幹預策略。

同樣重要的是要注意這些數據的局限性在幫助任何幹預策略的框架設計。其他的研究已經證明,高危患者經常有保健需求相關的重要特征和患者能力不被管理數據和電子病曆。例如,采訪高危患者和他們的家庭有記錄高水平的社會隔離對許多人來說,以及不穩定的住房狀況。16這些非醫療因素可能對健康狀況和利用模式產生重大影響。此外,我們不太清楚/護理協調和管理是否有如何失敗的對這些病人。這些高風險患者非常生病住院患者預防/,在很大程度上是不可避免的,17或有保健係統失敗在某些重要的維度,可以糾正與改善護理協調和管理?這些數據不能回答這個非常重要的問題,很明顯,該領域將受益於進一步研究,檢查病人標識為高風險的情況下預測模型算法來解決更清楚的因素導致高緊急入院。

這個研究並文檔合並數據集的值超出了住院記錄。的急救和門診記錄導致的識別高危患者很少或沒有損失的預測精度。這些數據集是現成的和標準化的報告格式,便於分析。雖然沒有有用的診斷信息,這些數據集是一個限製因素,改善發現病例和實用性的描述性分析高危患者在幹預來幫助設計(例如,高A&E使用利率,高了門診預約)表明,他們包容顯然是理所當然的。

醫生電子病曆的使用提出了重大挑戰。而缺乏這些數據不太可能仍然是一個問題,數據的完整性和質量的變化是有問題的。使用笨重的讀碼係統使得分析困難,我們觀察到顯著差異在網站在報道模式。其中的一些差異可能是由於漏報的診斷變量,其他編碼方法的差異。然而,潛在的改善案例發現,尤其是在較低的患者利用preperiod,表明這些障礙值得對抗。我們開發新變量除了那些包含在之前的預測建模的努力8貢獻大幅增強發現病例,變量發展進一步的工作可能會導致進一步的改進。同樣,這些數據也有用在高危患者提供描述性信息來幫助在幹預設計(例如,記錄潛在的目標機會不受控製的高血壓或糖尿病等)。

這項研究並沒有提供明確的發現開發個人站點的價值模型相比,隻是從多點應用係數或國家本地數據模型係數。我們four-site回歸模型通常可比ppv個人網站模型,但是對於大多數網站four-site回歸方法正確確定未來招生數量有點少的患者。雖然它很容易推測是否人口的衛生需求的差異或編碼差異影響模型的性能,我們沒有觀察到任何明確的模式之間的區域。我們的分析有點小數量的網站涉及的限製,這可能導致回歸係數有點大的變化(回歸係數為每個5 four-site模型是可用的http://www.nuffieldtrust.org.uk/)。開發國家模型隻使用SUS數據計劃進一步評估當地發達的需要/值模型。

最後,值得注意的是,使用醫生注冊中心數據的分母也被證明是具有十分重要的意義。許多之前的預測建模的努力一直局限於患者利用曆史數據集包含。不僅包括所有病人在一個區域,那些使用之前,對預測模型的影響之前使用明顯增強。結果,患者較為溫和的水平之前使用和發病率患者被發現是在更高的風險比不之前使用,並經常被分配風險得分高於當分析包括患者之前使用。因此,使用醫生注冊中心發現病例和分母可以提高利率可能允許病人在早期階段的識別。

確認

作者要感謝所有個人基礎保健護理信托機構的貢獻數據用於這項研究在整個係統演示、虛擬病房和社會關懷的研究。

引用

補充材料

  • 補充數據

    僅這個web文件已經由英國醫學雜誌出版集團從一個電子文件提供的作者(年代)和沒有對內容進行編輯。

    在這個數據補充文件:

腳注

  • 貢獻者準備數據集和輸入變量和成本進行了TG和IB;JB進行中央造型。MB建議在分析和研究團隊的工作結果和管理在納菲爾德的信任。所有作者對論文的寫作起到了推波助瀾的作用。JB是擔保人。

  • 資金這項研究沒有得到具體的格蘭特但由納菲爾德的信任。由此產生的模型將被用作WSD試驗的一部分,由衛生部。

  • 相互競爭的利益一個也沒有。

  • 倫理批準本研究隻涉及匿名的二級數據的分析。因為沒有可識別的人體,倫理審批不需要這項研究並沒有尋求知情同意。

  • 出處和同行評議不是委托;外部同行評議。

  • 數據共享聲明派生的細節模型變量和定義可從作者在納菲爾德信任research@nuffieldtrust.org.uk。