條文本
文摘
目標我們驗證機器上優於sepsis-prediction算法(洞察力)的檢測和預測三個sepsis-related黃金標準,隻使用六個生命體征。我們評估可靠性缺失的數據,定製特定站點數據使用學習和generalisability轉移到新的設置。
設計機器學習算法和梯度樹增加。預測功能的組合產生了六個生命體征測量及其隨時間的變化。
設置mixed-ward回顧性數據集從加州大學舊金山分校醫學中心(美國加州舊金山)作為主要來源,一個重症監護病房數據集的貝斯以色列女執事醫療中心(美國馬薩諸塞州波士頓)作為transfer-learning源和四個附加機構的數據集來評估generalisability。
參與者總遇到684 443,90 353遇到從2011年6月到2016年3月在加州大學舊金山分校。
幹預措施一個也沒有。
主要和次要結果的措施接受者操作特征(AUROC)曲線下的麵積檢測和預測膿毒症,嚴重膿毒症和膿毒性休克。
結果嚴重膿毒症和膿毒症的檢測,洞察力達到一個AUROC曲線0.92 (95% CI 0.90 - 0.93)和0.87 (95% CI 0.86 - 0.88),分別。四個小時在發病之前,洞察力預測膿毒性休克的AUROC 0.96 (95% CI 0.94 - 0.98)和嚴重膿毒症的AUROC 0.85 (95% CI 0.79 - 0.91)。
結論洞察力優於現有的膿毒症評分係統在識別和預測膿毒症,嚴重膿毒症和膿毒性休克。這是第一個膿毒症篩查係統超過0.90隻使用生命體征的AUROC輸入。洞察力缺失的數據強勁,可以定製新醫院的數據使用的一小部分網站數據和保留強大的歧視在所有機構。
- 膿毒症
- 膿毒性休克
- 臨床決策支持
- 預測
- 機器學習
- 電子健康記錄
這是一個開放的分布式條依照創作共用署名非商業性(4.0 CC通過數控)許可證,允許別人分發,混音,適應,建立這個工作非商業化,和其派生作品在不同的條款進行許可,提供了最初的工作是正確地引用和非商業使用。看到的:http://creativecommons.org/licenses/by-nc/4.0/
來自Altmetric.com的統計
本研究的優點和局限性
機器學習應用於檢測和預測三個獨立的膿毒症的標準在急診室,普通病房和重症監護的設置。
一般隻有6個測量生命體征作為算法的輸入。
隨機缺失數據的算法是健壯的。
學習成功地利用大數據集的信息傳輸到目標數據集。
回顧性質的研究並未預測臨床醫生對信息的反應。
介紹
膿毒症是一個主要的健康危機和死亡的主要原因之一。1大約750 000名住院患者被診斷為嚴重膿毒症每年在美國,據估計死亡率的三分之一。2 3膿毒症的成本負擔不成比例的高,估計每年203億美元的成本,或在我們醫院每天5560萬美元。4此外,平均住院時間為膿毒症是兩倍其他條件,5和嚴重膿毒症的發病率平均每年增長約13%。6早期診斷和治療已被證明,以減少死亡率和相關成本。7號到9號盡管有明顯的好處,和準確的膿毒症早期檢測仍然是一個困難的臨床問題。
膿毒症已經定義為宿主對感染特異表達。在實踐中,膿毒症可以挑戰承認因為感染宿主反應的異質性和多樣性的可能的傳染性的侮辱。膿毒症是傳統上被認為是兩個或兩個以上的全身炎症反應綜合征(SIRS)10標準與一個已知或疑似感染;進而發展為嚴重膿毒症、器官功能障礙時,最後敗血性休克,另外包括耐火低血壓。10但是,正在進行的爭論膿毒症的定義和臨床標準,正如最近提出的修正的膿毒症,11強調基本難以識別和準確診斷敗血症。
各種基於規則的疾病嚴重程度評分係統廣泛應用於醫院,以確定患者膿毒症。這些分數,如改良早期預警評分(喵喵”),12眾位標準13和順序器官衰竭評估(沙發),14在床邊手動製表和缺乏準確性在膿毒症的診斷。然而,日益流行的電子健康記錄(EHRs)在臨床的設置提供了一個機會,增強患者監測和增加膿毒症的早期診斷。
本研究驗證一種機器學習算法,洞察力,隻使用六個生命體征直接取自EHR,檢測和預測的敗血症,嚴重膿毒症和膿毒性休克mixed-ward人口在加州大學舊金山分校)。我們調查的影響誘導數據稀疏洞察力性能和比較結果與其他所有成績中常用的臨床檢測和預測膿毒症。我們另外訓練和測試算法嚴重膿毒症檢測數據來自斯坦福大學醫學中心和三個社區醫院為了更好地估計其預期的臨床表現。此外,我們應用一個transfer-learning方案定製一個多參數智能監控在重症監護(模擬)-III-trained算法使用少量的UCSF-specific UCSF病人人口數據。
方法
數據集
我們使用一個數據集提供的加州大學舊金山分校醫學中心代表病人保持在所有實驗從2011年6月到2016年3月。UCSF數據集包含17 467 987醫院接觸,包括住院和門診訪問UCSF醫療係統內的所有單位。數據鑒定符合健康保險流通與責任法案(HIPAA)隱私規則。轉移學習,我們使用了MIMIC-III v1.3數據集,從貝斯以色列女執事醫療中心編譯(BIDMC)在波士頓,馬薩諸塞州,2001年至2012年,由61年的532年重症監護室(ICU)保持。15這個數據庫是一個公開的數據庫由麻省理工學院的實驗室的研究人員計算生理、和數據也鑒定符合HIPAA。此外,我們訓練和測試算法對嚴重膿毒症檢測數據來自斯坦福大學醫學中心(美國加州斯坦福大學),16奧羅維爾醫院(美國加州奧羅維爾),貝克爾斯菲爾德的心髒病醫院(BHH;貝克斯菲爾德,美國加州)和開普地區醫療中心(CRMC;美國新澤西五月角法院)。這些數據集的細節都包含在網上補充表1和2。數據收集的所有數據集不影響病人安全。因此,本研究構成了非人類的課題研究,不需要機構審查委員會的批準。
數據提取和歸責
逗號分隔值文件的形式提供的數據並存儲在一個PostgreSQL17數據庫。自定義結構查詢語言查詢寫提取測量和患者利益的結果。測量文件為每個病人被小時然後扔進垃圾箱。要包括,病人被要求至少有一個在遇到的每種類型的測量記錄。如果病人沒有測量在一個給定的小時,失蹤的測量使用延後填寫歸責。這個歸責方法應用病人的持續測量值以下小時(因果過程)。對於多個測量在一個小時內,平均計算,用於測量一個人的地方。在被處理的數據和估算在Python中,18他們被用來訓練洞察力分類器和測試其預測在膿毒症發病,發病前在固定的時間點。
黃金標準
在這項研究中,我們測試了洞察力的性能根據各種黃金標準(臨床指征)。我們調查了洞察力的能夠預測和檢測敗血症,嚴重膿毒症和膿毒性休克。此外,我們比較洞察力的性能,先生們、馬廄和沙發,下麵為每個黃金標準。算法進行訓練和測試,我們保守識別每個腐敗的條件要求,國際疾病分類(ICD) 9代碼對應診斷編碼為每個積極的情況下,除了滿足臨床要求每個膿毒性標準的定義如下定義。
膿毒症
膿毒症的金標準是確定使用2001共識膿毒症的定義10:“兩個或兩個以上的存在感染SIRS標準搭配了一個懷疑的。確定一個案例作為陽性膿毒症,我們需要995.91 ICD-9代碼。發病時間被定義為兩個或兩個以上的眾位標準第一次見到在同一個小時。眾位標準被定義為:
心率> 90次/分鍾
體溫> 38°C或< 36°C
呼吸速率> 20次/分鍾或帕科2(肺泡二氧化碳張力)< 32毫米汞柱
白細胞計數> 12 x 109細胞/ L或< 4 x 109細胞/ L。10
嚴重膿毒症
嚴重膿毒症的金標準嚴重膿毒症的定義作為“器官功能障礙引起的膿毒症”,可以由一個或多個下麵的標準,和嚴重膿毒症患者的995.92 ICD-9代碼。我們分配嚴重膿毒症發病時間在第一個實例兩個SIRS標準,如膿毒症部分所述,和下列器官功能障礙之一標準得到滿足在同一小時內:
乳酸> 2更易/ L
收縮壓小於90毫米汞柱
尿量< 0.5毫升/公斤,超過2個小時,在液體複蘇後器官功能障礙
肌酐> 2 mg / dL沒有腎功能不全和慢性透析
膽紅素> 2 mg / dL沒有肝病或肝硬化
血小板計數< 100 000µL
國際正常化率> 1.5
動脈氧張力(PaO2(FiO) /部分靈感氧氣2)< 200除肺炎外,< 250急性腎損傷但沒有肺炎。
膿毒性休克
我們確定為積極例感染性休克患者獲得了感染性休克ICD-9 785.52代碼,另外證明下列條件:
收縮壓的< 90 mm Hg,定義為低血壓,至少30分鍾
人複蘇與≥20毫升/公斤在24小時內,還是
總共收到≥1200毫升液體。19
發病時間被定義為第一個小時當低血壓或液體複蘇的標準。
計算比較器
我們比較洞察力為每個黃金標準預測三種常見病人惡化評分係統:眾位,沙發和馬廄。接受者操作特征(AUROC)曲線下的麵積,敏感性和特異性跨所有預測模型進行了比較。眾位標準,在膿毒症的定義解釋,評估獨立於感染的嫌疑。沙發來計算分數,我們收集了每個病人的PaO2/ FiO2、格拉斯哥昏迷評分、平均動脈血壓或政府升壓,膽紅素水平、血小板計數和肌酐水平。每一個上市的測量與沙發1 - 4分,根據嚴重性級別,如所描述的文森特等。14在收到一個分數為每個六個器官功能障礙類別,整個沙發的分數計算是類別分數之和,用作比較器洞察力。最後,MEWS評分,範圍從0(正常)14(高的風險惡化),是由製表部分的得分對心率、血壓、呼吸速率、溫度和格拉斯哥昏迷評分。我們使用了subscoring係統在富勒頓等20.計算每個病人的馬廄得分。
測量和耐心包容
為了生成洞察力分數,病人數據分析從以下六個臨床測量生命體征:收縮壓、舒張壓、心率、呼吸率、周圍毛細血管血氧飽和度和溫度。我們隻用生命體征,常可用,通常在ICU,急診科(ED)和地麵單位。病人數據被用來從病人的醫院遇到的過程中,無論單位病人在收集數據時。
所有患者年齡超過18年的被認為是在這項研究中。對於給定的相遇,如果病人被送進醫院,ED訪問的開始是分析開始的地方。患者最終數據集被要求至少有一個為每個六個生命體征的測量。為了確保足夠的數據來準確地描述敗血症preonset預測在4小時,我們進一步限製了研究小組排除患者感染性條件後7小時內發病時間的記錄,這是住進醫院的時候或者ED訪問的開始;後者隻適用於如果病人被通過。一個小窗口膿毒症發病時間不足會導致測試數據做4小時的預測可能在某些情況下,這將不影響性能指標如敏感性和特異性。膿毒症患者發病後2000小時postadmission也排除,限製數據分析矩陣的大小。最後UCSF數據集包括90 353例(圖1),MIMIC-III數據集包含21 604名患者,遵循同樣的入選標準。入選標準和最終包含數字的斯坦福大學,奧羅維爾,BHH CRMC數據集都包含在網上補充表1。
病人排除後,我們最後群UCSF患者組成的55%女性和45%男性的平均年齡55歲。停留的平均住院時間是4天,差2 - 6。的90 353例,1179被發現膿毒症(1.30%),349年被確定為嚴重膿毒症不衝擊(0.39%)和614年測定膿毒性休克(0.68%)。住院死亡率為1.42%。病人遇到了各種各樣的病房。最常見的單位代表在我們研究圍手術期護理,艾德,神經科學部門和胸心血管和過渡。MIMIC-III數據集,大約44%的患者是女性,56%都是男性。停留在這個數據集通常較短,因為每個遇到隻包括一個ICU停留。停留的平均時間是2天。此外,由於重症監護的性質,有膿毒症的患病率更高(1.91%),嚴重膿毒症(2.82%),感染性休克(4.36%)。 A full summary of baseline characteristics for both datasets is presented in表1。斯坦福大學人口統計學信息,奧羅維爾,BHH CRMC數據集在網上提供補充表2。
功能建設
我們很少加工的原始生命體征數據生成功能。EHR數據提取和歸責後,我們獲得了3小時值為每個六個生命體征測量通道的小時,一個小時之前和前2小時。我們也計算兩個不同值之間的當前和前一小時,和前一小時和小時之間。我們連接這五個值從每個重要簽署一個因果的特征向量x30元素(5值從每個6測量通道)。
機器學習
我們使用梯度樹增加構造分類器。梯度樹增加是一個技術相結合的結果從多個決策樹以迭代方式。每個決策樹是由discretising特性分為兩類。例如,決策樹的一個節點可能有分層患者基於他們的呼吸速率是否大於20呼吸每分鍾。根據答案對於給定的病人,第二個,第三個,可能會檢查生命體征。風險評分是為病人根據自己的路徑生成決策樹。我們有限的每棵樹分裂不超過六次;不超過1000棵樹在迭代通過梯度增加聚合生成一個健壯的風險評分。分別為每一個不同的執行培訓任務和預測窗口,並相應觀測標記陽性模型擬合預測每個特定的任務。患者發病後的測量是不習慣積極的臨床指標。
我們進行了10倍交叉驗證來驗證洞察力的overfit性能和減少潛在的模型。我們隨機將UCSF數據集分為訓練集,由80%的加州大學舊金山分校的遭遇,和一個獨立的測試集,其餘20%的邂逅。訓練集的數據被分成十組,九是用來訓練洞察力,其中一個用於驗證。後騎自行車通過訓練集和驗證集的所有組合,然後測試每個10模型的獨立測試集。基於這些10模型計算了平均性能指標。嚴重膿毒症檢測時出現的斯坦福大學,奧羅維爾,BHH CRMC數據集,我們執行模型的四倍交叉驗證。
此外,我們訓練和驗證洞察力的性能識別膿毒症、嚴重膿毒症和膿毒性休克後刪除所有功能是用於我們的黃金標準定義為每個條件。這導致的生命體征SIRS標準的嚴重膿毒症和膿毒症指標預測,並消除對感染性休克的收縮壓和舒張壓的測量。我們也訓練和驗證算法的三個黃金標準隨機選擇,upsampled和downsampled亞種群與積極類患病率在0%至100%之間。
缺失的數據
後評估洞察力的性能完整的數據集,我們使用一個隨機刪除過程模擬算法的魯棒性缺失的測量。個人測量的測試集是刪除的刪除根據概率,P .我們組P =(0, 0.1, 0.2, 0.4和0.6)為每一個缺失的數據實驗和測試洞察力算法在稀疏數據集。
轉移學習
評估洞察力的性能上少量的加州大學舊金山分校數據,我們使用transfer-learning方法。21有明確的患者人口統計學差異,臨床特征和平均測量頻率在加州大學舊金山分校和MIMIC-III數據集之間表1)。一定程度上這是因為UCSF數據涉及到各種各樣的醫院病房,而MIMIC-III數據集隻提供了測量在加護病房。我們試圖確定改進的性能指標在加州大學舊金山分校的目標數據集,當MIMIC-III算法主要是訓練有素的。使用MIMIC-III數據作為源,和加州大學舊金山分校作為目標,我們訓練洞察力分類器根據嚴重膿毒症的金標準。變量數量的加州大學舊金山分校培訓數據逐步添加到MIMIC-III訓練數據集,以及由此產生的模型然後在單獨UCSF測試數據集進行驗證。具體地說,我們離開加州大學舊金山分校的50%患者作為測試數據,我們隨機選擇不同分數的其餘UCSF數據,結合整個MIMIC-III數據集作為訓練數據。對於使用的每個部分,我們培訓了100名隨機模型有不同的相對權重在加州大學舊金山分校和MIMIC-III訓練數據。然後,AUROC值的均值和SD為每個這些模型計算了隨機采樣集20日,和最高的模型意味著AUROC價值在這些100年使用。
結果
洞察力的加州大學舊金山分校的性能數據集對馬廄,沙發和先生們總結圖2 a - c。圖2 a - c演示洞察力的能夠準確地檢測嚴重膿毒症和膿毒症的發病,並準確地預測感染性休克發病前4個小時,相比之下,普通膿毒症得分係統的性能。每個圖的禮物洞察力的接受者操作特征(ROC)曲線在馬廄的ROC曲線,沙發,先生們。洞察力達到一個AUROC曲線膿毒症發病為0.92 (95% CI 0.90 - 0.93),對嚴重膿毒症發病為0.87 (95% CI 0.86 - 0.88)和膿毒性休克為0.99 (95% CI 0.9991 - 0.9994)與眾位相比,這表明一個AUROC 0.75,分別為0.72和0.84。即使當所有參與黃金標準測量從模型訓練,洞察力繼續證明改進的精度在眾位,馬廄和沙發,AUROC值為0.84 (95% CI 0.83 - 0.85)對膿毒症發病,為0.80 (95% CI 0.79 - 0.81)嚴重膿毒症發病和0.96(95%可信區間0.96到0.97)感染性休克發病。
比較洞察力的性能在三sepsis-related黃金標準,很明顯,感染性休克標準相對不太具有挑戰性的預測,為4小時的預測指標是比那些嚴重膿毒症和膿毒症的檢測。因此,我們顯示前4小時發病預測對膿毒性休克(圖2 c),現有工具無法充分滿足預測的標準與聲音相關的臨床使用。四個小時在感染性休克發病之前,洞察力實現了AUROC 0.96 (95% CI 0.94 - 0.98)。結果10倍交叉驗證的混淆矩陣洞察力可以在網上找到嗎補充表3和圖4。
額外的比較指標為每個黃金標準檢測的時候是可用的表2。為了比較每個黃金標準的特異性,我們固定敏感性接近0.80;我們固定一個點在ROC曲線上(即設定一個特定的閾值)在模型開發和測試算法性能選擇條件下為了顯示數據盡可能一致。我們同樣固定特異性接近0.80為了比較敏感。在所有黃金標準,0.80結果的敏感性高特異性洞察力;然而,馬廄的敏感性,沙發和先生們都顯著降低。值得注意的是,在0.80的敏感性,洞察力達到0.95的特異性敗血症,0.84 0.99為嚴重膿毒症和膿毒性休克檢測。
除了洞察力的能力檢測敗血症,嚴重膿毒症和膿毒性休克,圖3一說明了中華民國的嚴重膿毒症檢測和預測嚴重膿毒症發病前4個小時。即使提前4小時,洞察力嚴重膿毒症AUROC是0.85 (95% CI 0.79 - 0.91),也顯著高於起始時間眾位AUROC 0.75 AUROC。圖3 b總結洞察力的預測的優勢,使用嚴重膿毒症的金標準,在馬廄,沙發和先生們在同一時間點在發病前數個小時。洞察力維護一個高AUROC連續嚴重膿毒症發病前4個小時。洞察力的預測提前4小時生產的敏感性和特異性都大於發病時間每個馬廄的敏感性和特異性,沙發和先生們(表2,圖3 b)。
為了確定算法的generalisability不同的設置,我們測試了洞察力額外的病人數據集從四個不同的醫院。對嚴重膿毒症檢測出現的時候,洞察力實現AUROC超過0.92病人從斯坦福,奧羅維爾醫院,貝克爾斯菲爾德的心髒健康和CRMC (表3)。ROC曲線和比較替代膿毒症分類係統提出了這些數據集在網上補充表5 - 8和圖1和圖2)。洞察力AUROC值超過馬廄,眾位,快速沙發沙發(qSOFA)和分數相同的數據集對嚴重膿毒症發病的時候檢測。
我們排名功能重要性分類器的開發在這個實驗中,認定收縮壓的預測一直是最重要的特性做出精確的預測模型。其他功能的相對重要性基於特定的預測任務之間存在著顯著的差異。
在第二組實驗中,我們驗證洞察力的在缺失數據的存在的表現。我們測試了洞察力的檢測能力嚴重膿毒症發病的時候各種輟學的數據率。表4介紹了這些實驗的結果。隨機刪除後的數據測試集的概率為0.10,洞察力的AUROC嚴重膿毒症檢測是0.82。下降大約60%的測試集測量結果的AUROC 0.75,證明洞察力的魯棒性缺失的數據。值得注意的是,AUROC洞察力60%數據輟學略有達到更好的性能比先生們沒有缺失的數據。此外,我們的實驗應用洞察力upsampled和downsampled集顯示AUROC最大時選擇一組後,大約一半的病人會見了金本位製。移動低患病率從50%降至0%,AUROC值隻略低時急劇下降,當移動高患病率從50%上升到100%(臨床不切實際的範圍)。
轉移學習
洞察力由設計靈活,可以很容易地在一個適當的回顧數據集之前被應用到一個新患者人群。然而,足夠的曆史病人數據並不總是可用的培訓目標人群。我們評估洞察力訓練時的性能的混合MIMIC-III數據加上越來越多的加州大學舊金山分校的訓練數據,然後測試在一個單獨抵抗UCSF患者人群使用轉移學習。在圖4,我們表明,算法的性能提高的分數UCSF目標人口數據用於訓練增加。
功能很穩定的重要性在transfer-learning實驗,測量收縮壓始終發揮著重要的作用。收縮壓在發病前2小時,在開始的時候在發病前1小時,在這一秩序,是最重要的特性準確預測所有的任務。心率和舒張壓的時候開始一直是第四和第五最重要的特性,雖然重要性順序之間的兩個特性不同的任務。
討論
我們已經驗證了機器學習算法,洞察力,mixed-ward UCSF的數據,其中包括患者的ED和地板單位以及ICU病人與不同類型和頻率的測量。洞察力優於常用的疾病嚴重程度評分等眾位,馬廄和沙發膿毒症的篩查,嚴重膿毒症和膿毒性休克(圖2)。這些結果,所示表2,確認洞察力的力量在預測這些sepsis-related標準的結果。算法的強勁表現在學術和社區醫院數據用於這項研究表明潛在的強勁表現在各種未來臨床設置。
作者的知識,洞察力是第一個膿毒症篩查係統達到或超過0.90隻使用生命體征的AUROC輸入,在每個評估膿毒症的金標準。此外,洞察力提供預測功能在膿毒症發病之前,輔助分析的趨勢和生命體征測量數據之間的相關性。這種優勢是比較明顯的眾位了圖3一。嚴重膿毒症發病前4小時,InSight維護一個高AUROC高於0.85 (圖3)。這個預警的嚴重膿毒症患者傾向於擴展窗口有意義的臨床幹預。
洞察力隻使用六個常見體征來自病人的EHR發現膿毒症發作,以及預測患者大多數發展中膿毒症的風險。的性能下降洞察力識別相對於膿毒症嚴重膿毒症的發病可能部分因為器官衰竭嚴重膿毒症的特點是更容易認可通過器官功能的實驗室測試。因為我們還沒有合並代謝功能麵板的驗證洞察力,器官衰竭的檢測隻使用六個常見體征可能更加困難。在實踐中,洞察力適應不同的輸入和能夠把實驗室結果可用。將這些結果很可能增加的性能洞察力對嚴重膿毒症的檢測和預測。然而,在這項工作中,我們選擇基準的性能洞察力一般隻使用六個測量生命體征。代謝麵板實驗室測試的順序通常是基於臨床醫生涉嫌嚴重膿毒症,因此,早期或開發情況下可能會有遺漏。此外,由於這些至關重要的信號輸入不需要時間實驗室結果或額外的手工數據輸入,監測洞察力頻繁,因此,敗血症條件中發現更及時。最小的數據需求也減輕了負擔,實現在臨床設置和擴大的潛在臨床應用洞察力。
雖然洞察力隻使用少量的臨床變量,它維護一個高水平的性能實驗的隨機缺失的數據。我們將演示在表4嚴重膿毒症的檢測,即使有60%的隨機測試病人數據丟失,洞察力仍然達到稍微更好的性能與眾位計算完整的數據可用性。
此外,我們的customisability調查洞察力到當地醫院統計數據和測量。特定站點數據的合並使用轉移到訓練集學習提高了性能測試集,對訓練集的完全由一個獨立的人口。這表明它可能會充分的訓練洞察力用於一個新的臨床,同時仍然主要使用現有的回顧數據從其他機構。此外,upsampling和將采樣實驗的結果表明,洞察力可能隻是稍微不那麼有效(AUROC而言)設置膿毒症患病率較低,嚴重膿毒症或膿毒性休克,比加州大學舊金山分校或更有效的患病率高於加州大學舊金山分校。
我們之前的研究中,對早期版本的執行模型,調查了洞察力應用於個人敗血症等標準SIRS標準膿毒症,22嚴重膿毒症23和膿毒性休克,24在模擬回顧性數據集。我們還開發了一個相關的算法來檢測病人的穩定性25並預測死亡率。26日27日然而,這項研究中,評價顯著改進算法,首次申請洞察力這三個標準同時膿毒症的定義,並驗證該算法在混合區人口,包括ED,來自加州大學舊金山分校ICU病房和地板。這項研究也是第一次隻使用六個最小的生命體征,不使用精神狀態評估比如格拉斯哥昏迷評分,甚至年齡,在膿毒症的檢測和預測標準。
單獨為每個黃金標準模型訓練和預測窗口在這個研究進一步證明機器學習方法的潛在臨床效用。除了培訓在一個特定的病人,機器學習方法可以允許開發的預測模型根據醫院的獨特需求,數據可用性實踐和現有的工作流。任何一個模型的開發在這項研究中可以獨立部署在臨床設置;選擇模型部署將取決於特定的醫院的需要,和預期的性能權衡不同的模式選擇。此外,這項研究證明了適應性的一個全新的病人數據的機器學習算法明顯不同的人口統計數據和結果通過特定站點再培訓和transfer-learning技術。
限製
當我們合並來自多個機構的數據,我們不能要求generalisability其他人群的結果的基礎上,本研究。然而,我們使用的極小性輔助數據進行預測。作為洞察力隻需要六個最基本的和廣泛使用的臨床測量,很有可能,它將執行同樣在其他設置如果生命體征數據是可用的。黃金標準引用我們用來確定敗血症,嚴重膿毒症和膿毒性休克依靠ICD-9代碼從醫院數據庫。這個標準可能會限製我們的能力來捕獲數據集,所有患者膿毒症應該已經確診或不當記錄。行政編碼過程可能不同,醫院和並不總是準確地再現結果手工圖審查對膿毒症診斷,雖然ICD-9代碼之前驗證在嚴重膿毒症的檢測精度。28EHR是基本的生命體征測量的測量定期收集來自所有病人不管醫生的診斷和獨立的判斷,因此這個輸入洞察力不依賴於時間的臨床診斷。然而,實驗室測試的順序取決於醫生懷疑,和這些輸入的時機可能反映了臨床醫師的判斷而不是真正的起始時間,可能會限製我們的分析的準確性。
而歸責和平均采樣頻率功能建設之前執行取消了一些信息,這些方法不刪除所有non-physiological係統固有的信息。進一步,可用的歸責最近過去的測量可能人為地改變的速率時間病人生命體征的變化,我們納入特征向量,這可能反過來影響風險預測。平均多個病人可能同樣刪除信息測量生命體征的變化。
重要的是要注意,我們設計研究作為一個分類任務,而不是一個比較模型實驗,因為前者是更常見的文學。29-32選擇不允許使用一個既定,組標準的性能指標如AUROC和特異性沒有自定義修改,並將使它更加困難,比較本研究之前在地裏工作。本研究進行了回顧,所以我們不能讓聲稱關於性能在未來的環境中,涉及的解釋和使用洞察力由臨床醫生的預言。此外,我們的入選標準要求至少7個小時的病人數據膿毒症發病前也限製generalisability臨床預測會實時接收數據。算法的性能在臨床設置將會合理地獲得低於其在本研究回顧性性能。最後,我們隨機刪除的數據並不一定代表數據的匱乏,因為它會發生在臨床設置失蹤測量的速度將取決於標準的數據收集,可以相差很大,特別是ED之間,一般病房和重症監護病房。我們打算評估這些算法在未來工作的前瞻性臨床研究。
結論
我們已經驗證了機器學習算法,洞察力在一項多中心研究,包括人口mixed-ward來自加州大學舊金山分校和BIDMC ICU人口。洞察力提供高敏感性和特異性的檢測和預測膿毒症,嚴重膿毒症和膿毒性休克使用分析隻有六個常見的生命體征來自電子健康檔案。洞察力優於評分係統在當前使用的檢測膿毒症,是健壯的大量缺失的患者數據,可以定製小說網站使用有限的特定站點的數據。我們的結果表明,洞察力優於目前工具用於敗血症sepsis-related檢測和預測可能導致改善患者的結果。
確認
我們承認哈斯。Gampa的援助,和艾米麗安娜·Lynn-Palevsky Huynh編輯貢獻。我們感謝哈米德Mohamadlou和托馬斯Desautels博士對機器學習算法的發展,貢獻洞察力。我們也承認Zirui江寶貴的計算幫助。我們感激地感謝馬修·N好,醫學博士,博士安德裏亞·麥考伊和克裏斯•Maupin RN,獲取病人的數據集。我們也感謝Gomathi Krishnan博士和步幅援助這項研究和對病人數據的訪問。步(斯坦福轉化研究集成數據庫環境)是斯坦福大學的一個研究和發展項目來創建一個基於標準信息平台支持臨床和轉化研究。描述的項目得到了國家研究資源中心和國家醫學轉化中心,國家衛生研究院,通過資助UL1 TR001085。內容是完全的責任作者,不一定代表美國國立衛生研究院的官方觀點。
引用
腳注
貢獻者QM、JC和RD構思所描述的實驗。DS獲得加州大學舊金山分校(UCSF)數據。QM和YZ執行實驗。QM, RD, JC和喬丹解釋結果。QM,喬丹和JLH寫的手稿。QM, RD,喬丹、JLH JC, CB, DS, LS,加州大學,女友和YK修訂後的手稿。
資金研究報告在這份出版物是由美國國家科學基金會支持下格蘭特沒有1549867。
免責聲明內容是完全的責任作者,不一定代表美國國家科學基金會的官方觀點。
相互競爭的利益所有作者從屬關係列出Dascena(美國加州海沃德)Dascena的雇員或承包商。從Dascena CB報告收到谘詢費。CB、LS、DS和女朋友收到Dascena贈款資金報告。
病人的同意不是必需的。
出處和同行評議不是委托;外部同行評議。
數據共享聲明沒有數據來自加州大學舊金山分校、斯坦福、奧羅維爾醫院,開普地區醫療中心或貝克斯菲爾德心髒醫院在這項研究中可以共享或提供開放獲取。多參數智能監控inIntensive保健III (MIMIC-III)是一個公開的數據庫。請訪問https://mimic.physionet.org在使用MIMIC-III數據庫的信息。