條文本

原始研究
預測心力衰竭1年之前在全科醫生診斷病人使用機器學習算法:一項回顧性病例對照研究
  1. Frank C班尼斯1,2,
  2. 馬克。例如1,
  3. 克萊爾Aussems2,
  4. 笑話C Korevaar2
  1. 1計算機科學部門,sccp阿姆斯特丹,阿姆斯特丹、荷蘭
  2. 2荷蘭衛生服務研究所(壞膽固醇),烏特勒支、荷蘭
  1. 對應到Frank C班尼斯博士;f.c.bennis在{}vu.nl

文摘

目標心力衰竭(HF)是一種常見的健康問題與高死亡率和發病率。如果潛在的情況下可以被探測到,它可能會進行幹預前,一些病人進展緩慢。最好,希望重用已經測量數據篩選的人在一個年齡段,如全科醫生(GP)的數據。此外,至關重要的是評估的人數需要屏幕上找到一個病人使用真正的發病率,這表明generalisability在真正的人口。因此,我們的目標是創建一個機器學習模型預測的高頻使用GP數據和評估需要屏幕數量與真正的發病率。

設計,設置和參與者GP數據從8543個病人(−2−1年之前診斷)和控製70 +歲獲得回顧性分析從01 2012年1月至2019年12月31日或初級保健數據庫。編碼對慢性疾病,投訴、診斷和藥物治療。火車/測試集數據分割。數據集描述人口,存在的編碼(非時序的)和在對方後編碼(順序)。邏輯回歸,隨機森林和XGBoost模型訓練。預測結果的存在高頻後1年。案例:比例控製在測試設置匹配真發病率(1:45)。

結果唯一人口平均執行(曲線下的麵積(AUC) 0.692,可信區間0.677 - 0.706)。添加非時序的信息結合邏輯回歸模型的表現最好,顯著提高性能(AUC 0.772,可信區間0.759 - 0.785,p < 0.001)。進一步添加順序信息沒有改變性能顯著(AUC 0.767,可信區間0.754 - 0.780,p = 0.07)。屏幕上所需的數量從14.11下降到5.99假陽性/真陽性。

結論本研究創建了一個模型能夠識別患者等待高頻前一年的診斷。

  • 心髒衰竭
  • 預防醫學
  • 公共衛生

數據可用性聲明

沒有數據是可用的。腳本,而不是數據本身,都是共享的。

http://creativecommons.org/licenses/by-nc/4.0/

這是一個開放的分布式條依照創作共用署名非商業性(4.0 CC通過數控)許可證,允許別人分發,混音,適應,建立這個工作非商業化,和許可他們的衍生產品在不同的協議,提供了最初的工作是正確地引用,給出合適的信用,任何更改表示,非商業使用。看到的:http://creativecommons.org/licenses/by-nc/4.0/

來自Altmetric.com的統計

請求的權限

如果你想重用任何或所有本文的請使用下麵的鏈接,這將帶你到版權稅計算中心的RightsLink服務。你將能夠獲得快速的價格和即時允許重用內容在許多不同的方式。

本研究的優點和局限性

  • 承諾模型預測心力衰竭的基於連續和不連續的全科醫生(GP)數據開發,優於簡單的人口。

  • 人數預測模型顯示了一個相對較低的需要屏幕,這可能進一步減少當加上一個額外的低成本和非侵入性的方法如心電圖。

  • 本研究使用真正的發病率比心髒衰竭的病人年齡超過70歲,指示性能generalisable真正的人口。

  • 順序GP數據不包括代碼,持續時間可能限製性能。

  • 包括算法基本相當。更高級的算法如複發性神經網絡可能會進一步提高性能。

介紹

心力衰竭(HF)是一種常見的健康問題,據估計發病率及患病率為14.4,1000年為7%的患者年齡在55歲以上,分別。1預計的患病率仍在增長,增加了22.7%在2012 - 2030年期間在美國。2高頻很重要的成本,增加多達2%的醫療保健費用。3 4盡管保健,發病率和死亡率仍居高不下。患者診斷為心力衰竭,死亡率10.4% 30天之後,這就增加到22%和42.3%在1年和5年之後,分別。5如果新診斷的患者可以之前檢測到潛在的情況下,它可能會進行幹預。幹預可能會減緩病情發展診斷心衰的患者,從而提高生活質量,醫療費用和預期壽命。6此外,早期發現病人可能幫助創造的前瞻性研究來測試(新)幹預的效果,為病人尚未確定,因此最優幹預沒有定義。

幾個選項被調查這可能有助於診斷心衰的早期階段,但這些都取決於額外的測量,如心電圖,正電子發射斷層掃描術(PET - ct),具體的實驗室測試,等等。7號到9號除了額外的工作,已經有涉嫌高頻執行這些測量,表明這不是一個真正的掃描測量。此外,這種方法可能會導致很多患者的測試來檢測高頻在病人相對較少,導致高成本和高負載在患者和臨床醫生。未決的概率預測高頻的每個人(選擇)的人口通過重用標準的收集數據,也就是說,全科醫生(GP)數據,最大限度地減少額外的測試來高幾率的病人隻有在創建一個真正的篩選方法。這可能導致更少的測試,從而便於患者使用和實惠的篩查工具。因為它預計,心力衰竭患者已經投訴,但這並不表示這樣的或與之相關的不同疾病,我們假設現有的信息篩選工具是有錢對心衰的早期預測。然而,對於一個篩選工具,應該高特異性,因為當結合發病率低,模型將很快導致大量的假陽性預測。因此,這種工具可能更有益並且在全科醫師提醒心衰的風險增加醫生的病人他們看到那一刻,促使進一步質疑投訴和可能出現的高頻。

實現這樣一個工具一個可能的方法是機器學習的應用程序模型診斷或預測疾病的病人。建議機器學習模型可以提高醫生護理,10 11機器學習模型,基於電子健康記錄(EHR)數據之前能夠預測心力衰竭診斷與合理的精度數據集和一個人造的例子:控製比例。12日13然而,臨床使用是有限的,因為(1)人工案例:控製並不能反映真實的人口比例,使性能上實現未知,(2)患者年齡和性別相匹配,這有助於在評估如何本身執行的機器學習模型。然而,由於年齡和性別影響高頻的機會,這是一個重要的變量來考慮篩選算法,和(3)這些模型並不利用可判斷的時間依賴性,例如,腳踝水腫的發展在慢性阻塞性肺疾病(COPD),這可能會提高心力衰竭的預測。預測模型,利用時間依賴性的高頻可說明的或可說明的不僅僅是分離變量的影響隨著時間的推移而不是順序的組合變量的影響。13日14因為實施可解釋性是必要的,這限製了臨床應用。然而可翻譯的序列可以提高準確性,先前的研究預測結直腸癌使用肝素誘發GP數據和血小板減少症可翻譯的序列,提高預測精度。15日16

我們假設,結合機器學習模型EHR GP的數據以及時態模式能夠給患者群體的可判斷的結果是準確的,足以讓進展下一步,這是外部驗證評估在臨床環境中緊隨其後。因此,我們的目標是開發一個模型能夠識別高頻診斷前1年發生在醫生使用現成的全科醫生護理數據,評估實際的發病率。

方法

數據

包括數據

全科醫療的數據或初級保健數據庫使用,含有約10%的荷蘭人,超過170萬名患者和荷蘭人口的一個代表性樣本。17數據來自2012年1月1日到2019年12月31日期間。隻有病人,70歲或更老的選擇,自比70年年輕的患者發生率很低(例如,1000年的1.4人每年在年齡範圍55-59年)。1由病人的人口統計數據,疾病、藥物、診斷和慢性疾病。病人人口妥協一個匿名病人代碼,出生年份,性別,匿名全科醫師ID和開始和結束病人的登記的全科醫師每3個月。醫療投訴記錄指定的國際分類主要Care-version 1 (ICPC-1)。18ICPC包含代碼使用投訴的分類的全科醫生,診斷和症狀,也就是說,代碼K77高頻。荷蘭社會的GPs跟蹤指導全科醫生對心力衰竭的診斷,並沒有改變在2012年和2019年之間。藥物分類根據解剖學治療化學(ATC)計劃。19ATC方案將藥物分為組織層次五層,從解剖通過治療和藥物化學群子組。ATC代碼在本研究中被剪第二層次(如乙型阻斷劑、C07)。第二個層次是選為它包含相關信息在更詳細的級別可能會導致過多的稀疏,導致不準確的預測。診斷包含每個物理、實驗室或其他測量(即生活方式建議,吸煙或戒煙的建議)由GP和使用提供的荷蘭醫生描述代碼診斷(NHG代碼)。對於診斷測試,測量代碼和相應的提取結果。此外,日期對應ICPC編碼、ATC編碼和診斷。此外,慢性疾病或疾病在過去最少1年時間被指定為慢性病ICPC代碼和相應的開始日期。20.

排除數據

患者被排除在外,如果沒有有效的連續數據段至少3年出現自2012年1月1日和2019年12月31日之間。選擇一段3年,因為數據選擇從一個病人開始2年之前的診斷。因為診斷隨機發生在最後一年,而不是一個包括,至少連續3年是必要的。此外,如果從醫生辦公室提供的數據不完整(缺少至少一半的四分位數的開始或結束一年)或者GP實踐貢獻少於500名患者,相應的年全科醫生的患者被排除在外,每全職醫生病人的平均數量是2095。如果藥物數據,ICPC數據或診斷數據提供一年不到46周,對應的年全科醫生從數據庫中刪除。全科醫師可能關閉了幾個星期,這不是設定在52周。此外,研究行政數據進行了質量改進的過程,這是標準含量的政策。對於每一個參與實踐,我們檢查他們是否注冊一個有意義的ICPC代碼至少70%的磋商。17日20有意義ICPC代碼被定義為代碼範圍1至29或70 - 99。R44機身內部(疫苗)和X37 (Pap塗片)也被認為是有意義的。ICPC代碼A97(疾病)和A99(普遍疾病)並不被認為是有意義的。這執行刪除,因為壞ICPC登記代碼導致低估真正的發病率。此外,在85%的細胞含有藥物,一個有效的ATC代碼應該被登記。缺失的患者年齡或性別或與已知的高頻數據收集之前從數據庫中刪除。

病人和公眾參與

患者或公眾沒有參與設計,或行為,或報告,或傳播我們的研究計劃。那將是可行的,包括病人反饋實現的可接受性的GP算法。

額外的預處理數據

診斷信息被刪除,如果診斷代碼NHG數據庫中不存在。診斷代碼1966年、3850年、3581年和1968年(四個措施(pro)腦利鈉肽)通常當高頻懷疑但互換測量指標。由於懷疑這些變量的相似性測量的重要性,這些組合在一起給了每一個的四個編碼相同的代碼,名為“法國”。

數據提取

目標選擇

目標變量是心力衰竭的診斷(K77 ICPC代碼)。這個目標變量表示為1,如果病人有一個醫生谘詢ICPC-1代碼“K77”。第一谘詢ICPC代碼用作診斷日期。對於每個案例,隨機選擇相同的全科醫師的控製權。年齡和性別不匹配的情況下,雖然年齡必須高於70年的閾值。隨機選擇的起始日期控製在可用數據的控製,同時留下一段足夠長的時間的數據。對於每一個案例,一個控製。每個控件在整個數據集包括隻有一次。對於每個案例,1年的觀察窗從−−1年2年之前診斷被選中(圖1一個)。1年的觀察窗顯示導致精度高,21雖然預測窗口(診斷前1年)1年保證的可能性在早期階段開始預防。

圖1

(一)數據收集前2−−1年全科醫生的診斷。(B)在本例中,數據包含四個不同的代碼。寬度相等的N垃圾箱創建。代碼分為這些箱子。(C)連續信息(長度是1、2或3)從箱子中提取和相應的代碼。編碼相同的本表示co-occurrent(+),而編碼在不同的垃圾箱在對方(−>)。所有可能的組合與這四個碼C所示。

創建數據集

創建兩個單獨的數據集:一個不連續的和連續的數據集。描述的非時序的數據集是否衛生投訴(ICPC代碼),慢性疾病(一集ICPC代碼),處方(ATC代碼)或診斷代碼(NHG代碼)在選定的時間間隔。因此,不包括時間信息。順序數據集設計包括時間信息和ICPC之間,慢性ICPC、空中交通管製和診斷代碼的形式在彼此以下代碼(如心肌梗死乙型阻斷藥物緊隨其後)。概述的計算順序的數據了圖1。這些代碼定義一個序列,因此順序數據集的名稱。包括變量的數據集不同但包含相同的病人。數據集被用來預測高頻提取的目標變量。

不連續的數據集

每個代碼除了慢性ICPC,檢查代碼的開始日期是否落在選定的時間間隔。慢性ICPC,檢查如果開始日期結束前的時間間隔。如果這些條件都滿足,相應的ICPC代碼,代碼慢性ICPC, ATC或診斷代碼變量設置為“1”的值。作為額外的變量,訪問0的存在但不包括1個月,1 - 2個月,2 - 3個月,3 - 12個月結束之前選擇的時間間隔。變量出現在不到5%的患者和不到5%的控製被移除,因為太多的變量會導致過度擬合的夾雜物,降低模型的性能在一個新的數據集。22在創建數據集,每一行代表一個病人和一個變量,每一列的單元格值(1或0)表示該變量是否病人的間隔。

順序數據集

包括ICPC之間的序列信息,慢性ICPC ATC診斷代碼,代碼的代碼和日期都考慮在內。此外,額外的預處理是必要的。

額外的預處理

為順序數據集、慢性ICPC代碼,ATC代碼和診斷代碼是另外預處理。慢性ICPC的日期代碼設置為選中的開始時間間隔(如代碼發生前第一次約會的時間間隔)。時間信息包括慢性規範並沒有考慮。ATC代碼至少發生三次180天之前90天之後開始的時間間隔被解釋為慢性藥物,通常重複每90天,包括與相對應的日期隻有一次選擇的時間間隔的開始。診斷代碼,隻有數值和分類代碼和相應的價值考慮在內。數值代碼沒有數值(如自由文本、標誌、範圍或沒有價值)被排除在外。分類編碼,我們每個代碼包括每個值作為一個單獨的變量自值不是順序,從而阻礙線性模型,例如,1739 _1,1739和1739 _4是肯定的鹽以及沒有和以前的問題如果病人吸煙,分別。實驗室測量的數值應與有意義的參考價值,也就是說,以確定如果一個測量值過高,正常或偏低。在這項研究中,每一個數值都與以前相比數值相同的診斷代碼的病人,表明增加、減少或穩定(允許水平的波動)測量對以前的測量(代碼+“_up”、“_down”或“_norm”),創建三個可能的選項。第一個值與均值的人口以類似的方式因為沒有先前的測量。

代碼列表的每個病人被要求根據日期。隨後被封存的時間間隔在12箱的寬度相等,對應1個月的寬度(圖1 b)。每個代碼組的日期根據本他們的第一次約會,每個代碼隻包含一次在一個垃圾箱。這將確保(1)相同的代碼在一個小地區的時間沒有重複,和(2)不同的編碼與相同的問題,但沒有測量相同的日期(如診斷代碼後ICPC代碼)設置為同一天。每個代碼的持續時間設置為一天,因為沒有在真正的時間是準確的信息。

序列的計算

序列被定義為一個事件的發生在本不同的事件在同一本(共生)或一個事件在一本後時間(圖1 c)。以來幾乎無限數量的序列可以存在,導致大量的罕見的序列沒有附加值,降低generalisability和計算效率低下,需要選擇性,也就是說,隻有選擇序列都存在於一定的閾值(這裏10%由於高增加的特性和時間以較低的成本水平)的病例或控製。序列的長度變化在這項研究中從一個事件(如高血壓)三個事件(即高血壓緊隨其後的是抗血栓形成的代理與利尿劑)。必須指出的是,一個代碼的時間(即病人投訴)多長時間設置為1天,真正的時間是未知的。因此,不可能找到一個正在進行的代碼在另一個代碼開始(同現)。同現的研究表明,兩種編碼開始在同一時間相同(或本)。長期以來ICPC和ATC代碼將第一個可用的日期、同現與這些慢性編碼剩餘的期間是不可能的。這樣做是為了確保序列顯示新的信息:如果某個ICPC代碼或藥物代碼存在,它不僅僅是一個常規藥物治療或檢查慢性疾病,這可能限製的信息序列,但一些新的病人的醫生。更詳細的解釋在序列的計算可以發現從山岡和Batal15日16在我們的研究中使用的算法的實現是基於腳本提供的小山15模式識別導致表類似於不連續的數據集時,而是有一個代碼,每一列表示一個模式的存在。

學習子集

評估六個子集創建允許特定變量組(人口、不連續的和連續的)。以下六個子集定義的訓練算法(表1):

  1. 人口數據:在這個子集,隻有年齡和性別作為變量,因為它預計,這些變量對預測作出了重大貢獻。

  2. 不連續的數據:這個子集包括不連續的數據集描述的變量,以及信息如果病人與醫生接觸0 - 1、1 - 2、2 - 3、3 - 12個月結束前的數據收集(yes / no)。不包括年齡和性別。

  3. 擴展非時序的數據:這個子集結合人口數據和非時序的數據子集1和2。

  4. 順序數據:這個子集包括序列變量以及信息如果病人與醫生接觸0 - 1,1 - 2、2 - 3、3 - 12個月結束前的數據收集(yes / no)。不包括年齡和性別。

  5. 擴展序列數據:這個子集包括序列數據和人口數據子集1和4的總和。

  6. 完整的數據:這一部分包括人口數據、不連續的數據和連續的數據子集1、2和4。變量存在多次隻考慮一次。

表1

變量包含在每個數據集

模型開發

模型訓練方法圖2對於每個子集描述六個。此外,使用邏輯回歸模型訓練,隨機森林23和一個XGBoost算法,24因為這些算法能夠提供良好的結果。25一旦數據分為訓練集分層80%和20%的測試集,選擇的病人和控製在火車上為每個數據集和測試集是相同的。每個算法,隨後變量選擇(步驟1),hyperparameter優化(步驟2),模型訓練訓練集(步驟3)和模型在測試集測試(步驟4)進行。情節表明病人檢查的數量和正確識別病人的數量是用於臨床評估每算法和數據集。此外,接收器算子特征(ROC)曲線表明最優模型性能,而混淆矩陣和敏感性,特異性和準確性在Youden指數(敏感性和特異性的最佳組合)為每個模型的進一步檢驗。

圖2

算法的流程圖進行變量選擇,hyperparameter優化和模型訓練和測試。從預處理,粗線之後,而虛線表示數據使用。這四個步驟分別表示。這個流程圖是對每個算法在每個數據集。AUC,曲線下的麵積。

步驟1:變量的選擇

變量選擇在訓練集上執行使用貪婪了變量選擇分層(FFS)算法與內部5倍交叉驗證。FFS測試算法的性能與每一個變量,其中最好的是包括在內。隨後,性能最好的選擇變量除了選擇變量和重複,直到不進一步改善性能,導致最優變量集。26算法是一樣的算法用於hyperparameter優化和模型訓練,雖然默認hyperparameter設置用於每個算法(在線補充附錄A,表A1)。曲線下的麵積(AUC)評分作為性能指標。最多100個變量可以被選中,因為它發現了較高的性能沒有增加數量的變量。所有的變量和單位方差比例意味著零(即z分數)對整個數據集。這可以防止算法參數影響的範圍。隨著當前使用的算法相對強勁,尤其重要的是對未來算法可用於當前數據。

步驟2:hyperparameter最優化

在變量選擇、最優hyperparameters選擇算法與最優數量的變量選擇。變量選擇本身並不取決於hyperparameter選擇過程。選擇最優hyperparameters讓可用數據集的算法有更好的表現。為此,一個網格搜索(使用每一個評估性能的組合hyperparameters)為每個組合進行預選hyperparameter配置(在線補充附錄A,表A2分層),使用5倍交叉驗證與優化基於AUC。比例為零均值和單位方差進行每一次的培訓折疊和應用之間的測試褶皺,防止數據泄漏培訓和測試折疊。

步驟3:模型的訓練

hyperparameter優化後,結合最優變量的最優hyperparameters這些變量是已知的。完整的模型訓練訓練集與零均值和單位方差比例。預測模型的訓練數據集和一個1:1比例的病例:控製,嚴重非均衡比率可能推動算法來預測偏向於統治階級的。

步驟4:模型測試

調查人口模型的性能在一個真正的臨床,我們增加了對照組的測試集獲得比1:45情況下控製相應的真實發生率選定的人口。隨機選擇額外的控製沒有匹配的全科醫生但最低年齡70和預處理以類似方式原始控製。1:1比例的變量確定為不連續的和順序數據集被選中。擴展了根據在模型訓練獲得的。訓練模型被用來測試這個高檔的性能測試集。ROC曲線之間的意義進行了測試使用腳本通過Kazeev的陽光和徐的實現方法。27 28

結果

人口統計資料

總共25 939獨特的心力衰竭患者第一次診斷在2014年(第一次約會高頻可能呈現前2年的數據)和2019年。這25 939名患者,12 068患者3年的連續數據正確注冊醫生,表示的排除標準。這12個068例,8543例所需的時間(2年)診斷前的數據。因此,總共8543名病人和8543個對照組被包含在1:1比例數據集。病人特點給出了表2。數據集的測試集由20%,也就是1709病人和1709個對照組。額外的75 196獨特的控製被包含在1:45比率測試數據集。不連續的數據集最初由2245個變量,其中1966變量被移除,因為他們沒有出現在5%的情況下或控製。最後六個數據集包括2,279年,281年,1193年,1195年和1407年的變量,分別。總共有171名(2.00%)患者和417例(4.88%)控製沒有訪問GP(沒有ICPC代碼存在)在選定的時間。在不連續的數據集時,4個變量描述ICPC代碼的數量在選定的時段,58個變量是慢性ICPC代碼,36症狀ICPC碼,147被診斷代碼和34 ATC代碼。136年順序數據集序列由一個變量,604兩個變量和449三個變量。四個變量描述ICPC代碼的數量在選定的時段。30 136一個變量組成的序列,序列包含慢性ICPC代碼,73包含症狀ICPC代碼,包含診斷代碼和25包含ATC代碼。 Of the original 17 086 patients, BNP measurements were performed in 1018 (6.0%) patients, of which 724 (8.5%) cases and 294 (3.4%) controls. These BNP measurements are done in the evaluated time period, that is, −2 to −1 year before the diagnosis of HF. Therefore, the number of measurements is lower than expected when used for diagnosis of HF in the Dutch GP care.

表2

病人的特點

模型的性能

的使用hyperparameters FFS算法給出了在線補充附錄A,表A1。搜索和選擇的hyperparameters完整列表中給出了每個算法和每個數據集在線補充附錄A,表A2。變量選擇的每一步FFS算法擴展不連續的數據集和完整的數據集結合邏輯回歸算法給出了在線補充附錄A,表A3。隻顯示這些數據集和算法的組合,這些導致了最高的預測性能。

在1:45比率模型性能評估測試集(表3圖3)。圖3一隻顯示了邏輯回歸模型,這是表現最好的模型。增加兩個比率,一個清晰的ROC曲線下的麵積為擴展的非時序的數據集是與人口相比或不連續的數據集。順序數據集的擴展順序數據集改善了AUC的人口數據集。結合所有數據的不完整的數據集,進一步提高性能。幾乎所有的數據集的邏輯回歸算法表現最好。混淆矩陣提供了表現最好的模型表b1b3在線補充附錄B

圖3

接收機操作特征曲線(A)和正確診斷和數量需要屏幕(B)使用人口、邏輯回歸模型擴展1:45比非時序的和完整的數據集。AUC,曲線下的麵積。

表3

性能測試集的比例1:45 /算法/數據集

醫生設定的“最優”的表現是模糊的;我們的目標是識別盡可能多的病人,但是沒有太多的假陽性,這將導致報警疲勞,不必要的測試和治療方案。因此,雖然精度,靈敏度、特異性和混淆矩陣提供了最高Youden指數,表演是另外一塊中提供正確的診斷和數量需要屏幕(圖3 b屏幕)和需要的數量在10%的情況下,目的是找到(表4)。

表4

的患者數量確定為例(真和假陽性)和假陽性的數量的檢測一個如果10%的病例被發現在1:45比率(真發生率)

變量的重要性

邏輯回歸模型的變量重要性擴展不連續的數據集和完整的數據集所示圖4。必須指出的是,由於相互作用,變量重要性隻顯示一個想法。正如所料,年齡是最重要的變量的預測高頻的延伸不連續的數據集的完整的數據集。對於這兩個數據集,可以將多個重要變量相關的生理高頻或已知的危險因素,如心肌梗死、心房纖顫,糖尿病2型和吸煙。幾個變量往往顯示衝突的體重,也就是說,腳踝水腫的存在降低了高頻的機會,雖然它是一個已知的危險因素。這是由於模型的性質和可能的變量之間的相關性,並見在線補充附錄C表C1和C2,相關係數、負重量通常不是伴隨著負相關係數。此外,幾個變量顯示這很難解釋,如膝蓋的關節或性功能障礙。可能的原因可能是變量之間的相互作用,表明變量實際上代表一個不同的疾病。此外,一個變量的存在可能會在某些情況下觸發調查高頻,這樣它才會預測在此設置接近心力衰竭診斷。

圖4

變量重要性的20個最重要的變量為擴展的非時序的數據集使用邏輯回歸算法(A)和(B)完整的數據集。英國石油(BP)血壓;糖尿病、糖尿病;全科醫生,一般oractitioner;高密度脂蛋白,高密度脂蛋白;低密度脂蛋白、低密度脂蛋白;老城,腎素血管緊張素醛固酮係統。

討論

本研究旨在開發一個模型能夠預測心力衰竭診斷之前1年注冊由醫生根據醫生過去一年收集的數據。正如所料,年齡是一個重要的變量,導致使用人口數據集的發現模型實現了足夠的AUC雖然不是非常具體。顯著提高性能的非時序的變量沒有重疊的95%可信區間的auc,增加了模型的特異性水平,它可以是有趣的在GP的人口風險評估實踐。將連續變量添加到(擴展)不連續的模型導致的AUC略低性能。95%的CIs的AUC曲線擴展非時序的和完整的數據集顯示大重疊沒有顯著差異。有趣的是,盡管AUC不是最高的,完整的數據集上的邏輯回歸算法有最少的假陽性當旨在發現病例的10%。

連續變量沒有改善預測。比較的性能擴展不連續的數據集的擴展順序數據集時,擴展順序數據集導致較低的AUC雖然與重疊詞,盡管大多數的變量擴展中不連續的數據集也出現在設計的擴展順序數據集(序列碼的長度可以被視為非時序的代碼表示的代碼)。此外,添加序列擴展的非時序的數據集沒有導致增加性能。一個可能的解釋可能是,連續的數據建立的非時序的信息,因此部分包含相同的信息。順序數據可能因此增加的數量有限的信息而引入的變量。然而,其他研究使用順序數據發現時間序列預測精度增加。15日16然而,使用的變量也相關,例如重複的代碼。15因此,我們認為這種方法會有附加價值在一些問題,雖然它有較低的附加價值等其他問題的研究。此外,它必須指出,(1)同現是不完全相同的由於數據限製和(2)的病例或比例控製序列應該不同。這些差異可能改變序列合並的影響。

自診斷的醫生是當前標準,每個真正positive-identified病人標識1年前比正常。在實際實現中,模型的進一步發展是必要的。有重要因素解決在進一步發展和實現。首先,假陽性的數量:篩選的人口會導致大量的假陽性,導致過度檢查的醫生和隨後的病人壓力,已經出現在全科醫生照顧。29-31隨後,醫生可能會經曆報警疲勞,導致靈敏度降低警報。32在這項研究中,假陽性率降低通過識別病人的模型是最自信:正確地識別170個病人(±10%)對應於一個共有1189名患者積極的分類,其中1019錯誤(5.99假陽性的情況下,表4)。這意味著,如果一個全科醫師每年有20例高頻,識別2例一年前與隨後的早期幹預導致12名患者被確認為誤報。所有14個病人將確定為風險。在將來的模型設定,我們設想,高危患者可遵循的全科醫生進一步降低假陽性率。第二,後續執行:模型可能會給醫生表明心力衰竭的病人是未來發展的風險。隨後醫生可以決定做進一步測試非侵入性和時效方法如心電圖或實驗室測量(如BNP水平,具有較高的診斷價值),7 33這可能使進一步縮小的病人。如果更多的風險,可以執行一個回聲,這表明嚴重程度和可能有助於進一步預測。34最好的步驟,後續將取決於未來的研究也在臨床偏好,所需時間和病人的影響。更高的患者數量的全科醫生執行後續可能會導致早期識別更多的病人。同時,跟蹤和測試等可能導致增加的壓力,必須找到一個平衡。

模型的進一步發展後,例如,通過使用更複雜的學習算法,傳統的價值等措施BNP在病人選擇開發模型應該評估。之後,模型的療效和臨床醫生的經驗的總和應與當前標準相比,它本身就是一個臨床醫生。護理應繼續將臨床醫生的技能和經驗通過添加這些因素的價值,而不是取代他們與模型預測。此外,盡管在高風險患者早期幹預並顯示減少高頻的發展,6早期診斷和幹預順序提出的影響仍需研究。給定一個積極的影響,該模型可以實現一般的全科醫生製度,直接顯示患者心力衰竭的風險開發是否每個病人如果問。必須指出的是,模型使用荷蘭全科醫生的電子文件,因此目前專注於實現在荷蘭醫療體係。如果這種方法可行,這可能是擴大使用本地數據源。類似的模型可能開發不同的疾病,15個35這可能導致一個過載GP的警報。理想情況下,為了防止這樣的情況發生,多個模型應該結合在一個單一的儀表板。這個指示板可以實現醫生係統,減少了需要使用一個獨立的工具。建議標準化路線圖被用於開發如此眾多的工具實現的診所。36

與先前的研究相比,性能似乎是相似的。然而,我們所知,沒有一個早期的研究評估模型的準確性的發病率和使用控件沒有年齡和性別匹配,即使這些都是重要的變量。因此,當前的研究顯示第一次的性能預測模型基於GP的高頻數據可比性的日常臨床實踐。相比之下,研究預測高頻在不同時期診斷使用邏輯回歸和隨機森林之前,目前的研究也有類似的一個更好的AUC,21日37這些研究中的數據的概念並不完全相同,年齡和性別都不習慣。相同的數據檢查與複發性神經網絡性能略有提高。38有趣的是,這些研究表明,增加2 - 3年的觀察窗可以進一步提高性能,在未來的研究可以考慮。其他的研究使用遞歸神經網絡和派生算法並導致高auc (0.883),13 14 39但使用數據的診斷,這有效地消除了潛在的健康預測早了。然而,在這些研究一個常數是更好的性能比遞歸神經網絡從邏輯回歸模型。因此,這將是有趣的遞歸神經網絡來實現評估如果進一步提高性能,因為它並不總是表現在這項研究中使用的時間模式。40

這項研究有一些局限性。首先,代碼是未知的持續時間(即如上所述的一種症狀多久ICPC代碼繼續),因此設置為1天。因此,序列指示同現的代碼表明代碼開始在同一個垃圾桶,相反的,例如,一個正在進行的中途開始用新的代碼。未來的研究應該檢查使用一個標準的影響持續時間/代碼。其次,由於相關法規可能發生相互接近,每月編碼分組。然而,如果相關代碼發生在一個月的邊界,代碼可分為單獨的個月。雖然是一個小的效果,未來算法可能會受益於一個軟邊界。41第三,包括算法,特別是邏輯回歸,基本相當。更複雜的算法,包括深層神經網絡能夠捕獲時間模式,可以提高預測精度。13必須指出的是,這可能會更少的成本洞察力的算法。第四,盡管包括時間序列方麵,它不包括代碼之間的持續時間,這意味著它並不重要,如果一個序列發生在,例子,2個月或8個月的時間間隔。此外,它並不重要,如果發生早期或稍後在數據序列。因此,修正這些方麵使用的序列可以提高性能。第五,高參數之間的相關性存在。因此,盡管它確實給表明什麼是重要參數,模型的解釋能力是有限的。這是出現在圖4在線補充附錄C表C1和C2有時,發現對比邏輯。最後,雖然預測任務可能很困難,模型性能目前還沒有足夠好為臨床進一步實現和應該改進。此外,這可能是最重要的限製實現之前,目前的模型性能是基於內部交叉驗證。雖然預計不會由於數據集的特點,性能會大幅下降,需要外部驗證隊列來驗證這個假設。

結論

本研究創建了一個模型,該模型能夠識別患者等待高頻由醫生診斷發生前一年。此外,當前的研究第一次使用真正的發病率評估模型的性能。信息存在的疾病,藥物和診斷代碼包含重要的信息,而連續的信息沒有顯著提高性能。我們建議進一步改善預測性能和後續驗證在外部隊列之前測試模型在醫生辦公室等待高頻承認。

數據可用性聲明

沒有數據是可用的。腳本,而不是數據本身,都是共享的。

倫理語句

病人同意出版

倫理批準

荷蘭立法表明,知情同意或醫學倫理委員會審批不需要當前的觀察研究。是強製性的GPs在Nivel-PCD告知病人參與和退出Nivel-PCD的選項。本研究根據治理已經批準Nivel-PCD在任何的代碼。NZR-003.20.074。

確認

我們感謝瑪麗安亨氏幫助從NZR數據庫提取數據。此外,我們感謝馬克Nielen和她女兒範-庫騰質量和隱私檢查腳本。

引用

補充材料

腳注

  • 貢獻者巴薩的,這項研究是由JCK, CA和MH。分析數據是由巴薩。解釋是由巴薩,JCK CA和MH。起草文章被巴薩的表現。重要文章的修訂是由巴薩,JCK, CA和MH。最終批準的版本是由所有作者出版。巴薩的充當擔保人在這項研究中。

  • 資金巴薩的部分是由荷蘭心血管研究計劃(CVON) (CVON2017-15獲救)不同,但相關的項目。這項研究本身沒有收到具體撥款資助機構在公眾,商業或非營利部門。

  • 相互競爭的利益沒有宣布。

  • 病人和公眾參與病人和/或公眾沒有參與設計,或行為,或報告,或傳播本研究計劃。

  • 出處和同行評議不是委托;外部同行評議。

  • 補充材料此內容已由作者(年代)。尚未審查由BMJ出版集團有限公司(BMJ)和可能沒有被同行評議。任何意見或建議討論僅代表作者(年代)和不了BMJ的支持。和責任起源於BMJ概不負責任何依賴的內容。內容包括任何翻譯材料,BMJ並不保證翻譯的準確性和可靠性(包括但不限於當地法規、臨床指南,術語,藥物名稱和藥物劑量),和不負責任何錯誤或遺漏引起的翻譯和改編或否則。