條文本

下載PDF

利用稀疏營養數據的機器學習,利用全國隨機抽樣數據改善美國心血管死亡風險預測
  1. 約瑟夫德高望重1
  2. 桑賈伊·巴蘇2
  1. 1生物統計與數據科學係“,維克森林醫學院溫斯頓塞勒姆北卡羅萊納美國
  2. 2初級保健中心哈佛醫學院波士頓麻薩諸塞州美國
  1. 對應到Joseph Rigdon博士;jrigdon在}{wakehealth.edu

摘要

目標我們的目的是測試添加(1)營養預測變量和/或(2)使用機器學習模型與不添加營養預測變量的標準Cox模型相比,是否能改善心血管死亡預測。

設計回顧性研究。

設置1999年至2011年收集的六波調查(NHANES)數據與國家死亡指數(NDI)有關。

參與者訓練集29 390人用於模型推導,測試集12 600人用於模型評價。我們的研究樣本大約是20%的黑人和25%的西班牙裔。

主要和次要結果測量從NHANES訪談到心血管死亡或審查的最短時間。

結果排除營養數據的標準風險模型將風險高估了近兩倍(預測風險與真實風險的校準斜率:0.53 (95% CI: 0.50至0.55)),具有中度差別(c統計量:0.87(0.86至0.89))。單獨的營養數據無法提高性能,而單獨的機器學習將校準提高到1.18(0.92到1.44),將判別提高到0.91(0.90到0.92)。兩者一起大大改善了校準(斜率:1.01(0.76至1.27))和辨別(c統計量:0.93(0.92至0.94))。

結論我們的研究結果表明,將營養數據與現有的機器學習算法結合起來,可以大大改善心血管風險預測。

  • 心血管病
  • 機器學習
  • 營養
  • 風險預測

這是一篇開放獲取的文章,根據創作共用署名非商業(CC BY-NC 4.0)許可證發布,該許可證允許其他人以非商業方式分發、混音、改編、在此基礎上進行構建,並以不同的條款許可其衍生作品,前提是正確引用原始作品,給予適當的榮譽,任何更改都已注明,並且使用是非商業性的。看到的:http://creativecommons.org/licenses/by-nc/4.0/

數據來自Altmetric.com

請求的權限

如果您希望重用本文的任何或全部內容,請使用下麵的鏈接,該鏈接將帶您到版權清除中心的RightsLink服務。您將能夠快速獲得價格和即時許可,以多種不同的方式重用內容。

本研究的優勢和局限性

  • 具有全國代表性的數據,包括營養的綜合評估,生物標誌物的直接實驗室評估和血壓的直接檢查。

  • 全麵隨訪,按死因判定死亡率。

  • 局限性包括需要補充缺失的數據,在後期的國家健康和營養檢查調查中收集的個體隨訪時間短,以及缺乏關於心血管疾病(CVD)事件和CVD死亡率的信息。

簡介

營養被認為是心血管疾病(CVD)死亡風險的主要因素,1 - 4但尚未明確納入心血管風險模型,用於指導他汀類藥物和其他預防性藥物的臨床處方。5 - 9營養的測量是不完美的,通常是通過24小時的飲食回顧,營養數據是稀疏的和多變量的,從個人千卡攝入的大量宏量營養素和微量營養素,10 11這使得很難確定如何將整體營養狀況納入臨床實踐。有幾個小組提供了綜合營養質量評分(例如,健康飲食指數(HEI)和替代品),12 - 14在某種程度上與心血管疾病死亡率相關第15 - 22但尚未被納入使用更傳統風險標記(如收縮壓)的常見風險方程中。5優化CVD風險預測在臨床實踐中很重要,因為許多現代臨床指南建議醫生在部分估計整體CVD風險的基礎上開出治療方案(如他汀類藥物、阿司匹林和強化血壓治療),而不僅僅是基於膽固醇或血壓水平等單一生物標誌物的水平,這些指標未能完全反映營養對風險的影響。23日

使用現代機器學習方法,有可能避免複合指數的問題,例如將大量稀疏數據減少到一個粗略的複合,不能解釋觀察到的風險的實質性變化。27機器學習方法特別擅長捕捉由營養變量的稀疏矩陣表示的複雜的大數據陣列,並結合數據變量之間的相互作用(例如不同類型的營養物質之間,例如不同的脂肪,不同的碳水化合物),並識別風險因素和結果之間的非線性關係(例如,將碳水化合物從中等水平增加到非常高的水平,與從低水平增加到中等水平的影響可能不同),傳統回歸模型可能無法完全捕捉到這一點。28-31此外,利用高質量、更快速的24小時飲食回憶技術,可以更全麵地評估一個人的飲食行為,並將其與大型營養數據庫聯係起來,現在可以在臨床醫生辦公室或診所候診室詳細評估營養狀況。32 - 35然而,目前尚不清楚來自24小時召回的營養信息是否能在生物標誌物值(如血脂、血壓和糖尿病狀況)之外為心血管死亡風險預測增加有意義的價值,以及使用機器學習方法是否能在現有綜合指標之外提高飲食召回對心血管風險評估的預測能力。

在這裏,我們使用2 × 2因子實驗設計來使用觀察數據檢驗兩個假設:(1)來自單個24小時飲食回憶的數據可以為心血管死亡風險估計增加大量的預測價值,超出傳統心血管風險計算器中已經包含的標準生物標誌物所提供的預測價值;(2)直接將營養數據的稀疏矩陣納入風險估計的機器學習方法優於標準回歸模型或過去通過線性建模方法構建的複合營養指數。

方法

我們進行了一項2 × 2階乘實驗,在該實驗中,我們比較了CVD死亡率風險預測模型的校準和鑒別,有和沒有來自24小時飲食回憶的數據,有和沒有機器學習方法。

數據源

來自全國健康和營養檢查調查的六波橫斷麵數據(NHANES, 1999-2000年,2001-2002年,2003-2004年,2005-2006年,2007-2008年和2009-2010年)被用於開發和驗證風險預測模型。NHANES抽樣方案的細節在其他地方有描述。36簡而言之,NHANES是一項包括實驗室生物標誌物和臨床檢查的調查,在兒童和成人中收集,為期兩年,樣本代表非機構化的美國平民人口。每一波中的每一次觀察都與疾病控製中心的國家死亡指數(NDI,截至2011年)相關聯。NDI提供了CVD死亡時間或隨訪審查的數據,以及將死亡歸因於9種特定病因類別之一的變量(心髒病、癌症、慢性下呼吸道疾病、腦血管疾病、糖尿病、肺炎和流感、阿爾茨海默病、腎髒疾病和意外傷害)。

主要統計結果定義為從NHANES訪談到審查最短時間或死於心髒病或腦血管疾病的時間,即心血管疾病死亡率。任何其他原因的死亡都被視為審查。納入標準為訪談時年齡20-79歲,既往無心血管病史。沒有采取行動盲目評估預測結果和其他預測因素。沒有采取行動盲目評估結果。

在NHANES訪談時收集了模型中的所有潛在預測因子,以模擬一個假設的場景,即醫療提供者可能希望在診所進行24小時飲食召回,以改善CVD死亡率的預測。人口統計學變量包括年齡、性別和種族(黑人、西班牙裔),目前采用的心血管疾病危險因素包括總膽固醇(mg/dL)、高密度脂蛋白(HDL)膽固醇(mg/dL)、收縮壓(mm Hg)、血壓治療狀況(是/否)、糖尿病狀況(是/否)和當前吸煙狀況(是/否)。5營養變量包括在NHANES訪談後的24小時飲食回憶中收集的每日標準微量營養素(如鈉、硒)和宏量營養素(如脂肪、碳水化合物、蛋白質)攝入量(在線補充表A).

患者和公眾參與

沒有病人參與。

模型開發

每個NHANES波中70%的隨機樣本被彙集起來,形成模型導出的訓練樣本,剩餘的30%被前瞻性地提出,形成測試集,以評估每個模型的性能,而無需改裝或重新校準。為了在缺失數據的情況下訓練模型,通過鏈式方程進行多重imputation37 38用來填充缺失的值(在線補充表B),以便獲得一組完整的數據。

在2乘2設計的一個部分中,我們測試了從標準Cox比例風險模型切換到機器學習算法是否可以提高校準和辨別能力。測試的機器學習算法通常用於篩選時間到事件數據的臨床事件風險預測:生存梯度增強機器(GBMs)39生存隨機森林(RFs)。40這兩種機器學習方法都是從數據中構建決策樹。在典型的決策樹中,樹的每個分支將抽樣研究人群劃分為越來越小的子組,這些子組的結果概率不同。一個好的決策樹會將抽樣人群分成組,組內變異性低,組間變異性高。GBMs平均了許多樹,其中第一棵樹的錯誤有助於在下一次迭代中學習錯誤更少的樹(一種“增強”策略)。41 42RFs還構建了大量的決策樹,但平均一個由許多樹組成的森林,其中每棵樹都獨立地擬合(一種“袋裝”策略),隨機選擇協變量子集來定義分支。使RFs使用逆概率審查權來解決審查問題。

在2 × 2設計的第二部分中,我們測試了是否將營養變量(包括NHANES飲食召回中評估的所有微量營養素和宏量營養素)添加到標準人口統計學和生物標誌物變量中可以改善預測。此外,我們還比較了合並所有營養數據與使用常見的現有複合營養指數:HEI,46替代健康飲食指數(AHEI),47地中海飲食評分(MDS)48以及控製高血壓的飲食方法評分(DASH)。49

總的來說,我們的2乘2設計包含了四個象限的18個模型。沒有機器學習,沒有營養(標準模型)象限隻包括一個模型:具有人口統計學和生物標誌物變量的Cox回歸模型。機器學習,無營養象限包括兩個模型:GBM和RF,兩者都隻使用人口統計學和生物標誌物變量。無機器學習的營養象限包括五個模型:Cox回歸,包括人口統計學、生物標誌物和HEI、AHEI、MDS、DASH或來自NHANES的所有微量營養素和宏量營養素。最後,機器學習,營養象限包括10個總共的模型:GBMs或rf,包括人口統計學,生物標誌物和HEI, AHEI, MDS, DASH或來自NHANES的所有微量營養素和宏量營養素。

Cox回歸模型、GBM模型和RF模型適合70%的訓練數據。gbm通過手動網格搜索樹的數量為100,300或500,樹的深度為1,5或10,學習率設置為0.1。50基於條件推理樹的rf51 52通過手動網格搜索樹的數量為100,300或500,以及在每個節點隨機采樣的輸入變量的數量為1,5或10進行調優。表現最好的GBM和RF模型是那些在30%保持測試集中最小化(1)校準度量(如下所述)與理想目標之間的平方誤差之和和(2)判別度量(如下所述)與理想目標之間的平方誤差之和。

結果指標

從校準(使用Greenwood-Nam-D 'Agostino (GND)檢驗)和判別(使用c統計量)方麵評估模型性能。在GND檢驗中,模型預測的10年CVD死亡風險概率與NHANES訪談後10年內觀察到的CVD死亡率進行了十分位數的預測風險比較。然後使用這些值在預測風險的十分位數上繪製斜率和截距線,以便校準斜率為1反映完美校準(預測風險和觀測風險之間的完美45度線)。

使用c統計量(受試者工作特征曲線下麵積)評估模型辨別能力。ROC曲線上的每個點由給定切點的敏感性(x軸)和1-特異性(y軸)定義。根據模型預測風險(高於/低於切點)與結果金標準(NHANES訪談後10年內是否發生CVD死亡)計算敏感性和特異性。使用DeLong檢驗計算c統計量的ci53在R包“pROC”中實現。54

敏感性分析包括:(1)將教育和貧困添加到最佳表現模型中,(2)將最佳表現模型分別應用於心血管疾病死亡率、心髒病和腦血管疾病的組成結果。本研究未進行模型更新,也未創建風險組。在訓練(發展)集和測試(驗證)集之間,在設置、合格標準、結果或預測因素方麵沒有差異。由於數據是公開的,因此不需要參與者的同意或倫理審查委員會的批準。所有統計分析均在Stata 15軟件中進行55R V.3.6.1。56

本文是根據個體預後或診斷的多變量預測模型的透明報告(TRIPOD)建議編寫的57總結在在線補充表C

數據可用性聲明

用於數據抓取(來自NHANES和NDI網站,如代碼注釋中所述)、培訓和測試數據集、數據管理、模型擬合以及表和圖形創建的統計代碼可在以下公共、開放訪問存儲庫中獲得:https://github.com/joerigdon/CVD_Prediction

結果

研究樣本的描述性統計

在訓練集和測試集中,人口統計學分布、協變量和結果率幾乎相等(表1).在訓練集中的n=29 390人中,1179/29 390人(4.0%)在隨訪期間經曆了CVD死亡;在n=12 600的測試集中,507/12 600(4.0%)經曆了CVD死亡。訓練組和測試組的中位隨訪時間為79個月,平均年齡為50歲,47%為男性,20%為黑人,26%為西班牙裔,16%為糖尿病患者,19%為積極吸煙人群。綜合營養指數與訓練數據集和測試數據集之間的舍入誤差相同,HEI平均得分為47(滿分100分)46), AHEI得分47分(滿分110分)47), MDS得分5分(滿分10分)48DASH得分47分(滿分80分)49);得分越高,表明對所有四項綜合得分的推薦膳食指南的依從性越好。

表1

研究樣本的描述性統計(1999-2010年全國健康和營養檢查調查,與2011年全國死亡指數相關,n= 41,990)

與無CVD死亡率的個體相比,發生CVD死亡率的個體年齡更大(74.3歲vs 49.0歲),更有可能是男性(55.0% vs 46.9%),收縮壓更高(142.9 vs 124.8 mm Hg),更有可能服用降壓藥(74.2% vs 30.8%),更有可能患有糖尿病(33.3% vs 15.5%;表2).關於營養變量,與直覺相反,那些經曆CVD死亡的人有更高的HEI評分(51.0 vs 46.9),更高的AHEI評分(48.0 vs 47.1)和更高的DASH評分(48.1 vs 47.4;表2)和可比的MDS評分(5.1 vs 5.1)。

表2

按結局比較參與者特征(1999-2010年全國健康和營養檢查調查與2011年全國死亡指數相關,n= 41,990)

模型校準性能

正如預期的那樣,模型校準值在訓練中更好(在線補充圖A在線補充表D到I)與保留測試集(圖1在線補充表J到O).使用CVD風險預測模型的標準方法,5以年齡、性別、黑人種族和西班牙裔種族、總膽固醇、高密度脂蛋白膽固醇、收縮壓、降壓藥物、糖尿病和煙草使用為變量的Cox比例風險模型得出的GND校準斜率為0.53 (95% CI: 0.50至0.55),反映了與先前估計一致的嚴重風險高估。9 58將HEI、AHEI、MDS或DASH評分添加到模型中並沒有改變0.53的校準斜率;然而,24小時原始(非複合)召回數據的添加將斜率降低至0.46(0.43至0.50),反映了風險高估的惡化(圖1在線補充表J到O).

圖1

保留試驗集中模型的校準斜率和ci(1999-2010年國家健康和營養檢查調查與2011年國家死亡指數相關,n=12 600)。所有模型都包括人口統計學變量——年齡、性別和種族(黑人、西班牙裔);總膽固醇(mg/dL)、高密度脂蛋白(HDL)膽固醇(mg/dL)、收縮壓(mm Hg)、血壓治療狀態(是/否)、糖尿病狀態(是/否)和當前吸煙狀態(是/否)的協變量。ACC,美國心髒病學會;替代健康飲食指數;DASH,飲食方法控製高血壓飲食評分;GBM,梯度提升機;接地,Greenwood-Nam-D達;健康飲食指數;MDS,地中海飲食評分; RF, random forest.

當使用機器學習GBM方法代替Cox比例風險模型,但仍不包括營養數據時,模型校準提高到0.56(0.51至0.61),當使用RF代替Cox時,校準進一步提高到1.18(0.92至1.44)。當使用原始24小時回憶數據時,添加營養變量可以改善機器學習模型的校準,但當使用複合飲食指數時則沒有。加入HEI、AHEI、MDS或DASH後,GBM模型的校準斜率略有提高至0.59,RF模型的校準斜率從1.18提高至1.13。當使用所有24小時召回數據時,GBM模型具有最好的校準,產生校準斜率為0.83(0.77至0.89)。采用24小時原始營養數據的RF模型最接近理想值1,校準斜率為1.01 (0.76 - 1.27)(圖1在線補充表O).

模型辨別性能

模型辨別值在訓練中較好(在線補充圖B在線補充表D到I)與保留測試集(圖2在線補充表J到O).排除或納入營養數據並不影響標準Cox風險模型的甄別。使用上述非營養數據的Cox模型在測試集中的c統計量為0.88(0.87 ~ 0.89)。添加HEI、AHEI、MDS、DASH或所有原始24小時召回數據後,c統計量保持在0.88 (圖2在線補充表J到O).

圖2

保留測試集中的模型歧視(c統計量)(1999-2010年國家健康和營養檢查調查與2011年國家死亡指數相關,n=12 600)。所有模型都包括人口統計學變量——年齡、性別和種族(黑人、西班牙裔);總膽固醇(mg/dL)、高密度脂蛋白(HDL)膽固醇(mg/dL)、收縮壓(mm Hg)、血壓治療狀態(是/否)、糖尿病狀態(是/否)和當前吸煙狀態(是/否)的協變量。ACC,美國心髒病學會;替代健康飲食指數;DASH,飲食方法控製高血壓飲食評分;GBM,梯度提升機;健康飲食指數;MDS,地中海飲食評分;RF,隨機森林。

模型辨別能力也隨著機器學習的使用而提高。使用GBM代替Cox模型略有改善,從Cox模型的0.88到所有沒有營養數據的GBM模型的0.90(0.89到0.91),以及沒有營養數據的RF的0.91(0.90到0.92)。添加複合營養指數後,差異沒有顯著性差異,但添加原始營養數據後,差異有所改善,達到0.93(0.92至0.94)。圖2在線補充表O).

重要的聯係

Cox模型係數在聯機補充表P和GBM模型的相對影響在線補充表Q).顯著的關聯與心血管死亡包括年齡(人力資源1年增加年齡為1.1(1.09 - 1.1),女性性(人力資源、男性為0.65(0.57 - 0.73)),拉美裔種族(HR 0.69 vs西班牙血統(0.58 - 0.81)),收縮壓(人力資源增加1單位的1.0050(1.0024 - 1.0075)),血壓藥物(人力資源對於每個額外的地中海為1.19(1.08 - 1.30),2型糖尿病(人力資源與非糖尿病為1.46(1.29 - 1.65))和煙草使用(HR 1.91 vs非用戶(1.61 - 2.27))(聯機補充表P).未發現HEI或AHEI與心血管死亡相關。MDS增加1個單位,風險略有增加:1.0481(1.0004至1.0980),DASH得分增加1個單位,風險略有降低:0.9870(0.9806至0.9935)。

在對所有24小時營養變量的綜合評估中,發現了與纖維(HR 0.96(0.95至0.97)增加1克)和煙酸(HR 0.98(0.96至0.99)增加1毫克)的保護性關聯,與飽和脂肪(HR 1.19(1.07至1.32)增加1克)的有害關聯。更仔細地檢查每1克脂肪攝入量的增加,SFA 16:0攝入量是保護性的(0.85(0.76至0.94)),SFA 18:0(0.85(0.75至0.98))也是如此。MFA 16:1(1.06(1.02至1.10))和MFA 20:1(1.32(1.03至1.69))略微增加風險,PFA 18:2(1.07(1.04至1.11))也是如此。MFA 22:1(0.34(0.13至0.90))和PFA 18:3(0.80(0.68至0.95))降低風險。

GBM中的相對影響顯示了模型中的每個變量在0-100的重要性總量中所占的比例(在線補充表Q).年齡一直對20-30歲有相對影響,除了模型3 AHEI(相對影響6)和模型與MDS(相對影響3)4。SBP的相對影響19-41在所有模型除了模型6所有營養變量(相對影響3)。高密度脂蛋白範圍從10 37除了模型4 AHEI 6模型(3)和(3)營養變量。總膽固醇從13到24不等除了6(2)模型。煙草使用異常影響模型3(46),同時保持低於4所有其他型號。HEI在模型1(14)中重要,DASH在模型5(17)中重要,而AHEI和MDS的相對影響均不超過2。在24小時營養變量中,鐵、豆類、糖果和糕點的相對影響為5或更大。包含所有營養變量的RF模型的部分依賴圖顯示,大約從65歲開始,10年CVD死亡概率呈指數級增加,收縮壓120 mm Hg後,10年CVD死亡概率呈線性增加(在線補充圖C).

敏感性分析

將教育和貧困添加到表現最佳的模型中並沒有顯著改善校準(有1.0120 vs無1.0137)或歧視(有0.9336 vs無0.9320)。將最佳表現模型單獨應用於心髒病死亡,得到校準斜率0.9670(0.7525至1.1814)和判別c統計量0.9256(0.9120至0.9391)。將性能最佳的模型單獨應用於腦血管疾病死亡,得到校準斜率0.7406(0.5636至0.9177)和判別c統計量0.9157(0.8898至0.9416)。

討論

我們研究了是否可以通過將稀疏營養數據納入通過機器學習算法導出的模型來改善CVD死亡率預測。我們觀察到,在標準的Cox比例風險模型中添加營養變量本身並沒有實質性的好處,機器學習本身提高了校準,並適度提高了辨別能力,當營養數據和機器學習相結合時,我們可以大大提高風險預測,而不僅僅是包括標準的人口統計數據和生物標誌物。當同時使用營養數據和機器學習算法時,校準效果特別好。

我們的研究結果具有臨床意義,因為更快速、自動化或基於移動設備的24小時飲食回憶使得在就診時或就診前為患者提供營養狀況成為可能1 2隨著自動化心血管疾病風險預測模型成為精準醫療指南中越來越重要的一部分,旨在提高醫療從業者為高危患者開出預防性心血管治療處方的能力。6由於標準的生物標記無法完全解釋營養與心血管疾病死亡率之間的關係,59 60直接結合原始飲食數據的機器學習方法似乎比複合營養指數更有好處,複合營養指數可能會過度降低營養相互作用的複雜性和帶來風險的非線性關係。我們的研究受益於對美國成年人的全國代表性樣本進行的研究,包括營養的綜合評估、生物標誌物的直接實驗室評估、血壓的直接檢查以及根據死因判斷死亡率的全麵隨訪。

然而,我們的研究有重要的局限性,包括需要補充缺失的數據,在NHANES後期浪潮中收集的個體中隨訪時間較短,除了CVD死亡率之外,缺乏關於CVD事件的信息,以及需要在實踐中評估模型實施的可行性。未來,進一步的研究可以評估快速膳食召回和相關心血管風險評估的表現是否可以在實踐中實施,在本評估中觀察到的校準和辨別的改進水平是否會對患者關鍵預防性治療的處方水平產生臨床意義上的變化,以及與傳統cox型風險模型相比,解釋機器學習模型的困難是否會對這些模型在臨床實踐中的可接受性構成挑戰。

目前,我們的研究結果表明,將營養數據與現有的機器學習算法結合起來,可以大大改善心血管風險預測。

致謝

作者感謝了斯坦福定量科學部的兩位匿名評審員。

參考文獻

腳注

  • 貢獻者SB概念化了研究和設計,並為數據準備和分析做出了貢獻。JR對數據準備和分析做出了貢獻。兩位作者都對手稿的寫作和批判性審查做出了貢獻。

  • 資金這項工作得到了美國國立衛生研究院國家少數民族健康和健康差異研究所的支持,資助號為DP2MD010478。

  • 免責聲明內容僅為作者的責任,並不一定代表美國國立衛生研究院的官方觀點。

  • 相互競爭的利益沒有宣布。

  • 患者發表同意書不是必需的。

  • 出處和同行評審不是委托;外部同行評審。

  • 數據可用性聲明如有合理要求,可提供資料。