利用稀疏營養數據的機器學習，利用全國隨機抽樣數據| BMJ Open改善美國心血管死亡風險預測beplay体育官方手机版

條文本

PDF

XML

心血管藥物

原始研究

利用稀疏營養數據的機器學習，利用全國隨機抽樣數據改善美國心血管死亡風險預測

約瑟夫德高望重1，
桑賈伊·巴蘇2

¹生物統計與數據科學係“，，維克森林醫學院，溫斯頓塞勒姆，北卡羅萊納美國
²初級保健中心，哈佛醫學院，波士頓，麻薩諸塞州美國

對應到Joseph Rigdon博士;jrigdon在}{wakehealth.edu

摘要

目標我們的目的是測試添加(1)營養預測變量和/或(2)使用機器學習模型與不添加營養預測變量的標準Cox模型相比，是否能改善心血管死亡預測。

設計回顧性研究。

設置1999年至2011年收集的六波調查(NHANES)數據與國家死亡指數(NDI)有關。

參與者訓練集29 390人用於模型推導，測試集12 600人用於模型評價。我們的研究樣本大約是20%的黑人和25%的西班牙裔。

主要和次要結果測量從NHANES訪談到心血管死亡或審查的最短時間。

結果排除營養數據的標準風險模型將風險高估了近兩倍(預測風險與真實風險的校準斜率:0.53 (95% CI: 0.50至0.55))，具有中度差別(c統計量:0.87(0.86至0.89))。單獨的營養數據無法提高性能，而單獨的機器學習將校準提高到1.18(0.92到1.44)，將判別提高到0.91(0.90到0.92)。兩者一起大大改善了校準(斜率:1.01(0.76至1.27))和辨別(c統計量:0.93(0.92至0.94))。

結論我們的研究結果表明，將營養數據與現有的機器學習算法結合起來，可以大大改善心血管風險預測。

心血管病
機器學習
營養
風險預測

這是一篇開放獲取的文章，根據創作共用署名非商業(CC BY-NC 4.0)許可證發布，該許可證允許其他人以非商業方式分發、混音、改編、在此基礎上進行構建，並以不同的條款許可其衍生作品，前提是正確引用原始作品，給予適當的榮譽，任何更改都已注明，並且使用是非商業性的。看到的:http://creativecommons.org/licenses/by-nc/4.0/。

http://dx.doi.org/10.1136/bmjopen-2019-032703

數據來自Altmetric.com

請求的權限

如果您希望重用本文的任何或全部內容，請使用下麵的鏈接，該鏈接將帶您到版權清除中心的RightsLink服務。您將能夠快速獲得價格和即時許可，以多種不同的方式重用內容。

本研究的優勢和局限性

具有全國代表性的數據，包括營養的綜合評估，生物標誌物的直接實驗室評估和血壓的直接檢查。
全麵隨訪，按死因判定死亡率。
局限性包括需要補充缺失的數據，在後期的國家健康和營養檢查調查中收集的個體隨訪時間短，以及缺乏關於心血管疾病(CVD)事件和CVD死亡率的信息。

簡介

營養被認為是心血管疾病(CVD)死亡風險的主要因素，1 - 4但尚未明確納入心血管風險模型，用於指導他汀類藥物和其他預防性藥物的臨床處方。5 - 9營養的測量是不完美的，通常是通過24小時的飲食回顧，營養數據是稀疏的和多變量的，從個人千卡攝入的大量宏量營養素和微量營養素，10 11這使得很難確定如何將整體營養狀況納入臨床實踐。有幾個小組提供了綜合營養質量評分(例如，健康飲食指數(HEI)和替代品)，12 - 14在某種程度上與心血管疾病死亡率相關第15 - 22但尚未被納入使用更傳統風險標記(如收縮壓)的常見風險方程中。5優化CVD風險預測在臨床實踐中很重要，因為許多現代臨床指南建議醫生在部分估計整體CVD風險的基礎上開出治療方案(如他汀類藥物、阿司匹林和強化血壓治療)，而不僅僅是基於膽固醇或血壓水平等單一生物標誌物的水平，這些指標未能完全反映營養對風險的影響。23日

使用現代機器學習方法，有可能避免複合指數的問題，例如將大量稀疏數據減少到一個粗略的複合，不能解釋觀察到的風險的實質性變化。27機器學習方法特別擅長捕捉由營養變量的稀疏矩陣表示的複雜的大數據陣列，並結合數據變量之間的相互作用(例如不同類型的營養物質之間，例如不同的脂肪，不同的碳水化合物)，並識別風險因素和結果之間的非線性關係(例如，將碳水化合物從中等水平增加到非常高的水平，與從低水平增加到中等水平的影響可能不同)，傳統回歸模型可能無法完全捕捉到這一點。28-31此外，利用高質量、更快速的24小時飲食回憶技術，可以更全麵地評估一個人的飲食行為，並將其與大型營養數據庫聯係起來，現在可以在臨床醫生辦公室或診所候診室詳細評估營養狀況。32 - 35然而，目前尚不清楚來自24小時召回的營養信息是否能在生物標誌物值(如血脂、血壓和糖尿病狀況)之外為心血管死亡風險預測增加有意義的價值，以及使用機器學習方法是否能在現有綜合指標之外提高飲食召回對心血管風險評估的預測能力。

在這裏，我們使用2 × 2因子實驗設計來使用觀察數據檢驗兩個假設:(1)來自單個24小時飲食回憶的數據可以為心血管死亡風險估計增加大量的預測價值，超出傳統心血管風險計算器中已經包含的標準生物標誌物所提供的預測價值;(2)直接將營養數據的稀疏矩陣納入風險估計的機器學習方法優於標準回歸模型或過去通過線性建模方法構建的複合營養指數。

方法

我們進行了一項2 × 2階乘實驗，在該實驗中，我們比較了CVD死亡率風險預測模型的校準和鑒別，有和沒有來自24小時飲食回憶的數據，有和沒有機器學習方法。

數據源

來自全國健康和營養檢查調查的六波橫斷麵數據(NHANES, 1999-2000年，2001-2002年，2003-2004年，2005-2006年，2007-2008年和2009-2010年)被用於開發和驗證風險預測模型。NHANES抽樣方案的細節在其他地方有描述。36簡而言之，NHANES是一項包括實驗室生物標誌物和臨床檢查的調查，在兒童和成人中收集，為期兩年，樣本代表非機構化的美國平民人口。每一波中的每一次觀察都與疾病控製中心的國家死亡指數(NDI，截至2011年)相關聯。NDI提供了CVD死亡時間或隨訪審查的數據，以及將死亡歸因於9種特定病因類別之一的變量(心髒病、癌症、慢性下呼吸道疾病、腦血管疾病、糖尿病、肺炎和流感、阿爾茨海默病、腎髒疾病和意外傷害)。

主要統計結果定義為從NHANES訪談到審查最短時間或死於心髒病或腦血管疾病的時間，即心血管疾病死亡率。任何其他原因的死亡都被視為審查。納入標準為訪談時年齡20-79歲，既往無心血管病史。沒有采取行動盲目評估預測結果和其他預測因素。沒有采取行動盲目評估結果。

在NHANES訪談時收集了模型中的所有潛在預測因子，以模擬一個假設的場景，即醫療提供者可能希望在診所進行24小時飲食召回，以改善CVD死亡率的預測。人口統計學變量包括年齡、性別和種族(黑人、西班牙裔)，目前采用的心血管疾病危險因素包括總膽固醇(mg/dL)、高密度脂蛋白(HDL)膽固醇(mg/dL)、收縮壓(mm Hg)、血壓治療狀況(是/否)、糖尿病狀況(是/否)和當前吸煙狀況(是/否)。5營養變量包括在NHANES訪談後的24小時飲食回憶中收集的每日標準微量營養素(如鈉、硒)和宏量營養素(如脂肪、碳水化合物、蛋白質)攝入量(在線補充表A）.

補充材料

[bmjopen - 2019 - 032703 - supp001.pdf]

患者和公眾參與

沒有病人參與。

模型開發

每個NHANES波中70%的隨機樣本被彙集起來，形成模型導出的訓練樣本，剩餘的30%被前瞻性地提出，形成測試集，以評估每個模型的性能，而無需改裝或重新校準。為了在缺失數據的情況下訓練模型，通過鏈式方程進行多重imputation37 38用來填充缺失的值(在線補充表B)，以便獲得一組完整的數據。

在2乘2設計的一個部分中，我們測試了從標準Cox比例風險模型切換到機器學習算法是否可以提高校準和辨別能力。測試的機器學習算法通常用於篩選時間到事件數據的臨床事件風險預測:生存梯度增強機器(GBMs)39生存隨機森林(RFs)。40這兩種機器學習方法都是從數據中構建決策樹。在典型的決策樹中，樹的每個分支將抽樣研究人群劃分為越來越小的子組，這些子組的結果概率不同。一個好的決策樹會將抽樣人群分成組，組內變異性低，組間變異性高。GBMs平均了許多樹，其中第一棵樹的錯誤有助於在下一次迭代中學習錯誤更少的樹(一種“增強”策略)。41 42RFs還構建了大量的決策樹，但平均一個由許多樹組成的森林，其中每棵樹都獨立地擬合(一種“袋裝”策略)，隨機選擇協變量子集來定義分支。使RFs使用逆概率審查權來解決審查問題。

在2 × 2設計的第二部分中，我們測試了是否將營養變量(包括NHANES飲食召回中評估的所有微量營養素和宏量營養素)添加到標準人口統計學和生物標誌物變量中可以改善預測。此外，我們還比較了合並所有營養數據與使用常見的現有複合營養指數:HEI，46替代健康飲食指數(AHEI)，47地中海飲食評分(MDS)48以及控製高血壓的飲食方法評分(DASH)。49

總的來說，我們的2乘2設計包含了四個象限的18個模型。沒有機器學習，沒有營養(標準模型)象限隻包括一個模型:具有人口統計學和生物標誌物變量的Cox回歸模型。機器學習，無營養象限包括兩個模型:GBM和RF，兩者都隻使用人口統計學和生物標誌物變量。無機器學習的營養象限包括五個模型:Cox回歸，包括人口統計學、生物標誌物和HEI、AHEI、MDS、DASH或來自NHANES的所有微量營養素和宏量營養素。最後，機器學習，營養象限包括10個總共的模型:GBMs或rf，包括人口統計學，生物標誌物和HEI, AHEI, MDS, DASH或來自NHANES的所有微量營養素和宏量營養素。

Cox回歸模型、GBM模型和RF模型適合70%的訓練數據。gbm通過手動網格搜索樹的數量為100,300或500，樹的深度為1,5或10，學習率設置為0.1。50基於條件推理樹的rf51 52通過手動網格搜索樹的數量為100,300或500，以及在每個節點隨機采樣的輸入變量的數量為1,5或10進行調優。表現最好的GBM和RF模型是那些在30%保持測試集中最小化(1)校準度量(如下所述)與理想目標之間的平方誤差之和和(2)判別度量(如下所述)與理想目標之間的平方誤差之和。

結果指標

從校準(使用Greenwood-Nam-D 'Agostino (GND)檢驗)和判別(使用c統計量)方麵評估模型性能。在GND檢驗中，模型預測的10年CVD死亡風險概率與NHANES訪談後10年內觀察到的CVD死亡率進行了十分位數的預測風險比較。然後使用這些值在預測風險的十分位數上繪製斜率和截距線，以便校準斜率為1反映完美校準(預測風險和觀測風險之間的完美45度線)。

使用c統計量(受試者工作特征曲線下麵積)評估模型辨別能力。ROC曲線上的每個點由給定切點的敏感性(x軸)和1-特異性(y軸)定義。根據模型預測風險(高於/低於切點)與結果金標準(NHANES訪談後10年內是否發生CVD死亡)計算敏感性和特異性。使用DeLong檢驗計算c統計量的ci53在R包“pROC”中實現。54

敏感性分析包括:(1)將教育和貧困添加到最佳表現模型中，(2)將最佳表現模型分別應用於心血管疾病死亡率、心髒病和腦血管疾病的組成結果。本研究未進行模型更新，也未創建風險組。在訓練(發展)集和測試(驗證)集之間，在設置、合格標準、結果或預測因素方麵沒有差異。由於數據是公開的，因此不需要參與者的同意或倫理審查委員會的批準。所有統計分析均在Stata 15軟件中進行55R V.3.6.1。56

本文是根據個體預後或診斷的多變量預測模型的透明報告(TRIPOD)建議編寫的57總結在在線補充表C。

數據可用性聲明

用於數據抓取(來自NHANES和NDI網站，如代碼注釋中所述)、培訓和測試數據集、數據管理、模型擬合以及表和圖形創建的統計代碼可在以下公共、開放訪問存儲庫中獲得:https://github.com/joerigdon/CVD_Prediction

結果

研究樣本的描述性統計

在訓練集和測試集中，人口統計學分布、協變量和結果率幾乎相等(表1）.在訓練集中的n=29 390人中，1179/29 390人(4.0%)在隨訪期間經曆了CVD死亡;在n=12 600的測試集中，507/12 600(4.0%)經曆了CVD死亡。訓練組和測試組的中位隨訪時間為79個月，平均年齡為50歲，47%為男性，20%為黑人，26%為西班牙裔，16%為糖尿病患者，19%為積極吸煙人群。綜合營養指數與訓練數據集和測試數據集之間的舍入誤差相同，HEI平均得分為47(滿分100分)46)， AHEI得分47分(滿分110分)47)， MDS得分5分(滿分10分)48DASH得分47分(滿分80分)49）;得分越高，表明對所有四項綜合得分的推薦膳食指南的依從性越好。

查看該表:

表1

研究樣本的描述性統計(1999-2010年全國健康和營養檢查調查，與2011年全國死亡指數相關，n= 41,990)

與無CVD死亡率的個體相比，發生CVD死亡率的個體年齡更大(74.3歲vs 49.0歲)，更有可能是男性(55.0% vs 46.9%)，收縮壓更高(142.9 vs 124.8 mm Hg)，更有可能服用降壓藥(74.2% vs 30.8%)，更有可能患有糖尿病(33.3% vs 15.5%;表2）.關於營養變量，與直覺相反，那些經曆CVD死亡的人有更高的HEI評分(51.0 vs 46.9)，更高的AHEI評分(48.0 vs 47.1)和更高的DASH評分(48.1 vs 47.4;表2)和可比的MDS評分(5.1 vs 5.1)。

查看該表:

表2

按結局比較參與者特征(1999-2010年全國健康和營養檢查調查與2011年全國死亡指數相關，n= 41,990)

模型校準性能

正如預期的那樣，模型校準值在訓練中更好(在線補充圖A，在線補充表D到I)與保留測試集(圖1，在線補充表J到O）.使用CVD風險預測模型的標準方法，5以年齡、性別、黑人種族和西班牙裔種族、總膽固醇、高密度脂蛋白膽固醇、收縮壓、降壓藥物、糖尿病和煙草使用為變量的Cox比例風險模型得出的GND校準斜率為0.53 (95% CI: 0.50至0.55)，反映了與先前估計一致的嚴重風險高估。9 58將HEI、AHEI、MDS或DASH評分添加到模型中並沒有改變0.53的校準斜率;然而，24小時原始(非複合)召回數據的添加將斜率降低至0.46(0.43至0.50)，反映了風險高估的惡化(圖1，在線補充表J到O）.

補充材料

[bmjopen - 2019 - 032703 - supp002.pdf]

Calibration slopes and CIs of models in the hold-out test set (National Health and Nutrition Examination Survey, 1999–2010 linked to the 2011 National Death Index, n=12 600). All models included demographic variables age, sex and race (black race, Hispanic ethnicity); covariates of total cholesterol (mg/dL), high-density lipoprotein (HDL) cholesterol (mg/dL), systolic blood pressure (mm Hg), blood pressure treatment status (yes/no), diabetes status (yes/no) and current smoking status (yes/no). ACC, American College of Cardiology; AHEI, Alternative Healthy Eating Index; DASH, Dietary Approaches to Stop Hypertension diet score; GBM, gradient boosted machine; GND, Greenwood-Nam-D’Agostino; HEI, Healthy Eating Index; MDS, Mediterranean Diet Score; RF, random forest.

" data-icon-position="" data-hide-link-title="0">

圖1

保留試驗集中模型的校準斜率和ci(1999-2010年國家健康和營養檢查調查與2011年國家死亡指數相關，n=12 600)。所有模型都包括人口統計學變量——年齡、性別和種族(黑人、西班牙裔);總膽固醇(mg/dL)、高密度脂蛋白(HDL)膽固醇(mg/dL)、收縮壓(mm Hg)、血壓治療狀態(是/否)、糖尿病狀態(是/否)和當前吸煙狀態(是/否)的協變量。ACC，美國心髒病學會;替代健康飲食指數;DASH，飲食方法控製高血壓飲食評分;GBM，梯度提升機;接地,Greenwood-Nam-D達;健康飲食指數;MDS，地中海飲食評分; RF, random forest.

當使用機器學習GBM方法代替Cox比例風險模型，但仍不包括營養數據時，模型校準提高到0.56(0.51至0.61)，當使用RF代替Cox時，校準進一步提高到1.18(0.92至1.44)。當使用原始24小時回憶數據時，添加營養變量可以改善機器學習模型的校準，但當使用複合飲食指數時則沒有。加入HEI、AHEI、MDS或DASH後，GBM模型的校準斜率略有提高至0.59,RF模型的校準斜率從1.18提高至1.13。當使用所有24小時召回數據時，GBM模型具有最好的校準，產生校準斜率為0.83(0.77至0.89)。采用24小時原始營養數據的RF模型最接近理想值1，校準斜率為1.01 (0.76 - 1.27)(圖1，在線補充表O）.

模型辨別性能

模型辨別值在訓練中較好(在線補充圖B，在線補充表D到I)與保留測試集(圖2，在線補充表J到O）.排除或納入營養數據並不影響標準Cox風險模型的甄別。使用上述非營養數據的Cox模型在測試集中的c統計量為0.88(0.87 ~ 0.89)。添加HEI、AHEI、MDS、DASH或所有原始24小時召回數據後，c統計量保持在0.88 (圖2，在線補充表J到O）.

補充材料

[bmjopen - 2019 - 032703 - supp003.pdf]

Model discrimination (C-statistic) in the hold-out test set (National Health and Nutrition Examination Survey, 1999–2010 linked to the 2011 National Death Index, n=12 600). All models included demographic variables age, sex and race (black race, Hispanic ethnicity); covariates of total cholesterol (mg/dL), high-density lipoprotein (HDL) cholesterol (mg/dL), systolic blood pressure (mm Hg), blood pressure treatment status (yes/no), diabetes status (yes/no) and current smoking status (yes/no). ACC, American College of Cardiology; AHEI, Alternative Healthy Eating Index; DASH, Dietary Approaches to Stop Hypertension diet score; GBM, gradient boosted machine; HEI, Healthy Eating Index; MDS, Mediterranean Diet Score; RF, random forest.

" data-icon-position="" data-hide-link-title="0">

圖2

保留測試集中的模型歧視(c統計量)(1999-2010年國家健康和營養檢查調查與2011年國家死亡指數相關，n=12 600)。所有模型都包括人口統計學變量——年齡、性別和種族(黑人、西班牙裔);總膽固醇(mg/dL)、高密度脂蛋白(HDL)膽固醇(mg/dL)、收縮壓(mm Hg)、血壓治療狀態(是/否)、糖尿病狀態(是/否)和當前吸煙狀態(是/否)的協變量。ACC，美國心髒病學會;替代健康飲食指數;DASH，飲食方法控製高血壓飲食評分;GBM，梯度提升機;健康飲食指數;MDS，地中海飲食評分;RF，隨機森林。

模型辨別能力也隨著機器學習的使用而提高。使用GBM代替Cox模型略有改善，從Cox模型的0.88到所有沒有營養數據的GBM模型的0.90(0.89到0.91)，以及沒有營養數據的RF的0.91(0.90到0.92)。添加複合營養指數後，差異沒有顯著性差異，但添加原始營養數據後，差異有所改善，達到0.93(0.92至0.94)。圖2，在線補充表O）.

重要的聯係

Cox模型係數在聯機補充表P和GBM模型的相對影響在線補充表Q）.顯著的關聯與心血管死亡包括年齡(人力資源1年增加年齡為1.1(1.09 - 1.1),女性性(人力資源、男性為0.65(0.57 - 0.73)),拉美裔種族(HR 0.69 vs西班牙血統(0.58 - 0.81)),收縮壓(人力資源增加1單位的1.0050(1.0024 - 1.0075)),血壓藥物(人力資源對於每個額外的地中海為1.19(1.08 - 1.30),2型糖尿病(人力資源與非糖尿病為1.46(1.29 - 1.65))和煙草使用(HR 1.91 vs非用戶(1.61 - 2.27))(聯機補充表P）.未發現HEI或AHEI與心血管死亡相關。MDS增加1個單位，風險略有增加:1.0481(1.0004至1.0980)，DASH得分增加1個單位，風險略有降低:0.9870(0.9806至0.9935)。

在對所有24小時營養變量的綜合評估中，發現了與纖維(HR 0.96(0.95至0.97)增加1克)和煙酸(HR 0.98(0.96至0.99)增加1毫克)的保護性關聯，與飽和脂肪(HR 1.19(1.07至1.32)增加1克)的有害關聯。更仔細地檢查每1克脂肪攝入量的增加，SFA 16:0攝入量是保護性的(0.85(0.76至0.94))，SFA 18:0(0.85(0.75至0.98))也是如此。MFA 16:1(1.06(1.02至1.10))和MFA 20:1(1.32(1.03至1.69))略微增加風險，PFA 18:2(1.07(1.04至1.11))也是如此。MFA 22:1(0.34(0.13至0.90))和PFA 18:3(0.80(0.68至0.95))降低風險。

GBM中的相對影響顯示了模型中的每個變量在0-100的重要性總量中所占的比例(在線補充表Q）.年齡一直對20-30歲有相對影響，除了模型3 AHEI(相對影響6)和模型與MDS(相對影響3)4。SBP的相對影響19-41在所有模型除了模型6所有營養變量(相對影響3)。高密度脂蛋白範圍從10 37除了模型4 AHEI 6模型(3)和(3)營養變量。總膽固醇從13到24不等除了6(2)模型。煙草使用異常影響模型3(46),同時保持低於4所有其他型號。HEI在模型1(14)中重要，DASH在模型5(17)中重要，而AHEI和MDS的相對影響均不超過2。在24小時營養變量中，鐵、豆類、糖果和糕點的相對影響為5或更大。包含所有營養變量的RF模型的部分依賴圖顯示，大約從65歲開始，10年CVD死亡概率呈指數級增加，收縮壓120 mm Hg後，10年CVD死亡概率呈線性增加(在線補充圖C）.

補充材料

[bmjopen - 2019 - 032703 - supp004.pdf]

敏感性分析

將教育和貧困添加到表現最佳的模型中並沒有顯著改善校準(有1.0120 vs無1.0137)或歧視(有0.9336 vs無0.9320)。將最佳表現模型單獨應用於心髒病死亡，得到校準斜率0.9670(0.7525至1.1814)和判別c統計量0.9256(0.9120至0.9391)。將性能最佳的模型單獨應用於腦血管疾病死亡，得到校準斜率0.7406(0.5636至0.9177)和判別c統計量0.9157(0.8898至0.9416)。

討論

我們研究了是否可以通過將稀疏營養數據納入通過機器學習算法導出的模型來改善CVD死亡率預測。我們觀察到，在標準的Cox比例風險模型中添加營養變量本身並沒有實質性的好處，機器學習本身提高了校準，並適度提高了辨別能力，當營養數據和機器學習相結合時，我們可以大大提高風險預測，而不僅僅是包括標準的人口統計數據和生物標誌物。當同時使用營養數據和機器學習算法時，校準效果特別好。

我們的研究結果具有臨床意義，因為更快速、自動化或基於移動設備的24小時飲食回憶使得在就診時或就診前為患者提供營養狀況成為可能1 2隨著自動化心血管疾病風險預測模型成為精準醫療指南中越來越重要的一部分，旨在提高醫療從業者為高危患者開出預防性心血管治療處方的能力。6由於標準的生物標記無法完全解釋營養與心血管疾病死亡率之間的關係，59 60直接結合原始飲食數據的機器學習方法似乎比複合營養指數更有好處，複合營養指數可能會過度降低營養相互作用的複雜性和帶來風險的非線性關係。我們的研究受益於對美國成年人的全國代表性樣本進行的研究，包括營養的綜合評估、生物標誌物的直接實驗室評估、血壓的直接檢查以及根據死因判斷死亡率的全麵隨訪。

然而，我們的研究有重要的局限性，包括需要補充缺失的數據，在NHANES後期浪潮中收集的個體中隨訪時間較短，除了CVD死亡率之外，缺乏關於CVD事件的信息，以及需要在實踐中評估模型實施的可行性。未來，進一步的研究可以評估快速膳食召回和相關心血管風險評估的表現是否可以在實踐中實施，在本評估中觀察到的校準和辨別的改進水平是否會對患者關鍵預防性治療的處方水平產生臨床意義上的變化，以及與傳統cox型風險模型相比，解釋機器學習模型的困難是否會對這些模型在臨床實踐中的可接受性構成挑戰。

目前，我們的研究結果表明，將營養數據與現有的機器學習算法結合起來，可以大大改善心血管風險預測。

致謝

作者感謝了斯坦福定量科學部的兩位匿名評審員。

參考文獻

↵
2. ShivappaN，
3. SteckSE，
4. 哈斯小，等
。在國家健康和營養檢查調查III研究中，飲食和全因、心血管和癌症死亡率的炎症潛力。Eur J Nutr2017；56：683- - - - - -92。doi: 10.1007 / s00394 - 015 - 1112 - x
OpenUrl
↵
2. AuneD，
3. GiovannucciE，
4. BoffettaP，等
。水果和蔬菜攝入量與心血管疾病風險、總癌症和全因死亡率——前瞻性研究的係統回顧和劑量反應薈萃分析。流行病學2017；46：1029- - - - - -56。doi: 10.1093 / ije / dyw319
OpenUrl CrossRef PubMed
↵
2. 王DD，
3. 李Y，
4. ChiuveSE，等
。特定膳食脂肪與總死亡率和死因特異性死亡率的關係。美國醫學會實習生2016；176：1134- - - - - -45。doi: 10.1001 / jamainternmed.2016.2417
OpenUrl
↵
2. Langley-EvansSC
。生命早期營養與成人疾病的規劃:綜述。J Hum Nutr飲食2015；28：1- - - - - -14。doi: 10.1111 / jhn.12212
OpenUrl CrossRef PubMed
↵
2. 高夫直流，
3. 鍾馬田DM，
4. 班尼特G，等
。2013年ACC/AHA心血管風險評估指南。循環2014；129：S49- - - - - -73。cir.0000437741.48606.98 doi: 10.1161/01.
OpenUrl 免費的全文
↵
2. 石頭新澤西，
3. 羅賓遜詹，
4. 利希滕斯坦啊，等
。2013年ACC/AHA關於治療血液膽固醇以降低成人動脈粥樣硬化性心血管風險的指南。循環2014；129：S1- - - - - -45。cir.0000437738.63853.7a doi: 10.1161/01.
OpenUrl 免費的全文
↵
1. 成人高血膽固醇檢測、評估和治療專家小組
。國家膽固醇教育計劃(NCEP)成人高血膽固醇檢測、評估和治療專家小組(成人治療小組III)第三次報告的執行摘要。美國醫學會醫學協會2001；285：2486- - - - - -97。doi: 10.1001 / jama.285.19.2486
OpenUrl CrossRef PubMed 科學網
↵
2. 鍾馬田DM，
3. 萊普EP，
4. 拉森毫克，等
。50歲時危險因素負擔對心血管疾病終生風險的預測。循環2006；113：791- - - - - -8。doi: 10.1161 / CIRCULATIONAHA.105.548206
OpenUrl 摘要/免費的全文
↵
2. Yadlowsky年代，
3. 海沃德類風濕性關節炎，
4. 蘇斯曼簡森-巴頓，等
。修正的合並隊列方程用於估計動脈粥樣硬化性心血管疾病風險的臨床意義。實習醫生2018；169：20.。doi: 10.7326 / m17 - 3011
↵
2. StumboPJ
。選擇膳食評估係統的考慮因素。J食品堆肥肛門2008；21：向- - - - - -19。doi: 10.1016 / j.jfca.2007.07.011
OpenUrl PubMed
↵
2. 斯圖爾特樂，
3. 惠特克小
。現代食品分析方法施普林格科學與商業媒體；2012。
↵
2. 肯尼迪等，
3. 哦!J，
4. 卡爾森年代，等
。健康飲食指數:設計與應用。美國飲食協會1995；95：1103- - - - - -8。doi: 10.1016 / s0002 - 8223 (95) 00300 - 2
OpenUrl CrossRef PubMed 科學網
↵
2. 麥卡洛毫升，
3. 威雷特WC
。評估成人對推薦飲食的依從性:替代健康飲食指數。公共衛生專家2006；9：152- - - - - -7。doi: 10.1079 / PHN2005938
OpenUrl CrossRef PubMed 科學網
↵
2. PanagiotakosDB，
3. PitsavosC，
4. StefanadisC
。飲食模式:地中海飲食評分及其與心血管疾病風險的臨床和生物學標記物的關係。心血管疾病2006；16：559- - - - - -68。doi: 10.1016 / j.numecd.2005.08.006
OpenUrl CrossRef PubMed 科學網
↵
2. 蘆葦做的J，
3. Krebs-SmithSM，
4. 米勒體育，等
。在老年人中，較高的飲食質量與降低患全因、心血管疾病和癌症的風險有關。J減輕2014；144：881- - - - - -9。doi: 10.3945 / jn.113.189407
OpenUrl 摘要/免費的全文
↵
2. Onvani年代，
3. HaghighatdoostF，
4. SurkanPJ，等
。堅持健康飲食指數和替代健康飲食指數飲食模式與各種原因、心血管疾病和癌症的死亡率:觀察性研究的薈萃分析。J Hum Nutr飲食2017；30.：216- - - - - -26。doi: 10.1111 / jhn.12415
OpenUrl PubMed
↵
2. 馮TT，
3. Rexrode公裏，
4. MantzorosCS，等
。地中海飲食與女性冠心病和中風的發病率和死亡率的關係。循環2009；119：1093- - - - - -One hundred.。doi: 10.1161 / CIRCULATIONAHA.108.816736
OpenUrl 摘要/免費的全文
↵
2. AkbaralyTN，
3. •菲利我，
4. BerrC，等
。替代健康飲食指數與隨訪18年以上死亡率:來自白廳II隊列的結果。J是clinin Nutr嗎2011；94：247- - - - - -53。doi: 10.3945 / ajcn.111.013128
OpenUrl 摘要/免費的全文
↵
2. Schwingshackll，
3. 霍夫曼G
。飲食質量由健康飲食指數、替代健康飲食指數、停止高血壓的飲食方法評分和健康結果評估:隊列研究的係統回顧和薈萃分析。J Acad Nutr飲食2015；115：780- - - - - -800。doi: 10.1016 / j.jand.2014.12.009
OpenUrl CrossRef PubMed
↵
2. 康德正義與發展黨
。總體飲食質量指標:綜述。美國飲食協會1996；96：785- - - - - -91。doi: 10.1016 / s0002 - 8223 (96) 00217 - 9
OpenUrl CrossRef PubMed 科學網
↵
2. 福爾鬆的基於“增大化現實”技術，
3. 帕克艾德，
4. HarnackLJ
。與DASH飲食指南的一致性程度與高血壓和致命心血管疾病的發病率。Am J Hypertens2007；20.：225- - - - - -32。doi: 10.1016 / j.amjhyper.2006.09.003
OpenUrl CrossRef PubMed
↵
2. 馮TT，
3. ChiuveSE，
4. 麥卡洛毫升，等
。堅持dash飲食與女性患冠心病和中風的風險有關。Arch實習醫生2008；168：713- - - - - -20.。doi: 10.1001 / archinte.168.7.713
OpenUrl CrossRef PubMed 科學網
↵
2. 心胸狹窄的人SM，
3. 石頭新澤西，
4. 貝利艾爾，等
。2018 AHA/ACC/AACVPR/AAPA/ABC/ACPM/ADA/AGS/APhA/ASPC/NLA/PCNA血液膽固醇管理指南:執行摘要:美國心髒病學會/美國心髒協會臨床實踐指南工作組報告。J Am Coll Cardiol2019；73：3168- - - - - -209。doi: 10.1016 / j.jacc.2018.11.002
OpenUrl 免費的全文
↵
2. 比賓斯-多明戈K，
3. 格羅斯曼直流，
4. 咖喱SJ，等
。他汀類藥物用於成人心血管疾病的一級預防:美國預防服務工作組建議聲明。《美國醫學會雜誌》2016；316：1997- - - - - -2007。doi: 10.1001 / jama.2016.15450
OpenUrl CrossRef PubMed
↵
2. 比賓斯-多明戈K，我代表美國預防服務工作組
。阿司匹林用於心血管疾病和結直腸癌的一級預防:美國預防服務工作組建議聲明。實習醫生2016；164：836。doi: 10.7326 / m16 - 0577
↵
2. WheltonPK，
3. 凱裏RM，
4. AronowWS，等
。2017年ACC/AHA/AAPA/ABC/ACPM/AGS/APhA/ASH/ASPC/NMA/PCNA成人高血壓預防、檢測、評估和管理指南。J Am Coll Cardiol2018；71：e127- - - - - -248。doi: 10.1016 / j.jacc.2017.11.006
OpenUrl 免費的全文
↵
2. 蘇雷什年代，
3. Saraswathi年代，
4. SundararajanN
。多類別稀疏數據分類問題的極限學習機性能增強。工程應用Artif Intell2010；23：1149- - - - - -57。doi: 10.1016 / j.engappai.2010.06.009
OpenUrl CrossRef
↵
2. 墨西拿米，
3. 蘭佩JW，
4. BirtDF，等
。還原論和狹隘的營養觀點:是時候重新評估和強調食物協同作用了。美國飲食協會2001；101：1416- - - - - -9。doi: 10.1016 / s0002 - 8223 (01) 00342 - x
OpenUrl CrossRef PubMed
↵
2. 王J，
3. 李D，
4. DangottLJ，等
。蛋白質組學及其在營養研究中的作用。J減輕2006；136：1759- - - - - -62。doi: 10.1093 /約/ 136.7.1759
OpenUrl 摘要/免費的全文
↵
2. 馬科斯一個，
3. 新星E，
4. 蒙特一個
。免疫係統的變化受營養的製約。Eur J clinin Nutr2003；57補充1 .：S66- - - - - -9。doi: 10.1038 / sj.ejcn.1601819
OpenUrl
↵
2. 蔡塞爾上海，
3. 艾倫韓，
4. 科伯恩SP，等
。營養學:綜合科學的寶庫。J減輕2001；131：1319- - - - - -21。doi: 10.1093 /約/ 131.4.1319
OpenUrl 摘要/免費的全文
↵
2. Subar房顫，
3. 柯克帕特裏克如果，
4. MittlB，等
。自動自我管理的24小時飲食回憶(ASA24):國家癌症研究所的研究人員、臨床醫生和教育工作者的資源。J Acad Nutr飲食2012；112：1134- - - - - -7。doi: 10.1016 / j.jand.2012.04.016
OpenUrl CrossRef PubMed
↵
2. VereeckenCA，
3. 考文特米，
4. MatthysC，等
。青少年營養計算機評估(YANA-C)。Eur J clinin Nutr2005；59：658- - - - - -67。doi: 10.1038 / sj.ejcn.1602124
OpenUrl CrossRef PubMed 科學網
↵
2. HonguN，
3. Hingle醫學博士，
4. 商人數控，等
。使用移動技術的膳食評估工具。頂級clinin Nutr2011；26：300- - - - - -11。doi: 10.1097 / TIN.0b013e3182379525
OpenUrl
↵
2. 湯普森菲，
3. Dixit-Joshi年代，
4. PotischmanN，等
。在3個不同的綜合衛生係統中，訪談管理和自動自我管理24小時飲食召回的比較。Am J流行病2015；181：970- - - - - -8。doi: 10.1093 / aje / kwu467
OpenUrl CrossRef PubMed
↵
1. NHANES
。關於全國健康和營養調查，2017。可用:https://www.cdc.gov/nchs/nhanes/about_nhanes.htm(訪問2019年3月11日]。
↵
2. BuurenSvan，
3. Groothuis-OudshoornK
。老鼠R中鏈式方程的多元歸算。J統計軟件2011；45：1- - - - - -67。doi: 10.18637 / jss.v045.i03
OpenUrl CrossRef
↵
2. VergouweY，
3. 羅伊斯頓P，
4. 衛星KGM，等
。缺少預測器數據的預測模型的開發和驗證:一個實用的方法。臨床流行病學2010；63：205- - - - - -14。doi: 10.1016 / j.jclinepi.2009.03.017
OpenUrl CrossRef PubMed 科學網
↵
2. 陳Y，
3. 賈Z，
4. MercolaD，等
。一種基於和諧指數直接優化的生存分析梯度增強算法。計算數學方法醫學2013；2013：1- - - - - -8。doi: 10.1155 / 2013/873595
OpenUrl CrossRef
↵
2. IshwaranH，
3. Kogalur烏蘭巴托，
4. 百仕通嗯，等
。隨機生存森林。Ann應用統計2008；2：841- - - - - -60。doi: 10.1214 / 08-aoas169
OpenUrl CrossRef 科學網
↵
2. 弗裏德曼JH
。隨機梯度增強。計算統計數據肛門2002；38：367- - - - - -78。doi: 10.1016 / s0167 - 9473 (01) 00065 - 2
OpenUrl CrossRef 科學網
↵
2. 弗裏德曼JH
。貪心函數逼近:一種梯度提升機。安統計2001；29：1189- - - - - -232。
OpenUrl CrossRef 科學網
↵
2. 昆蘭小
。決策樹的歸納。馬赫學習1986；1：81- - - - - -106。doi: 10.1007 / BF00116251
OpenUrl CrossRef
↵
2. Breimanl
。隨機森林。馬赫學習2001；45：5- - - - - -32。doi: 10.1023 /: 1010933404324
OpenUrl CrossRef PubMed 科學網
↵
2. 弗裏德曼J，
3. 黑斯蒂T，
4. TibshiraniR
。可加性邏輯回歸:促進的統計觀點(包括作者的討論和反駁)。安。中央集權。2000；28：337- - - - - -407。doi: 10.1214 /市場/ 1016218223
OpenUrl
↵
2. Guenther點，
3. CasavaleKO，
4. 蘆葦做的J，等
。健康飲食指數更新:HEI-2010。J Acad Nutr飲食2013；113：569- - - - - -80。doi: 10.1016 / j.jand.2012.12.016
OpenUrl CrossRef PubMed
↵
2. ChiuveSE，
3. 馮TT，
4. Rimm海爾哥哥，等
。替代飲食指數都強有力地預測了慢性疾病的風險。J減輕2012；142：1009- - - - - -18。doi: 10.3945 / jn.111.157222
OpenUrl 摘要/免費的全文
↵
2. Trichopoulou一個，
3. CostacouT，
4. 巴米亞C，等
。堅持地中海飲食和希臘人的生存。N英語J醫學2003；348：2599- - - - - -608。doi: 10.1056 / NEJMoa025039
OpenUrl CrossRef PubMed 科學網
↵
2. 岡瑟鋁青銅，
3. Liese廣告，
4. 貝爾類風濕性關節炎，等
。青少年糖尿病患者高血壓飲食與高血壓的關係。高血壓2009；53：6- - - - - -12。doi: 10.1161 / HYPERTENSIONAHA.108.116665
OpenUrl CrossRef
↵
2. GreenwellB，
3. BoehmkeB，
4. 坎寧安J
。在GitHub上發展你的團隊，2019。可用:https://github.com/gbm-developers
↵
2. HothornT等
。生存的集合體。生物統計學2006；7：355- - - - - -73。doi: 10.1093 /生物統計學/ kxj011
OpenUrl CrossRef PubMed 科學網
↵
2. HothornT，
3. HornikK，
4. Zeileis一個
。方:遞歸部件實驗室；2019。
↵
2. 德龍呃，
3. 德龍DM，
4. Clarke-Pearson戴斯。萊納姆:
。比較兩條或多條相關的受試者工作特征曲線下的麵積:一種非參數方法。生物識別技術1988；44：837- - - - - -45。doi: 10.2307 / 2531595
OpenUrl CrossRef PubMed 科學網
↵
2. 羅賓X，
3. TurckN，
4. Hainard一個，等
。pROC:用於R和S+分析和比較ROC曲線的開源包。BMC生物信息學2011；12：77。doi: 10.1186 / 1471-2105-12-77
↵
1. StataCorp
。Stata統計軟件:第15版StataCorp有限責任公司；2017。
↵
1. R核心團隊
。R:用於統計計算的語言和環境；2018。
↵
2. 衛星KGM，
3. 奧特曼DG，
4. Reitsma簡森-巴頓，等
。透明報告個人預後或診斷(TRIPOD)的多變量預測模型:解釋和闡述。實習醫生2015；162：W1。doi: 10.7326 / m14 - 0698
↵
2. Ridker點，
3. 烹飪NR
。他汀類藥物:預防心血管疾病的新美國指南。《柳葉刀》2013；382：1762- - - - - -5。doi: 10.1016 / s0140 - 6736 (13) 62388 - 0
OpenUrl
↵
2. 康德正義與發展黨
。飲食模式:生物標誌物和慢性疾病風險。這篇論文是在CSCN-CSNS 2009年會議上發表的論文之一，題目是飲食模式是預防慢性疾病的最佳營養建議嗎?應用Physiol Nutr Metab2010；35：199- - - - - -206。doi: 10.1139 / h10 - 005
OpenUrl CrossRef PubMed
↵
2. 鮑施伊認為CJ，
3. 考斯頓我，
4. 岩石CL，等
。營養在疾病預防和治療中的作用。愛思唯爾，2001。

腳注

貢獻者SB概念化了研究和設計，並為數據準備和分析做出了貢獻。JR對數據準備和分析做出了貢獻。兩位作者都對手稿的寫作和批判性審查做出了貢獻。
資金這項工作得到了美國國立衛生研究院國家少數民族健康和健康差異研究所的支持，資助號為DP2MD010478。
免責聲明內容僅為作者的責任，並不一定代表美國國立衛生研究院的官方觀點。
相互競爭的利益沒有宣布。
患者發表同意書不是必需的。
出處和同行評審不是委托;外部同行評審。
數據可用性聲明如有合理要求，可提供資料。

使用您的用戶名和密碼登錄

主菜單

使用您的用戶名和密碼登錄

你在這裏

摘要

數據來自Altmetric.com

請求的權限

本研究的優勢和局限性

簡介

方法

數據源

補充材料

患者和公眾參與

模型開發

結果指標

數據可用性聲明

結果

研究樣本的描述性統計

模型校準性能

補充材料

模型辨別性能

補充材料

重要的聯係

補充材料

敏感性分析

討論

致謝

參考文獻

腳注

閱讀全文或下載PDF:

使用您的用戶名和密碼登錄