條文本
摘要
簡介糖尿病(DM)是一種主要的非傳染性疾病,發病率日益上升。未確診的糖尿病並不罕見,可導致嚴重並發症和死亡。在早期疾病階段,即糖尿病前期(dm前期)識別高危人群對於延緩進展至關重要。現有的風險模型主要依靠不可修改的因素來預測糖尿病風險,很少適用於中國人群。本研究旨在開發並驗證一種風險預測函數,該函數包含可改變的生活方式因素,用於檢測初級保健中的中國成年人的糖尿病和糖尿病前期。
方法與分析一項橫斷麵研究,利用香港人口健康調查(PHS) 2014/2015年的數據和一項為期12個月的前瞻性研究,開發糖尿病/糖尿病前期風險預測函數,以驗證糖尿病/糖尿病前期患者病例發現的功能。將從PHS 2014/2015中提取1857名無自述糖尿病/前期糖尿病的中國成年人的數據,使用邏輯回歸和機器學習方法建立糖尿病/前期糖尿病風險模型。我們將從香港的公立和私立初級保健診所招募1014名無糖尿病/糖尿病前期病史的中國成年人。他們將在招募時完成一份有關危險因素的問卷調查,並在12個月時完成口服葡萄糖耐量試驗(OGTT)和糖化血紅蛋白(HbA1c)的血液測試,如果首次血液測試為陰性。在任何血液檢查中,由OGTT或HbA1c定義的DM/ DM前期為陽性病例。計算受試者工作特征曲線下麵積、模型檢測DM/pre-DM的靈敏度、特異性、陽性預測值和陰性預測值。
倫理與傳播已獲得香港大學/香港醫院管理局香港西集群(UW19-831)和香港醫院管理局九龍中/九龍東集群(REC(KC/KE)-21-0042/ER-3)的倫理批準。研究結果將在同行評議的期刊上發表。
試用注冊號我們ClinicalTrial.gov:NCT04881383;港大臨床試驗登記處:HKUCTR-2808;Pre-results。
- 糖尿病和內分泌學
- 初級護理
- 統計與研究方法
這是一篇開放獲取的文章,根據創作共用署名非商業(CC BY-NC 4.0)許可證發布,該許可證允許其他人以非商業方式分發、混音、改編、在此基礎上進行構建,並以不同的條款許可其衍生作品,前提是正確引用原始作品,給予適當的榮譽,任何更改都已注明,並且使用是非商業性的。看到的:http://creativecommons.org/licenses/by-nc/4.0/.
數據來自Altmetric.com
本研究的優勢和局限性
風險預測函數將從具有中國人口代表性的樣本數據集開發,以提高其有效性。
不同的方法,包括機器學習,將被用來增加最終預測函數的可靠性和預測能力。
函數將使用外部前瞻性樣本進行有效性和概括性驗證。
風險預測功能納入生活方式因素,提高有效性和臨床應用。
2014/2025年人口健康調查中缺乏糖尿病家族史數據,可能會影響風險預測模型的準確性。
簡介
糖尿病(DM)是第二大最常見的慢性非傳染性疾病(NCD),也是一個重大的公共衛生問題。2017年,據估計,全球有4.51億成年人患有糖尿病,預計到2045年,這一數字將上升到6.93億。1在中國,糖尿病的患病率在過去20年裏迅速增加,目前約有1.096億中國成年人(占全球所有病例的25.8%)患有糖尿病。2在中國人口中,香港是糖尿病發病率最高的地區之一。3.2014/2015年香港人口健康調查(PHS)發現,15-84歲人群中糖尿病患病率為8.4%,其中超過一半(4.5%)是此前未知的。4PHS 2014/2015年未公布的數據顯示,在15-84歲的人群中,還有9.5%的人患有糖尿病前期(dm前期),但在調查前不知道這個問題。4
糖尿病可導致嚴重並發症,導致致殘性發病率和過早死亡。一些隨機對照試驗發現,生活方式幹預(如飲食、運動)和藥物治療對預防糖尿病及其並發症有效。5個6然而,據報道,全球有2.24億成年人(占所有病例的49.7%)不知道自己患有這種疾病,1這與香港小靈通2014/2015的調查結果一致。糖尿病可在確診前存在9-12年,通常隻有當患者出現並發症時才會被發現。7因此,有必要及早發現糖尿病,以便提供適當的幹預措施,以預防和/或延緩並發症的發展。如果個體在糖尿病前期就能被識別出來,那將會更加有效,因為那時仍有機會通過改變生活方式恢複到正常血糖水平。8糖尿病滿足Wilson和Jungner的所有篩查標準,9研究表明,一般人群篩查是無效的10目前的建議是針對高危人群(年齡≥45歲或有糖尿病危險因素的人)的病例發現。11事實上,一項成本-效益分析報告稱,在被確定為高風險(如體重指數(BMI)>35 kg/m)的患者中,篩查DM和前驅糖尿病可節省成本2,收縮壓≥130mmhg或>55歲)。12
為了更準確地識別高危人群,已經開發了多變量風險預測模型,並將其納入糖尿病預防規劃。13這些模型通常包括社會人口學因素(如年齡、性別)、臨床因素(如糖尿病家族史、妊娠期糖尿病)或生物標誌物(如BMI、血壓)。然而,大多數這些模型主要是在白種人中開發的,在中國人中表現不佳。14 - 16例如,潛在心血管明斯特,劍橋,聖安東尼婭和弗雷明漢模型被發現在一群劣質歧視中國人(曲線下的麵積(AUC): 0.630, 0.580, 0.662和0.675,分別)。14這可能是由於種族差異以及生活方式和社會經濟因素造成的,因此需要針對特定人群的風險預測模型。
自2009年以來,針對中國人群開發了多個糖尿病風險預測模型和評分算法。3 17-22這些模型和算法大部分是在中國大陸開發和驗證的,17-21隻有三種型號是為香港華人設計的。3 17 22第一個香港模型使用自我報告因子和實驗室測量來創建評分算法。3.≥16/30的臨界值在開發樣本(AUC: 0.73)和兩個驗證樣本(AUC: 0.681和0.772)中表現良好。3.然而,該模型對初級保健患者的適用性可能受到限製,因為70%的開發和驗證樣本的受試者已知糖尿病的危險因素,並且需要實驗室測試。第二個香港模型是利用3357名無症狀非糖尿病專業司機的數據開發的。17非實驗室危險因素包括年齡、BMI、糖尿病家族史、定期體育活動(PA)和高血壓。甘油三酯被添加到基於實驗室的評分算法中。非基於實驗室和基於實驗室算法的AUC分別為0.709和0.711。在最佳分值≥18時,非實驗室算法的敏感性和特異性分別為57.9%和68.9%,實驗室算法的敏感性和特異性分別為66.2%和60.2%。由於樣本以男性為主(92.7%),準確性一般,該風險預測模型的應用受到限製。第三個香港模型,非侵入性糖尿病評分(NDS),僅使用三個非侵入性因素(即年齡、BMI和高血壓診斷)來開發風險評分係統。22在臨界值≥28/50時,該模型對包括中國大陸的外部驗證樣本具有良好的識別能力(AUC: 0.720)。此外,敏感性和特異性分別為60.8%和69.7%。雖然該模型不包括任何生活方式因素,但值得注意的是,它是基於1995年的數據開發的,並使用2007年中國大陸的數據進行驗證。生活方式行為因素,即飲食模式和PA,多年來可能發生變化,這可能會影響NDS的有效性和適用性。
盡管糖尿病前期是預防糖尿病進展的關鍵時期,但隻有少數模型將糖尿病前期和糖尿病作為陽性病例。通常,這種模型缺乏前瞻性的外部驗證,預測性能一般(AUC: 0.646)。20日23還應注意到,現有模型中包含的大多數因素是不可修改的(例如,糖尿病家族史,妊娠期糖尿病,年齡)。有必要研究納入更多的生活方式因素,以提高風險預測模型的預測有效性和影響。13可能與糖尿病及糖尿病前期相關的生活方式因素包括PA水平,17飲食因素(如纖維、糖或脂肪攝入)、飲酒、吸煙和睡眠。18 19
本研究旨在為香港普通華人開發一種新的糖尿病及糖尿病前風險預測功能,將傳統及可改變的生活方式因素納入其中。我們將在模型開發中應用機器學習(ML)的新方法和傳統的邏輯回歸來提高有效性、可靠性和預測能力。此外,將對參加初級保健診所的個人進行前瞻性研究,以外部驗證模型。因此,我們希望這項研究的結果能夠有效地在初級保健中發現無症狀糖尿病和前糖尿病的機會性病例,從而進行早期診斷和幹預,以預防這種常見但沉默的非傳染性疾病的糖尿病並發症和死亡率和發病率。
本研究有三個具體目標:(1)利用香港PHS 2014/2015年的數據,開發一個使用非實驗室參數預測DM和DM前期的風險預測函數,(2)開發一個風險評分算法並確定預測DM和DM前期的分值,(3)驗證風險預測函數並確定其在預測中國成人初級保健中的DM和DM前期的敏感性和特異性。我們的假設如下:(1)利用PHS 2014/2015數據構建的DM和DM前風險預測函數具有良好的判別能力,受試者工作特征(AUROC)曲線下麵積為>0.7。(2) ML建立的DM和DM前風險預測模型比logistic回歸建立的模型更具鑒別性和準確性。(3)采用最優分值的DM和pre-DM風險算法識別12個月以上DM或pre-DM發病病例的敏感性≥75%。
方法與分析
研究設計
本研究分為兩部分。第一項是橫斷麵研究,利用PHS 2014/2015年收集的來自香港普通人群的1857名受試者的數據,開發糖尿病和糖尿病前期的風險預測函數。4 24第二部分是一項為期12個月的前瞻性研究,對1014名在公立和私立初級保健診所就診的中國成年人(18-84歲)進行研究,以測試風險預測函數在糖尿病患者和糖尿病前期患者病例發現中的有效性、敏感性和特異性。
研究人群
發展研究
我們將納入參加過PHS 2014/2015並完成健康檢查的受試者,包括身體測量(身高、體重、BMI、腰圍和臀圍)和血液檢查(空腹血糖、糖化血紅蛋白(HbA1c)和血脂)。有人口代表性的樣本12022人完成了2014/2015年的PHS,隨機選擇的2347名15-84歲(19.5%)的人參加了健康檢查。在2347人中,我們確定了1857名受試者(男性:885;女性:972歲),年齡18-84歲(平均年齡:41.37歲),無自述醫生診斷的糖尿病、高血壓、心血管疾病(冠心病、中風)、癌症、腎髒疾病或貧血,符合納入樣本開發DM和DM前期風險預測模型的條件。在1857名受試者中,先前未知但經血液測試證實的糖尿病患病率為3.77%(70名受試者),糖尿病前期患病率為11.31%(210名受試者)。因此,新發現的糖尿病和糖尿病前期的總患病率為15.08%。
驗證研究
在私人和公共初級保健診所就診的病人將由醫生、研究助理和自我轉診招募。我們會在參與診所的候診區及診室張貼印製的海報及單張,派發予前來就診的病人,並鼓勵他們轉介親友。我們將有目的地對受試者進行抽樣,以確保性別和年齡在40歲及40歲以下的人都有代表性。連續抽樣將邀請每一個符合所有納入標準的合格參與者參與,直到我們達到所需的樣本量。以下列出了納入和排除標準。
入選標準:
年齡18-84歲。
中國人
能用中文交流。
同意參與研究。
排除標準:
任何醫生診斷的糖尿病、高血糖、心血管疾病(冠心病、中風)、癌症、慢性腎病或貧血史。
由於疾病或認知障礙而無法完成調查或血液測試。
不要同意這項研究。
結果測量
陽性病例為口服糖耐量試驗(OGTT)或HbA1c標準在任何一次血液檢查中定義的糖尿病或糖尿病前期。糖尿病和糖尿病前期的病例定義是基於世界衛生組織和香港成人糖尿病初級保健參考框架。11 25糖尿病病例定義如下:(1)OGTT中,空腹血糖≥7 mmol/L或75 g血糖後2小時≧11.1 mmol/L或(2)HbA1c≥6.5%。糖尿病前病例定義為:(1)OGTT空腹血糖6.1 ~ 6.9 mmol/L或75 g血糖後2小時血糖7.8 ~ 11 mmol/L,或(2)糖化血紅蛋白5.7% ~ 6.4%。
主要的結果
風險預測函數在初級保健中檢測糖尿病和糖尿病前期的敏感性。
二次結果
風險預測評分算法在初級保健中預測DM和DM前的AUC、特異性、陽性預測值(PPV)和陰性預測值(NPV)。
樣本量計算
發展研究
從PHS 2014/2015數據中最少需要995個樣本量,通過多元邏輯回歸建立模型,應用每個預測因子至少15個事件的經驗法則,假設模型中包含10個預測因子,未診斷糖尿病和DM前期的患病率為15.08%。考慮到模型開發和內部驗證的數據以2比1的比例拆分,因此總樣本量至少為1493。
驗證研究
主要結果是風險預測函數在檢測糖尿病新病例和糖尿病前期的敏感性。樣本量的計算是基於2014/2015年PHS中發現的未診斷糖尿病和前期糖尿病的點患病率為15.08%,新的風險預測函數的效用預計具有75%的敏感性。需要710名受試者(107名患有糖尿病前期或糖尿病,603名血糖狀態正常)的樣本才能達到95% CI大於0.6的下限。26我們計劃招募1014名受試者,其中50%來自公立初級保健診所,50%來自私營初級保健診所,以容許30%的人員流失。
數據收集
發展研究
將從PHS 2014/2015數據庫中提取符合條件的受試者的相關危險因素數據以及空腹血糖和糖化血紅蛋白結果,用於模型開發。文獻中報道的糖尿病和糖尿病前期的風險因素(獨立變量),在初級保健中不需要血液檢查就能輕易獲得,包括患者的社會人口學(年齡、性別、教育程度、職業)、臨床參數(BMI、收縮壓、舒張壓、腰圍、腰臀比)和生活方式(吸煙、飲酒、PA水平、水果、蔬菜和含糖飲料的每日攝入量),外出就餐的頻率、睡眠時間和質量)將包括在內。發展研究於2020年8月開始,2021年2月結束。
驗證研究
訓練有素的研究助理將篩選並邀請從公立和私立初級保健診所轉介的合格受試者於2021年4月至12月期間參加研究。同意的受試者會被要求簽署書麵同意書(在線補充附錄A),並填寫一份有關社會人口學、個人及家族病史及生活方式(包括PA水平、飲食因素(如纖維、糖或脂肪攝入量)、飲酒、吸煙及睡眠)的問卷。每位受試者將獲得一份調查表格,在3個月內前往由澳大利亞國家檢測機構協會和澳大利亞皇家病理學家學院認證的符合國際標準化組織15189的指定私人實驗室進行測量(血壓、體重、身高、腰圍和臀圍),並進行OGTT、HbA1c、全血細胞計數和血脂譜的血液檢測。PHS 2014/2015的問卷調查、人體測量和實驗室調查的方法質量標準將適用於驗證研究的受試者。OGTT和HbA1c結果將被篩選以確定DM和DM前期病例。由於貧血可能影響HbA1c的有效性,血紅蛋白<10 g/dL的受試者將被排除在驗證研究之外。結果不正常的受試者將被聯係進行谘詢或轉介,以便進一步評估或管理。OGTT和HbA1c正常的受試者將在招募之日起12個月再次發送調查單,進行OGTT和HbA1c重複血液檢測,結果將如上所述進行篩選和跟蹤。驗證研究的數據收集預計將於2022年12月結束。前瞻性驗證研究流程圖如圖所示圖1.
數據分析
描述性統計將用於計算糖尿病和糖尿病前期的發病率,分別為總發病率和發病率。危險因素的分布將分別由糖尿病組、糖尿病前期組和正常血糖組對開發和驗證樣本進行交叉表比對。危險因素與血糖分組類別之間的未調整相關性將通過方差分析(ANOVA)對連續變量或χ進行評估2測試分類變量。
發展研究
我們將PHS 2014/2015的1857名符合條件的受試者隨機分為2/3作為衍生樣本,1/3作為內部驗證樣本。我們將使用兩種方法來使用來自推導樣本的數據來開發預測模型。第一種方法是采用傳統的多變量logistic回歸方法對所有相關獨立因素進行逐步回歸,建立DM和DM前的風險預測模型。如果在模型中選擇了風險因素的主項,則評估風險因素的二次項及其與年齡的相互作用項。最終模型中每個選定風險因素OR的自然對數將作為預測函數中的係數(權重)。將這些權重與logistic函數結合,建立DM和pre-DM的風險方程。第二種方法是極限梯度增強(XGB),27基於樹的集成ML算法。XGB已廣泛應用於疾病風險預測任務,表現出比神經網絡、隨機森林等其他常用ML方法更好的性能。28 - 30XGB模型的損失函數將是一個交叉熵誤差,定義如下:
在哪裏 觀察到的事件和 是預測風險。
XGB的超參數,包括助推器參數和樹形結構參數,將采用基於五重交叉驗證的網格搜索來確定。為了避免過擬合,一旦在五次迭代中觀察到訓練損失在增加,就會停止訓練過程。基於Shapley值的Shapley成癮性解釋方法將用於評估風險因素的重要性並解釋ML模型。使用包裝器特征選擇方法選擇最重要的風險因素31來構建最終的XGB模型。
對於邏輯回歸和ML模型,預測風險對觀察事件(DM和DM前)的ROC曲線將被用於約登指數(Youden’s index)來確定敏感性和特異性之間最佳權衡的臨界值。32
驗證研究
為了驗證風險預測模型,每個邏輯回歸和ML模型將應用於從初級保健診所前瞻性招募的受試者收集的數據。預測風險對觀測事件(DM和DM前)的ROC曲線將用於計算AUROC曲線。AUROC小於0.7表示判別能力有限,0.7 - 0.8可以接受,>0.8表示判別能力強。將風險閾值評分應用於驗證樣本,計算DM和DM前期觀察事件的敏感性、特異性、PPV和NPV以及似然比。精度-召回曲線下的麵積和F分數將進一步用於衡量模型的甄別力,因為它們更可靠,建議用於不平衡的數據集。33
該模型正確估計絕對風險的能力的校準將通過Hosmer-Lemeshow檢驗和校準圖進行檢驗。Hosmer-Lemeshow檢驗測量了預測概率分布與觀測事件率之間的統計差異,其中p值高於0.05表明模型校正良好。沿45°線帶有散射點的校準圖(按預測風險十分之一觀測到的事件發生率)表示完美校準。所有驗證將在整個驗證樣本和不同年齡/性別亞組中進行,以加強結果的有效性。
STATA軟件V.13 (STATA Corp)和Python 3.5.4將用於數據分析和模型開發。總的來說,5%被用作所有統計檢驗的顯著性水平。
患者和公眾參與
本研究不包括患者參與。不邀請患者對研究設計進行評論,也不征詢患者意見以製定與患者相關的結果或解釋結果。患者也不會被要求參與未來手稿的寫作或編輯,以提高可讀性或準確性。
討論
鑒於COVID-19全球大流行,我們仔細考慮了調整前瞻性驗證研究的程序,以便在確保研究團隊和參與受試者安全的情況下順利進行。由於大流行對開展臨床研究產生了重大影響,相關人員的安全至關重要。34例如,與我們最初計劃的在招募診所進行非實驗室測量(即血壓和人體測量)不同,受試者將在私人實驗室進行血液測試時進行所有測量。這一預防措施最大限度地減少了所需的身體接觸,並減少了我們的研究人員和受試者之間的接觸時間。此外,我們將以電子方式向每位受試者發送一份包括他們的身體測量和實驗室測試的報告副本,如果需要醫生推薦信,也可以通過郵件發送。有關程序亦加入額外措施(即一對一身份核實及密碼加密報告),以確保個人資料的安全。我們希望這些措施能夠讓更多的受試者參與進來,緩解疫情期間開展臨床研究的挑戰。35
這項研究有幾個重要的優勢。首先,預測模型的本地有效性應該很高,因為它是使用具有人口代表性的樣本數據開發的(香港PHS 2014/2015)。其次,采用外部前瞻性樣本對預測模型進行驗證,增強了預測模型的有效性和通用性。第三,使用不同的方法,包括ML,提高了最終預測函數的有效性、可靠性和功率。這項研究的結果將有助於在初級保健中發現無症狀糖尿病和前期糖尿病患者,從而進行早期診斷和幹預,以預防糖尿病並發症和住院治療。開發中國DM風險預測手機應用程序也有潛力。這樣的應用程序可以使公眾監測其糖尿病和糖尿病前期的風險,提高認識,鼓勵健康的生活方式,並鼓勵更適當的醫療谘詢。
由於局限性,PHS 2014/2015中沒有收集糖尿病家族史和妊娠糖尿病史的數據,因此無法納入預測模型的開發。在前瞻性驗證研究中,通過問卷收集的生活方式因素可能存在回憶偏倚。最後,來自香港中國人的調查結果可能不適用於世界其他地區的中國人。
數據管理和監控
來自香港大學的研究團隊成員將對研究人員和研究參與者的行為負全部責任,以確保符合規程、正確的研究管理和及時完成研究程序。
本研究不需要外部數據監測委員會。數據將由研究團隊監測,該團隊包括幾名臨床醫生(ETYT, EYTY, WYC, WWKK, DVKC, KCBT和CLKL),一名統計學家(CKHW)和一名人工智能算法工程師(WD)。模型開發人員(WD)將監視模型。開發研究是一項回顧性隊列研究,無明顯風險。驗證研究被認為是低風險的,因為如果臨床需要,在任何血液測試中發現異常結果,受試者將被轉介接受醫療護理。應合理要求提供數據。
如果出現報告的不良事件和其他研究或研究行為的非預期影響,將持續進行收集和評估。研究小組將迅速解決所發現的問題。所有意外影響及不良事件將每6個月向香港大學及瑪麗醫院機構檢討委員會(IRB)報告。中期分析將每12個月向IRB和資助機構報告一次。首席研究員(CLKL)將監督中期分析和任何停止研究的決定。
倫理與傳播
已收到香港大學/香港醫院管理局香港西組(IRB編號:UW19-831)和香港醫院管理局九龍中/九龍東組(IRB編號:REC (KC/KE)-21-0042/ER-3)研究倫理委員會的倫理批準,他們已審核並批準了研究程序、倫理、受試者信息和同意以及受試者安全性。試驗結果將在同行評議的期刊上發表。
倫理語句
患者發表同意書
參考文獻
補充材料
-
補充數據
此網頁文件由BMJ出版集團從作者提供的電子文件製作而成,並沒有對內容進行編輯。
腳注
WD和WHGC是聯合第一作者。
貢獻者CLKL製定了這項研究的概念並獲得了資金。CLKL、WD、ETYT、CKHW、EHMT、EYTY、WYC、LEB、WWKK、DVKC和KCBT有助於研究設計的發展。CLKL, WD, WHGC和YM起草了初版手稿。所有作者閱讀、編輯並批準了本協議手稿的最終版本。
資金是項研究由香港特別行政區政府食物及衛生局衛生及醫學研究基金(參考編號:17181641)資助。沒有資助機構在研究的設計和實施、數據的收集、管理、分析或解釋或手稿的準備中發揮任何作用。
相互競爭的利益沒有宣布。
患者和公眾參與患者和/或公眾沒有參與本研究的設計、實施、報告或傳播計劃。
出處和同行評審不是委托;外部同行評審。
補充材料此內容由作者提供。它沒有經過BMJ出版集團有限公司(BMJ)的審查,也可能沒有經過同行評審。討論的任何意見或建議僅是作者的意見或建議,不被BMJ認可。BMJ不承擔因對內容的任何依賴而產生的所有責任和責任。如果內容包括任何翻譯材料,BMJ不保證翻譯的準確性和可靠性(包括但不限於當地法規、臨床指南、術語、藥品名稱和藥物劑量),並且對因翻譯和改編或其他原因引起的任何錯誤和/或遺漏不負責。