條文本
摘要
目標及設定使用電子健康記錄來評估2型糖尿病和癌症之間關係的研究結果相互矛盾,這加劇了人們對潛在偏差的擔憂。本研究旨在描述與入院記錄相關的英國初級保健數據中癌症記錄的完整性。
設計在臨床實踐研究數據鏈(CPRD)的初級保健中,40歲以上、使用胰島素或口服抗糖尿病處方的無1型糖尿病患者按年齡、性別和全科醫生實踐與非糖尿病患者匹配。1997年4月至2006年12月期間,有資格與住院病人護理(HES APC)聯係並進行隨訪的人被納入。
主要和次要結果測量比較癌症記錄和癌症首次記錄的日期。評估了最有可能僅在單一數據源中記錄診斷的癌症患者的特征。比較了兩個數據集估計的相對癌症發病率。
參與者共納入2型糖尿病患者53 585例,非糖尿病患者47 435例。
結果在CPRD記錄的所有癌症(不包括非黑素瘤皮膚癌)中,有83%記錄在HES APC中。94%的HES APC病例發生在CPRD。當僅限於同一部位的癌症記錄時,一致性較低,並且與年齡的增加呈負相關。兩組數據中癌症的相對發病率相似。
結論在2型糖尿病患者和匹配對照組中,CPRD和HES APC之間的癌症記錄具有良好的一致性。當分析集中於特定部位的癌症時,關聯數據可以減少錯誤分類和增加病例確定。
- 2型糖尿病
- 癌症
- 電子健康記錄
- 初級護理
- 住院
- 和諧
這是一篇開放獲取文章,根據創作共用屬性非商業(CC BY-NC 4.0)許可證發布,該許可證允許其他人以非商業方式分發、混音、改編、在此作品的基礎上進行構建,並以不同的條款許可其衍生作品,前提是原始作品被正確引用且使用是非商業性的。看到的:http://creativecommons.org/licenses/by-nc/4.0/
數據來自Altmetric.com
本研究的優勢和局限性
這項研究使用了來自最有效的英國初級保健數據庫的大量患者,這些數據庫與國家醫院入院數據相關聯。
這項研究評估了所有腫瘤部位的癌症記錄。
由於在兩個數據源中使用了不同的編碼係統,不一致性可能部分歸因於映射不同編碼字典的挑戰。
研究期間受限於研究時可用的相關癌症登記數據的覆蓋期限。
簡介
全球有超過4億成年人患有糖尿病,目前估計到2040年將有十分之一的人患有這種疾病。1大量使用常規收集的電子健康記錄(EHRs)的觀察性研究評估了2型糖尿病與各種類型癌症之間的關係。然而,相互矛盾的結果引發了人們對可能存在偏見關聯的擔憂,包括對癌症結果的錯誤分類。2
電子病曆越來越多地用於疾病流行病學和藥物安全性的觀察性研究。在電子病曆中準確識別癌症事件的能力將允許對2型糖尿病患者的相對發病率和癌症結局風險進行更有效的評估,包括那些暴露於特定抗糖尿病藥物的患者。3.然而,以往關於不同ehr診斷癌症的敏感性、陽性預測價值和一致性的研究結果不一。4 -初級保健、住院和疾病登記的電子病曆都被證明遺漏了其他疾病(如心肌梗死)的很大一部分事件。12
為了減少結果的錯誤分類,已提出使用關聯數據源進行病例確定。12先前的研究表明,英國初級保健的癌症診斷記錄與相關的癌症登記數據之間具有相當高的一致性,13日14與其他國家的結果相反。15一致性已被證明因癌症部位和患者年齡而異,這意味著當使用關聯的癌症注冊數據時,錯誤分類會減少。然而,出於研究目的,英國癌症注冊數據的發布受到時間滯後的影響,因為目前的流程是驗證給定日曆年的所有預期注冊以及發布前12個月的相關治療和結果信息。16癌症登記幾乎完全基於醫院提供的信息和死亡證明。13本研究的目的是描述臨床實踐研究數據鏈(CPRD)與醫院事件統計入院患者護理(HES APC)記錄相關聯的初級保健數據中病例確定的完整性,這些數據比關聯的癌症注冊數據更同步。因此,本研究的目的是比較兩組數據集中2型糖尿病患者與非糖尿病患者癌症記錄的完整性、首次記錄的日期、最有可能被遺漏的病例特征以及癌症的相對發病率(RRs)。
方法
數據源
本研究使用的數據來自CPRD,主要來自兩個常規收集的關聯EHR數據集。
CPRD初級保健數據包括來自英國同意全科醫生(GP)執業的1400多萬患者的匿名縱向EHR,17 18在大量的驗證研究中已經被證明是高質量的。19日20初級保健醫生負責管理包括2型糖尿病在內的慢性疾病,並轉診到專科護理,包括對疑似癌症的調查。數據包含初級保健診斷和專家和二級保健記錄,這些記錄已反饋給全科醫生,用於患者的臨床管理,使用Read診斷代碼進行編碼。在研究期間,在CPRD匿名化後,由全科醫生記錄或從專家的信件掃描中創建的自由文本筆記可供訪問。
HES APC數據包括1997年以來英格蘭和威爾士所有住院病人和日間住院病人的入院和出院細節。21HES APC數據包括住院期間每一次護理的所有診斷。數據在處理周期的各個階段由國家衛生服務(NHS)數字係統進行驗證和清理,然後再添加派生字段,並將數據用於研究。22
此外,本研究使用了來自國家統計局的官方死亡證明記錄的數據,以及來自國家癌症數據存儲庫的癌症登記數據。
為了本研究的目的,來源人群僅限於參與CPRD聯動計劃的全科醫生注冊的患者(約60%)。CPRD的初級保健數據通常由CPRD鏈接計劃的可信第三方NHS數字係統與患者一級的其他數據源(包括HES、死亡證明和癌症登記數據)相關聯,使用從臨床記錄中剝離的患者標識符。來自不同數據源的記錄基於患者唯一的NHS編號、姓名、性別和居住的郵政編碼確定地聯係起來。匿名關聯數據提供給CPRD用於研究目的,但不提供給全科醫生實踐。
研究人群
年齡在40歲及以上的2型糖尿病成年患者是根據一份或多份胰島素或口服抗糖尿病藥物的處方從初級保健記錄中確定的,該患者在全科醫生執業的注冊日期和CPRD衍生的執業數據質量開始日期(達到標準[UTS]日期)後至少1年。23以第一個符合條件的處方日期為指標日期。在索引日期之前有1型糖尿病記錄的患者被排除在外。
每名2型糖尿病患者按出生年份(5年內)、性別和全科醫生執業情況進行隨機匹配,最多有一名患者沒有胰島素或口服抗糖尿病藥物的處方記錄,也沒有糖尿病記錄。匹配者必須在UTS日期前至少1年注冊了與案件索引日期相同的全科醫生執業。
然後,研究人群被限製為參加了聯係計劃的執業患者。相關實踐的患者先前已被證明是整個CPRD人群的代表。24研究期間僅限於按照先前研究的建議,在關聯的CPRD初級保健、HES APC、國家統計局的癌症登記數據和死亡率數據(1997年4月至2006年12月)中積極隨訪的重疊覆蓋期。25隨訪開始於患者指數的最晚日期和研究期的開始。隨訪最早在患者離開診所、CPRD最後一次從診所收集數據的日期和研究期結束時結束。圖1顯示隊列定義事件、指標日期和結果確定期之間的時間關係。
癌症結局的確定
在CPRD初級保健、HES APC、癌症登記和死亡證明數據中分別確定了癌症編碼記錄。《國際疾病分類第十版》(ICD-10)代碼用於通過HES APC、癌症登記和死亡證明數據識別癌症(ICD-9用於2001年以前的死亡),在初級保健中使用Read代碼進行診斷和識別。部位特異性癌症分類如下:口腔(ICD-10 C00-14)、食道(C15)、胃(C16)、結腸(C18-21)、胰腺(C25)、頭頸部(C30-32)、支氣管和肺(C34)、皮膚黑素瘤(C43)、非黑素瘤皮膚癌(NMSC) (C44)、乳腺(C50)、宮頸(C53)、卵巢(C56)、前列腺(C61)、睾丸(C62)、泌尿器官(C64-68)、大腦(C71)、淋巴瘤(C81-85)、多發性骨髓瘤(C90)或白血病(C91-95)。
對於CPRD初級護理中記錄的每個病例,評估HES APC是否包含任何時間編碼的癌症記錄,如果有,是否位於同一位置。對於HES APC記錄的每個病例,評估CPRD初級保健是否在任何時候包含癌症記錄。使用先前發表的藥物安全性研究中用於識別癌症結果的Read代碼列表搜索編碼記錄。23如果沒有發現編碼記錄,則在自由文本中搜索以下字符串:carc, cancer, malign, chemoth, cytostat, oncolo,黑色素瘤,淋巴瘤,白血病,肉瘤,骨髓瘤和轉移瘤。陰性的記錄,如“癌症排除”,被排除在外。如果發現了編碼或匿名的自由文本癌症記錄,則確定它是否與HES APC中識別的位置相同。對於CPRD初級保健或HES APC單獨記錄的不一致病例,審查了癌症登記和死亡證明數據,以尋找支持證據,例如在癌症登記中登記了癌症或在死亡證明上任何地方提到了癌症。
通過比較發生癌症病例的記錄日期,還評估了兩個數據集中相同類型的癌症記錄之間的時間差異。
漏診病例特征
使用多變量邏輯回歸對CPRD初級保健和HES APC癌症記錄之間不一致的潛在相關變量進行評估。根據年齡(以隨訪開始年份減去出生年份計算,分為40-64歲(參考)、65-74歲和75+)、性別(女性(參考)和男性)和2型糖尿病史(無糖尿病患者(參考)和2型糖尿病患者)來估計ORs和95% ci。模型擬合包括所有三個變量(年齡、性別和2型糖尿病史)。
rr的比較
最後,我們使用多變量泊鬆回歸來估計每個數據集中2型糖尿病患者(由初級保健數據定義)與非糖尿病患者癌症的rr。該分析的目的是比較癌症診斷僅來自初級保健或醫院入院數據時的rr。這些模型還包括來自:(1)初級保健數據的協變量:年齡、性別、開始隨訪年份、吸煙狀況、飲酒情況、體重指數以及開始隨訪前6個月內血管緊張素受體阻滯劑、抗血小板、β受體阻滯劑、鈣通道阻滯劑、利尿劑、硝酸鹽、非甾體抗炎藥或阿司匹林和他汀類藥物的處方(2)相關的社會經濟地位數據(使用多重剝奪指數的五分位數測量)26)和(3)初級保健和/或HES APCS數據:冠心病病史、冠狀動脈血運重建術、高脂血症、高血壓、周圍血管疾病、腎損害和穩定性心絞痛。一個缺失的數據類別被用於吸煙狀況、飲酒情況和身體質量指數。
報告
“加強流行病學中觀察性研究的報告”指南用於確保該觀察性研究的報告。27
患者和公眾參與
本研究使用了患者提供的數據,並由NHS收集作為他們護理和支持的一部分。# datasaveslives
結果
研究人群包括53 585例2型糖尿病患者,與47 435例無糖尿病記錄的患者相匹配,最終研究人群總數為101 020例(表1).超過一半(53%(53 672/101 020))是男性,45%(45 243/101 020)年齡在40-64歲之間,30%(30 348/101 020)年齡在65 - 74歲之間,25%(25 439/101 020)年齡在75歲以上。
如表2, 5797例患者在CPRD初級護理中有癌症編碼記錄(不包括NMSC)。在這些病例中,83%(4835/5797)在初級保健中有癌症編碼記錄的患者在HES APC中也有癌症記錄,78%(4542/5797)在兩個數據源中有相同的記錄。NMSC的符合率最低(43%(702/1106)),但所有其他符合率均在75%或以上。在CPRD而非HES APC記錄的病例中,56%(543/962)出現在癌症登記處或死亡證明數據中。在HES APC而非CPRD記錄的318例病例中,87%(278/318)記錄在這兩個數據集中。在HES APC病例中,94%(5239/5557)記錄在CPRD中,79%(4389/5557)表明同一類型的癌症,11%(603/5557)僅在自由文本中提到。
表3顯示CPRD初級保健中相同類型的癌症記錄與HES APC數據之間的時間差異。大多數病例是在1個月內記錄的。在HES APC病例中,61%(2673/4389)在初級保健1個月內被記錄,83%(3641/4389)在3個月內被記錄。總共有8%(382/4542)的CPRD病例是在首次HES APC記錄1年多之前記錄的,而隻有3%(128/4389)的病例是在首次HES APC記錄1年多之後首次記錄的。
年齡與癌症記錄的不一致性呈正相關(表4).在HES APC記錄的病例中,與CPRD初級護理不一致的OR超過了一倍(OR 2.2;(95% CI 1.5 - 3.2)) 75歲以上患者與40-64歲患者相比。75歲以上的CPRD病例與40-64歲的患者相比,HES APC不一致的風險增加1.6倍(OR 1.6;(95% CI 1.3 ~ 2.1)) 75歲以上患者。
CPRD初級保健和HES APC記錄的2型糖尿病患者與匹配的無糖尿病患者相比癌症的rr顯示在表5.CPRD初級保健中記錄的癌症調整後rr為0.90 (95% CI 0.86至0.96),HES APC中記錄的癌症調整後rr為0.93 (95% CI 0.88至0.99)。CPRD和HES APC記錄的所有癌症類型的結果相似。在所有病例中CI重疊,並且包含了除NMSC外所有癌症的比較源估計的RR (CPRD初級保健中NMSC的校正RR為0.76 (95% CI為0.68至0.84),HES APC中NMSC的校正RR為0.87 (95% CI為0.74至1.01))。
討論
這項研究的結果顯示,總體而言,在CPRD初級保健和HES APC數據之間的癌症記錄具有良好的一致性,這與首次記錄的時間和年齡小於75歲的患者有關。2型糖尿病患者和匹配的非糖尿病患者的癌症預後比較顯示,兩個EHR數據庫中都報告了相似的rr。再加上來自癌症登記和死亡證明數據的不一致病例的高水平支持證據,這些結果表明,除了預期的NMSC之外,兩個數據源對癌症的錯誤分類都很低。
然而,當僅限於使用同一網站尋找癌症記錄時,一致性較低。這在很大程度上是由於在初級保健和醫院入院數據中都使用了非特異性癌症Read代碼,如果單獨使用其中任何一個數據源,都會導致低估特定部位癌症的發病率。75歲及以上患者的一致性也較低。這可能反映了患者在醫院診斷後不久死亡的情況,信息要麼沒有發回給全科醫生,要麼沒有記錄在初級保健記錄中,或者患者沒有因癌症住院而死亡。此外,在HES APC中發現的超過10%的病例僅在免費文本初級保健記錄中找到。數據治理法規的增加隨後導致CPRD撤回提供初級保健記錄的自由文本數據,以進一步保護患者的匿名性(2016年4月生效)。如果沒有這些自由文本數據,鏈接的HES APC數據可以再次降低錯誤分類和低估癌症發病率的風險。由於年齡和非一致性之間存在正相關,關注老年群體的研究可能特別受益於使用相關數據來捕獲癌症結果。
很少有研究將初級保健中的癌症記錄與醫院入院數據進行比較。在英國,最近的一項研究考慮了在稍後時間段(2000-2011年)與HES APC相比,在初級保健數據的替代來源中診斷結直腸癌的有效性和完整性。28雖然本研究使用了陽性預測值的替代方法,但結直腸癌的結論相似,記錄的陽性預測值為98%,而本文報道的一致性為91%。然而,這項研究的優勢之一是能夠觀察包括NMSC在內的所有癌症部位。
這項研究受到直接比較不同EHR數據源所涉及的挑戰的限製。就其性質而言,初級保健和入院數據來自衛生保健係統的不同部門,數據收集的目的不同,頻率不同,使用的編碼係統也不同。據報道,臨床專家可能對來自單一字典的編碼列表存在分歧,因此,不一致可能部分歸因於映射不同編碼字典的挑戰。29雖然結果表明,癌症可能在入院數據之前被記錄在初級保健中,這可能反映了全科醫生在懷疑癌症的基礎上轉到二級保健,而不是全科醫生比其他情況更早記錄確診。研究期間受限於研究時可用的相關癌症登記數據的覆蓋期限。此外,CPRD和HES APC數據之間的聯係依賴於NHS數字的準確記錄。我們無法檢查在兩個數據源中記錄NHS號碼的錯誤率,這將導致高估不一致性。然而,先前的研究已經確定了在初級和二級保健中NHS數字的高水平完整性和有效性。30.由於這項研究是基於2型糖尿病患者和匹配的非糖尿病患者的隊列研究,結果可能與一般人群不具有可比性。2型糖尿病患者與衛生服務機構有更多的接觸,癌症記錄可能更及時和準確。然而,我們並沒有發現病例與其匹配的對照組之間的癌症記錄有重大差異。還應注意的是,在本研究中發現的癌症rr與以前的薈萃分析中報道的rr之間存在一些差異(例如,該研究顯示2型糖尿病患者的癌症風險總體降低,而之前報道的風險增加)。2由於進行這項分析是為了比較癌症診斷僅來自一個數據源時的RR,而不是使用所有可用數據源來最佳估計RR,因此建議使用相關數據進行進一步研究,以優化定義研究人群、結果和協變量。
總之,在2型糖尿病患者和匹配對照組中,CPRD初級保健和HES APC數據之間的癌症記錄具有良好的一致性。然而,當分析集中於特定部位的癌症時,與單獨使用任何一種數據源相比,關聯數據有可能減少錯誤分類並增加病例的確定。
致謝
作者感謝Puja Myles博士和Lucy Carty博士(CPRD)對這篇手稿早期版本的評論。
參考文獻
腳注
貢獻者RW、T-PvS、AG和TH設計了研究。RW起草了手稿。RW、T-PvS、AG、TH、HGML和FdV參與了結果的解釋和稿件的修改。
資金這項研究沒有從任何公共、商業或非營利部門的資助機構獲得特定的資助。
相互競爭的利益所有作者確認,他們沒有參與任何與本手稿中討論的主題或材料有經濟利益或經濟衝突的組織或實體。CPRD隸屬於英國衛生部國務大臣,在MHRA範圍內運作。CPRD獲得了來自MHRA、威康信托基金、醫學研究理事會、NIHR衛生技術評估計劃、創新醫學倡議、英國衛生部、技術戰略委員會、歐盟第七框架計劃、各大學、合同研究組織和製藥公司的資助。烏得勒支藥物科學研究所藥物流行病學和藥物治療係獲得了來自葛蘭素史克、諾和諾德、公私資助的頂級藥物研究所(www.tipharma.nl,包括大學、政府和工業界的聯合資助)、荷蘭藥物評估委員會和荷蘭衛生部的不受限製的藥物流行病學研究資金。
病人的同意不是必需的。
倫理批準所有使用匿名CPRD數據的純觀察性研究已獲得東米德蘭茲-德比研究倫理服務委員會的倫理批準。
出處和同行評審不是委托;外部同行評審。
數據共享聲明本研究的數據來自CPRD初級保健和在英國藥品和保健產品監管機構許可下獲得的相關數據。雖然這些數據不能共享,但為了尊重自研究開始以來選擇退出或持不同意見的患者的意願,可以從CPRD獲得類似隊列的數據,但須經方案批準和許可協議。