條文本
摘要
目標創建精神衛生、社會和教育相關記錄,用於beplay体育相关新闻研究,以支持區域精神衛生服務的循證實踐。
設置臨床記錄互動搜索(CRIS)係統用於提取2007年9月至2013年8月期間接受精神科服務的個人標識符。
參與者35509名兒童和年輕人(4-17歲)的臨床隊列研究。
設計多個政府和倫理委員會批準將臨床心理健康服務數據與教育部關於教育和社會護理服務的數據聯係起來。beplay体育相关新闻在健全的管理協議下,DfE使用模糊和確定性方法來匹配來自國家學生數據庫(NPD)和CRIS數據源的個人標識符(姓名、出生日期和郵政編碼)。
結果測量確定了與NPD不匹配的危險因素,並檢查了不匹配偏差對《國際疾病統計分類》、第十版(ICD-10)精神障礙分類和持續缺勤(出勤率<80%)的潛在影響。探討了概率加權和調整方法,以減輕非匹配偏差的影響。
R試驗結果治理方麵的挑戰包括製定一項數據聯係研究方案,以滿足國民保健服務和國家財政事務部的立法要求。來自CRIS的29 278人(82.5%)符合NPD學校的出勤記錄。在青春期後期(調整後OR (aOR) 0.67, 95% CI 0.59至0.75)或在學校人口普查時間範圍外(aOR 0.15, 95% CI 0.14至0.17)接受服務會降低匹配的可能性。調整聯動誤差後,ICD-10精神障礙仍與持續缺課顯著相關(aOR 1.13, 95% CI 1.07至1.22)。
結論所描述的工作為英國教育數據用於醫療福利開創了先例。健康和教育記錄之間的聯係為評估心理健康對學校功能的影響提供了一個強有力的工具,但由於聯係錯誤而產生的偏見可能產生誤導性的結果。beplay体育相关新闻需要與數據提供者進行合作研究,以開發關聯方法,最大限度地減少關聯數據分析中的潛在偏差。
- 衛生信息學
- 流行病學
- 數據鏈接
- 學校與教育
這是一篇開放獲取的文章,根據創作共用屬性4.0 Unported (CC BY 4.0)許可證發布,該許可證允許其他人出於任何目的複製、重新分發、重新混合、轉換和構建此作品,前提是原始作品被正確引用,提供到許可證的鏈接,並表明是否進行了更改。看到的:https://creativecommons.org/licenses/by/4.0/.
數據來自Altmetric.com
本研究的優勢和局限性
這一聯動工作為英國將教育數據用於患者或醫療福利開創了先例。
這是為數不多的研究之一,研究了兒童和年輕人的聯係錯誤,特別是在非聯係組不受同意相關偏見的影響。
它提供了一個示例,說明如何通過加權技術調整常規收集的健康數據和非健康關聯數據之間的潛在非隨機損失。
由於數據控製器之間可用數據共享的限製,我們無法評估假陽性匹配。
由於完整的私立或家庭學校教育,無法確定誰不符合匹配資格。
簡介
大規模縱向隊列研究和臨床數據庫是了解兒童精神和身體障礙的病因和結局的重要工具,包括治療的罕見或晚期不良反應。然而,維持這些研究方法的質量是昂貴的。例如,在20世紀90年代初,建立和維持1.5萬個家庭參加雅芳父母和兒童出生隊列縱向研究(ALSPAC)的成本約為每年100萬英鎊1;現有的縱向研究很少有類似的資源來維持其目標人群的代表性。2隨訪期間的樣本損耗可能會引入顯著的方法學偏差,並可能破壞對新風險結果影響的調查的有效性。3.衛生、教育和社會公共服務部門的行政記錄不存在同樣的減員偏見,因為記錄了所有接受服務的人員。4它們正越來越多地用於研究:威爾士和蘇格蘭的舉措現在已經從這些數據資源中創建了關聯數據集,並正在使用它們幫助指導地方和國家公共衛生戰略。5
到目前為止,這些“大數據”係統的潛在收益,以推動當地基於人口的分析,以改善兒童公共心理健康和教育服務,在英格蘭仍然沒有實現。beplay体育相关新闻將從公共服務部門定期收集的數據聯係起來,有可能改善當地向兒童和青年提供保健、教育和社會護理的方式。當然,如果服務的設計、監測、定beplay体育相关新闻位和整合以數據為基礎,為同一地區服務的所有精神健康服務、醫院兒童健康服務、學校和兒童保護服務都可以更有效。6這樣做的道德和法律程序,以及獲得個人健康數據同意豁免的技術安全要求是嚴格的。7即使解決了這些挑戰,數據匹配過程也會給衛生服務研究人員帶來挑戰。例如,由於錯過匹配而引入偏差,特別是如果風險因素既與錯過的匹配記錄有關,又與重要的結果有關,可能會影響從關聯數據中得出的研究結果的有效性。8這種情況更有可能發生在通過確定性鏈接方法鏈接常規收集的數據時,而沒有共享標識號(例如健康和教育記錄)。9確定性鏈接描述了一種使用一組預定規則將記錄對分類為匹配或不匹配的方法。這往往需要在一組個人標識符上完全或部分一致,例如,成功匹配第一個名字或姓氏,以及匹配出生日期和郵政編碼。嚴格確定性方法使用簡單,政府部門常用;然而,它們會在記錄之間造成大量的錯過匹配。10因此,這削弱了人們的信心,即個人的所有相關記錄已在不同數據源中準確組合。
在這項研究中,我們展示了一個覆蓋120萬~ 19萬兒童和年輕人的個人國家衛生服務(NHS)信托(南倫敦和莫茲利NHS基金會信托(SLaM))如何開發出一種可持續的方法,將個人兒童和年輕人的醫療保健、社會和教育服務的記錄聯係起來並匿名化。我們展示了如何通過臨床記錄互動搜索(CRIS)係統,在NHS兒童和青少年心理健康服務(CAMHS)記錄之間建立一個符合NHS和教育部(DfE)保障措施的鏈接環境beplay体育相关新闻11鏈接到教育部國家學生數據庫(NPD)。12
這項研究有兩個目的:第一個是通過NHS健康研究機構保密谘詢小組的建議,對獲得批準的研究方案所麵臨的挑戰進行敘述,該研究方案需要滿足2006年NHS法案第251節的立法要求,72009年教育(個別學生資料)(訂明人士)(英格蘭)規例13隨後的修正案,14並滿足通用數據保護條例(GDPR)。15第二個目的是在NHS CAMHS隊列中,確定與DfE教育記錄不匹配相關的社會人口學和臨床因素風險因素。作為一個應用示例,我們使用相關的數據資源來研究不匹配如何影響兒童健康因素和缺勤(即一個關鍵的教育結果)之間的潛在關聯,以及統計方法如何減少這種偏差的影響。
方法
數據資源
NHS CAMHS數據
SLaM為居住在倫敦南部四個行政區(克羅伊登、朗伯斯、劉易舍姆和薩瑟克)的約19萬名兒童和年輕人提供全麵的CAMHS服務。SLaM還提供高度專業的服務,也接受四個行政區集水區以外的居民轉診。自2007年以來,SLaM服務的臨床記錄已經完全電子化。CRIS允許這些數據用於研究的過程已經在其他地方詳細描述過。6 11 16 17簡而言之,CRIS從CAMH服務生成的電子健康記錄中提取信息,並通過刪除個人標識符,使偽匿名數據摘錄可供SLaM批準的研究人員分析。
CRIS用於提供2007年9月1日至2013年8月期間被轉介到SLaM CAMHS服務的兒童和年輕人的摘錄。SLaM提供專門的多學科服務,根據國際疾病統計分類第十版(ICD-10)多軸分類係統評估和治療學齡兒童和青少年。18網上的表格和數字補充材料描述在5年時間裏首次被SLaM CAMHS接受的臨床樣本的年齡和性別補充表1臨床樣本中的ICD-10比率)。隨著在線補充圖1和2顯示,大多數兒童和青少年在童年中期首次接受CAMHS服務,通常會接受短期的謹慎護理。然而,有些人將在整個兒童和青少年時期接受長期的CAMH服務。
教育部全國學生數據庫
NPD是一個學生水平的縱向數據庫,將學生和學校的特征數據與學生水平的成就相匹配。12NPD的關鍵數據集是學生人口普查和學生成就數據集,其中包含學生在小學和中學國家教育期間完成的所有評估數據。NPD的學生普查提供了英格蘭公立學校學生的快照,其中91%的學生居住在SLaM流域,19每年一月的某一天,由一所學校向該校所有學生提交。NPD的學生通常年齡在3歲到19歲之間,但一些來自特殊學校的學生可能長達24歲。
鏈接
準備用於匹配的CRIS CAMHS標識符
我們選擇了一組年齡在4歲至18歲之間的年輕人,他們在2007年9月1日至2013年12月31日期間被轉介到SLaM精神保健中心。beplay体育相关新闻如前所述,在英國,唯一標識符,如國家健康標識符,在衛生和教育數據庫之間不共享,因此記錄需要匹配兩個數據資源共用的個人標識符(即姓名、出生日期和居住郵編)。
身分代號的標準定義如下:
強加於人: format (dd-mm-yyyy)。
forename_1:為單個記錄注冊的name字段中出現的第一個單詞(即自由文本字段中第一個空白字符後麵的所有文本)。
forename_2:第二個單詞present,如果>1名present(即2+名中的第二個,用一個空格或除“-”外的標點符號分隔)(即空白右側)。
surname_1:為個人記錄注冊的姓氏字段中出現的第一個單詞(即第一個空白字符左側的所有文本)。
surname_2:第二個單詞present,如果>是1個姓氏present(即,第二個單詞2+名字,如果用一個空格或除' - '以外的標點符號分隔)。
surname_3:姓氏字段的整個字符串。
在縱向健康記錄中,每個人通常有幾個不同的地址。同樣,教育數據庫中大多數學生都有多個地址。學生地址數據定期於每年一月十六日更新。因此,我們開發了一個分級係統,從健康記錄中提取最可能與教育數據庫匹配的郵政編碼。圖1顯示了這種郵政編碼層次結構如何應用於單個兒童,其中藍色塊表示CAMHS提供的護理片段,綠色時間線表示在學校的時間。考慮到這些因素,我們使用邏輯規則為CAMHS中看到的每個個體生成了1-5級郵政編碼層次結構(參見圖1傳說)。
使用基於sql的查詢根據這些規則提取標識符數據。這產生了一個36760人的樣本,有不同的個人記錄。提取後,我們運行數據清理和邏輯檢查,包括刪除所有在名稱字符串字段中有數字的數據(刪除了四例),所有在第一個或姓氏中隻有一個字母的數據(刪除了一例),以及所有不完整/非典型英語郵政編碼的數據(手工搜索了214條記錄,清理並保留了77個有效的英語郵政編碼)。我們排除了出生後第一次轉診日期少於4年(1095天)的所有兒童,除非他們確認了在窗口內(即2007-2013年)至少比最早的轉診日期晚1年記錄的隨訪聯係方式。這是因為臨床醫生可能會在出生日期字段錯誤地記錄轉診日期或初次預約的時間。這主要發生在隻與服務機構有過一次接觸的個人身上。為了符合學曆和英國學齡,研究人員選擇了在2012年9月1日前度過四歲生日的孩子。這為NPD提供了一個完整的35509樣本。
所有為匹配準備的數據都填充了個人標識符字段,除了次要姓氏和名字(即,沒有缺失值)。出生日期從1989年1月6日到2008年8月31日,這意味著所有這些學生都可能在當前或曆史的NPD人口普查數據中找到。個人標識符進行了標準化,以保持與NPD標識符的一致格式:SLaM標識符準備以適應DfE的名字、姓氏和出生日期格式,其中包括標準化的字符串長度、大寫字母、空格和連字符的使用。
隻有身份標識符(姓名、郵編和出生日期),以及他們唯一的CRIS ID假名,然後通過安全文件傳輸發送到DfE數據和統計部門。
如所示圖2(並在下麵的四個階段中描述),DfE將這些與NPD個人標識符(大約1500萬條記錄)進行匹配,在整個數據集上生成一個特定於學生的、不可識別的NPD ID變量,並將CRIS ID添加到此表中,僅用於案例,將結果表中除匿名NPD ID和假名CRIS ID外的所有標識符去除,並使用安全文件傳輸將數據集傳輸回SLaM CDLS。
SLaM CDLS提供的數據項與DfE信息學家在以下階段提供的NPD數據進行了匹配。初始匹配或階段1基於所提供數據項的精確匹配。對於不符合階段1匹配標準的SLaM案例,進行階段2,進行“模糊”匹配過程,以此類推,直到階段4。
第一階段:對CAMHS名稱(所有提供的值包括別名)、出生日期和郵編(所有提供的)的任何組合進行完全匹配,並與最近持有的地址進行匹配,然後回溯,所有年份/學期的學校人口普查數據、學生推薦數據、替代供應數據、早年人口普查數據。學校人口普查數據中包含了首選和以前的姓氏,這些姓氏也被搜索。根據名稱/中間名稱組合檢查名稱。
第二階段:出生日期完全匹配,郵編模糊匹配。為了確保這些匹配的可信度,結果是手工檢查的。對姓名的前兩個字符進行模糊匹配。
第三階段:完全匹配姓名和出生日期、郵編向內編碼(前2-4個字符)和向外編碼的第一個字符(後一個字符在空格後)。為了確保這些匹配的可信度,結果是手工檢查的。
第四階段:完全匹配姓名和郵編,手動檢查出生日期,尋找“近”出生日期——記錄可能是1年,1個月,1天,並顛倒了月/日。
連鎖偏差分析
總體聯係率計算為CAMHS個體在任何階段1-4與任何NPD學校記錄相關的百分比。通過比較關聯和非關聯數據,估計了關聯偏差的潛在來源。中描述的CAMHS樣品表1,我們將個人與NPD學校缺勤數據(NPD學校記錄的一個子集)匹配的分類為二進製結果:匹配=1,不匹配=0。ICD-10多軸分類係統18用於對2007年至2013年間任何有記錄的精神健康診斷(即18歲生日之前的診斷狀況)進行分類。beplay体育相关新闻
使用多變量邏輯回歸,我們探討了一些風險變量之間的關係,包括人口統計學(如性別、種族和鄰裏剝奪)、臨床(首次出現CAMHS的年齡和任何ICD-10疾病的診斷)和行政因素(如郵政編碼等級;看到圖1),並以與學校出勤率資料庫的連結為二元結果。我們使用這種邏輯回歸來生成作為風險變量函數的匹配概率估計。
患者和公眾參與
在收集支持公共利益的證據方麵,在未經患者或護理人員同意的情況下,通過CRIS使用患者身份數據鏈接到NPD,我們谘詢了幾個臨床、患者和護理人員團體。通過生物醫學研究中心(BRC)患者參與計劃,我們邀請了關於隱私通知的意見,進行了演講,並從SLaM兒童和青少年精神病學執行小組、服務用戶研究企業小組、全國年輕人谘詢小組、服務用戶領導的CRIS監督委員會和SLaM參與的父母那裏收集了會議記錄。23由於其中一個使用關聯數據的項目的重點是對患有自閉症譜係障礙的兒童和年輕人的教育結果進行調查,我們還邀請了國家自閉症協會對該提案發表評論。與莫茲利國家衛生研究所(NIHR)服務用戶數據鏈接谘詢小組合作編寫了數據鏈接目的的概要(例如,https://www.maudsleybrc.nihr.ac.uk/facilities/clinical-record-interactive-search-cris/cris-data-linkages/),並製作短片,以提高公眾對這項研究及未來研究計劃的認識。
使用學校出勤結果的關聯誤差分析
當一個變量和另一個變量之間沒有預期的一對一關係時,評估關聯錯誤對特定結果的影響是具有挑戰性的。例如,當將患者記錄與死亡登記處聯係起來以確定患者的生存狀態時,很難知道漏掉了哪些匹配;死亡登記隻包含已經死亡的患者,因此不匹配可能是由於患者還活著或錯過了匹配。24將此應用於學校數據,有必要選擇一個臨床相關的學校表現結果,應該適用於所有學生。選擇缺勤作為評估連鎖誤差的結果是因為年代學校出勤率是一個臨床相關的和係統的記錄,為所有學生進入公立學校。
對於每個匹配的CAMHS-NPD學生,在2007/200808至2012/2013學年他們就讀的最新學年創建了出勤率低的二元結果標記。如果學生自入學以來,在該學年可能上課的總課時數(一課時相當於半天)中,出勤率低於80%,則被歸為持續缺勤學生。
使用來自關聯偏差分析的匹配概率估計,我們創建了一個權重,該權重與與NPD學校出勤數據相關的概率成反比,分配給每個與CAMHS學校缺勤數據相關的個體。這遵循了常規隊列和調查設計中管理無應答偏倚的標準方法。25多變量邏輯回歸用於檢驗預測變量及其與持續缺勤的關係,最初沒有權重,然後使用逆概率權重。為了檢驗另一種調整非連鎖潛在選擇偏差的方法,26我們檢驗了在多變量邏輯回歸模型中,將匹配估計的概率作為協變量輸入後,興趣的主要影響是否仍然存在。
結果
第一部分:獲得道德、治理和法律方麵的批準
將NPD和CRIS CAMHS數據聯係起來的提議經過了嚴格而漫長的倫理、法律、治理和技術審查,由NHS和DfE內部的一些地方和國家委員會進行。圖3提供了完成鏈接的DfE-SLaM CAMHS數據集的時間軸和裏程碑。我們提供了深入的描述的過程作為一個在線補充報告這張紙。簡而言之,獲得連接NPD和CRIS CAMHS數據的許可是複雜的,因為在英格蘭沒有常規收集的心理健康數據和學校數據之間的這種聯係的先例,並且沒有成功完成未經個人同意的連接NHS和非NHS非健康數據。beplay体育相关新闻27在DfE和SLaM之間進行了一輪討論之後,我們描述了一個連接數據的過程,主要研究目的集中在估計臨床認可的心理健康障礙和治療對教育結果的影響。beplay体育相关新闻研究治理批準原則上由SLaM Caldicott監護委員會和DfE的數據管理谘詢小組批準,但鏈接過程取決於衛生研究管理局保密谘詢小組(HRA CAG)的批準。7
HRA CAG拒絕了第一個申請,因為擬議的研究活動沒有證明足夠的醫療目的和公共利益,以滿足s251的要求(請參閱在線補充報告有關詳情)。對健康暴露對教育結果的影響進行縱向分析的研究不足以滿足為醫學目的進行研究的標準。HRA CAG還質疑使用NHS數字可信數據鏈接服務是否能更好地進行鏈接。CAG建議,這一途徑將否定SLaM向DfE披露機密患者信息的要求,並最大限度地減少患者信息的披露。最後一個主要問題與DfE處理患者數據的治理安排有關。我們沒有就保留期、訪問安排和要求提供的可識別數據的範圍提供足夠的信息。為了準備重新提交,我們修改了科學建議,使其更專注於理解教育成績和心理健康障礙之間的雙向關聯。beplay体育相关新闻為了收集更多科學建議的公益案例的證據,我們邀請了我們當地的NIHR BRC患者和臨床醫生參與計劃,相關的慈善和教育部門機構。
為了解決第二個問題,我們承認使用NHS數字係統的另一個潛在好處是,患者標識符將保留在NHS環境中,但我們能夠確認SLaM CDLS和DfE都符合政府標準,並滿足NHS護理係統組織的信息治理(IG)期望。28我們還證明,通過審查替代數據流,在此鏈接中使用NHS Digital作為受信任的第三方將證明是一種更複雜、更不安全的鏈接方法(請在線查看)補充報告).簡單地說,DfE和SLaM數據控製者都表示擔心,如果發生數據安全漏洞,涉及NHS Digital的額外步驟將顯著增加潛在的傷害風險,特別是考慮到教育數據的規模和敏感性以及涉及的個人數量非常大(超過1500萬兒童)。
第2節:聯係率、偏差和對教育結果分析的影響
與任何NPD出席記錄的總體匹配過程提供了29278個CAMHS-NPD關聯記錄,關聯率為82.5%。根據上述DfE匹配階段相關聯的比例:1%-60.2%階段、2%-4.2%階段、3%-1.2%階段和4%-16.9%階段。
表1確定SLaM CAMHS社會人口學、臨床和行政記錄風險因素,以與NPD數據相關聯。OR大於1表示與參考值相比,成功鏈接的機會更大。在調整後的模型中,我們發現大多數社會人口學、臨床和管理因素存在顯著差異。與7歲以下學齡兒童相比,在青春期後期首次接受CAMHS治療的兒童與NPD匹配的可能性顯著降低(OR 0.67, 95% CI 0.59至0.75,p<0.01),而7至11歲的兒童則更有可能成功匹配(OR 1.23, 95% CI 1.10至1.38,p<0.01)。相對於白人的孩子,我們發現其他種族的孩子,包括亞洲人、非洲黑人和混合種族的孩子不太可能匹配。在貧困程度最低和最高的四分位數中,兒童和年輕人之間的成功聯係沒有顯著差異,但生活在第二和第三四分位數的社區中的兒童和年輕人的成功聯係顯著降低。對行政特征的分析表明,郵政編碼(從臨床護理事件中提取,與1月人口普查數據不重疊)(即郵政編碼2,4和5;看到圖1,甚至在調整了其他潛在的解釋變量(見表1).
表2提供了SLaM CAMHS兒童和年輕人的社會人口學、臨床和管理記錄特征以及持續缺勤的相關風險。調整後的分析顯示,存在ICD-10精神健康障礙(aOR 1.13, 95% CI 1.07至1.22,p<0beplay体育相关新闻.01)、首次轉診到CAMHS的年齡和混合族裔(相對於白人族裔)與持續缺課風險增加有關,而亞洲、非洲黑人和加勒比黑人族裔、社區富裕程度的增加與持續缺課風險降低有關。在應用統計技術(1)使用逆概率加權和(2)調整匹配概率以減少調整後分析中的匹配偏差後,這些影響仍然存在。
討論
我們提供了如何使用常規收集的NHS和DfE教育數據完成數據鏈接項目的第一個示例。這個用例展示了如何製定“公共利益”的法律基礎(即,沒有個人層麵的同意)來滿足GDPR。15在英格蘭,衛生和非衛生服務之間數據共享的監管和技術問題具有挑戰性,但可以克服。使用DfE提供的確定性匹配技術,在NHS兒童和心理健康數據與國家學校管理數據之間建立了大規模數據集,為29 278名患者(占NHS隊列的82.5%)提供了與其教育記錄的聯係。beplay体育相关新闻匹配的和不匹配的NHS樣本在社會人口學和臨床特征上有顯著差異。利用這些數據,我們發現,與臨床轉診但未達到診斷閾值的兒童或年輕人相比,患有ICD-10精神障礙的兒童或年輕人持續缺課的可能性約高10%。匹配概率調整後的效應沒有顯著變化,這表明這些效應不是由匹配誤差的選擇偏差驅動的。
連鎖偏差分析
總的來說,我們發現17.5%的臨床人群沒有成功匹配到NPD缺失數據。雖然非公立學校或私立學校的入學率可以解釋一個比例,6日19由於行政因素,可能包括匹配標識符的缺失或不一致(如分析中郵政編碼變化的影響所示),或匹配過程中的次要錯誤,有相當一部分可能是匹配的。很少有研究檢查兒童和年輕人的鏈接錯誤,特別是在非鏈接組不受同意相關偏見的情況下。先前的研究表明,少數民族的行政記錄更有可能出現名字拚錯、出生日期記錄不準確以及居住不穩定程度更高的情況,這可能適用於本樣本。9 29這些發現為與數據提供者進行更大的合作研究提供了進一步的依據,以開發可以最大限度地減少關聯數據分析中潛在偏差的關聯方法。10在匹配拚寫錯誤的名字時,確定性過程幾乎沒有靈活性,這可能是種族差異可能導致錯過匹配的原因之一。9我們發現某些年齡組,特別是7-11歲的人群,與更大的聯係可能性相關。這可能是由於這一群體的記錄中更容易獲得準確的個人標識,因為他們在學校接受CAMHS服務的時間可能比其他年齡組長。同樣,患有ICD-10精神障礙的人,與學校數據聯係的可能性也會增加,這可能與標識符的準確性有關,因為較高的精神病理學水平與更多的臨床接觸有關,並且在記錄個人標識符時可能會有更高的文書準確性。更有可能的是,那些精神病理水平較高的人將有更長的護理時間,與學校人口普查日期重疊。
鄰裏剝奪與關聯可能性呈u型分布。與貧困程度最高的地區相比,第二和第三四分位數的地區的聯係可能性顯著降低,但最富裕的地區的差異最小。這可能與來自富裕地區的家庭能夠遵守行政程序和/或糾正行政錯誤有關,而來自最貧困地區的家庭有更大的需求,因此與服務機構有更多的臨床接觸有關。這兩個因素都可以提高文書的準確性和與學校數據的一致性。來自第二和第三四分位數的家庭可能較少具有這兩種特征,因此減少了他們聯係的可能性。本研究中現有的數據不允許對這一假設進行檢驗,但研究結果表明,更詳細地提取臨床與服務接觸的頻率和數據關聯結果是未來工作的一個領域。
在我們的樣本中,關聯偏差似乎對精神障礙和出勤率之間的聯係沒有什麼影響。然而,如果沒有來自源數據的信息,可能會引入潛在的鏈接錯誤,而研究人員不知道是否需要在後續分析中考慮它。我們的研究強調了鏈接者和分析者之間治理安排的重要性,以確定哪些群體受到鏈接錯誤的不成比例的影響。在我們的例子中,通過允許批準的NHS研究檢查匹配和未匹配的SLaM樣本的標識符字段,這種治理使“數據分離原則”具有一定的靈活性:這是數據鏈接研究中的一種常見做法,其中標識符(例如姓名或出生日期)與屬性(在本例中是健康或教育數據)保持分離,以保護隱私並避免在鏈接過程中泄露。30.雖然分離原則可能會降低識別風險,但它不允許研究人員在未來的分析中評估連鎖偏倚的潛在風險。
衛生和教育數據之間數據聯係的實施挑戰
我們認為,將個人健康和教育數據用於數據鏈接和研究的任務和挑戰可以最好地描述為“建立社會許可證”。31這一活動包括闡明聯係的明確目的,被公眾或作為數據主體的潛在參與者認為是有益的,並且與這些利益相關的個人或公共機構的潛在風險是可以容忍的。如果沒有證據表明有關建議已被作為數據主體的潛在參與者,以及作為數據控製者的公共機構/服務機構仔細審查並最終接受,就很難維持公眾利益的案件;事實上,這也是第一個申請沒有被HRA CAG批準的原因之一。為了證明我們曾經社會執照為了開展聯動工作,我們需要從多個來源收集證據,包括服務用戶、臨床醫生、學者、倡導團體和治理負責人,所有這些人都可能與數據聯動項目的過程和結果有利害關係。
建立開展聯係工作的社會許可的第二個方麵,涉及履行適當開展聯係過程和相關研究活動的專業任務。這涉及確保提案符合管理健康數據使用的已知法律、技術和道德框架,以及數據控製者和保管人認為重要的任何額外保障措施。技術方麵不僅限於數據安全,還涉及準備數據以確保最準確的匹配,以減少後來分析中的錯誤和冗餘。履行這一任務還涉及在參與控製、共享、處理和使用數據的各方之間建立正式合同。這項任務要求我們對相關研究進行適當的分析和傳播,以便我們能夠維持未來研究活動的社會許可證。這在英國可能尤其重要,因為常規收集的公共服務活動的關聯驅動研究尚處於起步階段,益處尚未全麵確立。
考慮到設置這個鏈接數據資源所花費的時間和資源,以及它所擁有的潛力,維護這些資源並保持可訪問性以供將來重用是很重要的。在各方之間不製定具體的數據共享協議,就很難在控製者、鏈接者和分析師之間建立良好治理結構的協作關係。如果沒有這些結構,數據控製者可能傾向於同意僅通過“創建和銷毀”方法鏈接數據。我們認為,就浪費而言,這可能是不道德的,而且在科學上是不合理的,因為之前的分析無法重新檢查。它還使數據主體再次麵臨在不同機構之間共享個人身份信息的潛在風險,如果未來需要重複這種聯係的話。
匹配方法及匹配評價的優缺點
這項研究有很多優點。首先,它提出了一種新穎的應用程序,可以跨公共部門組織鏈接數據。對法律、道德和技術挑戰和解決方案的描述是為了分享我們在這一過程中所學到的一些經驗教訓,希望它們對其他公共機構有用。此外,該研究提供了一個示例,說明如何通過加權技術調整常規收集的健康數據和非健康相關數據之間的潛在非隨機損失。由於源數據可用於檢查遺漏的聯係,我們能夠確定聯係錯誤不會導致ICD-10精神障礙與持續缺課之間的係統性偏差和誤導性的積極估計。匹配概率調整和逆概率加權的演示是為了說明如何減少連鎖偏差,而不是作為對這些數據的確定分析。考慮到其政策相關性,我們報告了一個單一的分類缺勤結果,每年的出勤率不到80%。同樣的關聯是否適用於其他離散的缺失水平(例如,60%或90%)當然值得在未來的分析中進行研究。研究改進關聯技術的方法,再加上處理關聯數據分析中的不確定性的新方法,也應該有助於提高未來基於人群的關聯研究的普遍性和質量。27
本研究中的匹配方法有一些局限性。我們無法評估假陽性匹配,也無法評估低置信度匹配(DfE階段2-4,如上所述)的風險以及對學校結果分析的潛在影響。NHS和教育服務之間不存在共享的唯一標識符,它們的治理安排或足夠的資源也不足以手動編譯與NPD-SLaM camhs相關的金標準數據。匹配方法的另一個限製是可以使用的地址標識符的數量有限。例如,由於治理限製,我們無法使用地址的第一行,這再次限製了檢查郵政編碼中編碼錯誤的能力。另一個導致連鎖錯誤的因素是孩子的年齡。CAMHS中有相當數量的16歲和17歲的年輕人,如果他們不再上學,就不會有NPD的數據。同樣,我們無法確定哪些人不符合匹配條件,因為他們完成了私立或家庭學校的教育,最多可能占樣本的10%。這些限製可能導致我們的發現低估了聯動性能。
匹配評估也有一些局限性。我們隻報告了單一分類缺勤結果(年出勤率低於80%);連鎖誤差是否對其他離散缺失水平(如60%或90%)有類似的有限影響尚未評估。ICD-10代碼使我們能夠以高效和具有成本效益的方式評估達到“臨床障礙”閾值對缺勤率的影響。然而,將ICD-10分類分解為一個二元變量,隻能在所有ICD-10診斷中提供“平均”效果。這可能引入了聚合偏倚,它掩蓋了不同診斷之間潛在的異質性。此外,精神病學登記冊中的ICD-10代碼的有效性可能是可變的,盡管我們沒有將ICD-10病例分解為特定的疾病,但已知的是,一些疾病代碼比其他疾病更容易被錯誤分類,或者至少更容易被診斷修訂。32評估ICD-10有效性變化對學校結果的影響超出了本研究的範圍。然而,我們已經為未來的研究提供了堅實的基礎,以通過為病例確定提供更高診斷精度的算法(如ICD-10兩次編碼規則)來細化臨床表型的特征33)或利用計算語言技術(例如,使用自然語言處理方法提取自由文本)。11 34
影響
所描述的工作為英國的患者或醫療福利使用教育數據開創了先例。衛生和非衛生服務之間數據共享的管理和技術問題具有挑戰性。當然,為了開發和改善關聯數據資源,學術和政府機構之間的夥伴關係應該繼續探索公眾輿論,並為建立持續使用關聯數據的“社會許可證”製定指導方針。31此外,最近支持在未來重用的可訪問性的政策是很重要的,特別是考慮到建立鏈接數據資源所花費的時間和資源以及它們所具有的潛力。35
記錄聯係是對以兒童為基礎的縱向研究和臨床登記的寶貴加強,可以評估與公共衛生和社會護理政策有關的問題。我們敦促所有在兒童身上進行的可能影響beplay体育相关新闻他們出勤或在校表現的心理健康試驗都與NPD聯係起來。我們希望我們的經驗可以為其他希望使用關聯管理數據建立信息資源的衛生服務機構提供有用的指導,特別是鼓勵其他精神衛生服務提供者共同努力,將他們的數據鏈接到NPD。beplay体育相关新闻隨著時間的推移,我們希望這些資源將產生一個更廣泛的細粒度數據和分析專業知識網絡,可以用於研究,為委托和服務提供提供信息,並更好地滿足人口中兒童和年輕人的心理健康需求。beplay体育相关新闻
致謝
作者非常感謝理查德·懷特,凱倫·史蒂文斯和馬丁·約翰遜,以及教育部國家學生數據庫團隊的成員,他們在整個項目中提供了寶貴的支持。
參考文獻
腳注
患者發表同意書不是必需的。
MH和RH貢獻相同。
貢獻者研究由JMD、TF和MH構思,數據提取由JMD進行,HS、MB、SE、RL和AJ支持。數據分析由JMD負責。研究結果的報告由JMD主導,RG、TM、SE、TF、JD和RH支持,RS和MH監督。所有作者都參與了手稿準備並批準了最終版本。
資金這項工作得到了臨床記錄互動搜索(CRIS)係統的支持,該係統由倫敦南部國家衛生研究所(NIHR)心理健康生物醫學研究中心和莫茲利NHS基金會信托基金和倫敦國王學院資助和開發,並由蓋伊和聖托馬斯慈善機構和莫茲利慈善機構(資助號BRC-2011-10035)共同提供基礎設施資助。beplay体育相关新闻JD獲得了醫學研究委員會(MRC)臨床研究培訓獎學金(MR/L017105/1)和精神病學研究信托基金會Peggy Pollak發展精神病學研究獎學金的支持。RDH由MRC人口健康科學家獎學金(批準號MR/J01219X/1)資助。MH、RS、AJ、MB、RL和HS得到了位於倫敦南部的NIHR心理健康生物醫學研究中心、莫茲利NHS基金會信托基金和倫敦國王學院beplay体育相关新闻的工資支持。JD得到了巴特健康NHS信托(NIHR CLAHRC North Thames)的NIHR北泰晤士應用健康研究和護理領導合作的支持。RG和JD是兒童、青年和家庭健康政策研究組(CPRU)的成員,該研究組由英格蘭衛生部政策研究方案資助。
免責聲明本文僅代表作者個人觀點,不一定代表英國國民保健服務體係、國家衛生研究院或衛生和社會福利部。
相互競爭的利益沒有宣布。
倫理批準CRIS數據資源獲得了來自牛津郡REC C(編號:08/H0606/71+5)和NHS衛生研究管理局保密谘詢小組的倫理批準,作為二級分析的匿名數據集,參考文獻:CAG 9-08(a)/2014。
出處和同行評審不是委托;外部同行評審。
數據共享聲明由CRIS訪問的數據保留在NHS防火牆內,由患者領導的監督委員會提供治理。在符合這些條件的情況下,鼓勵訪問數據,有興趣的人請聯係RS (robert.stewart@kcl.ac.uk), CRIS學術負責人。