條文本

下載PDF

原始研究
肌萎縮性側索硬化症患者照護者負擔的預測:使用隨機森林的機器學習方法應用於隊列研究
  1. Anna Markella Antoniadi12
  2. 米利暗加爾文3.
  3. 馬克Heverin3.
  4. 歐爾哈德曼23.4
  5. 凱瑟琳·穆尼12
  1. 1UCD計算機科學學院都柏林大學學院都柏林、愛爾蘭
  2. 2futureneurosfi研究中心愛爾蘭皇家外科學院都柏林、愛爾蘭
  3. 3.三位一體生物醫學研究所神經內科學術小組都柏林大學三一學院都柏林、愛爾蘭
  4. 4國家神經科學中心神經內科博蒙特醫院都柏林、愛爾蘭
  1. 對應到Catherine Mooney博士;catherine.mooney在{}ucd.ie

摘要

目標肌萎縮性側索硬化症(ALS)是一種罕見的神經退行性疾病,其特征是上下運動神經元的快速退行性變,從症狀出現後3-4年具有致命軌跡。由於病情的性質,ALS患者需要非正式照顧者的協助,他們的任務要求很高,可能會導致高度的負擔感。本研究旨在利用機器學習技術預測護理人員負擔並識別相關特征。

設計這包括人口統計學和社會經濟信息、生活質量、患者和護理人員的焦慮和抑鬱問卷、患者的資源使用和臨床信息。預測的方法是隨機森林算法。

環境和參與者這項研究在三個不同的時間點調查了90名患者和他們的主要照顧者。這些患者在都柏林博蒙特醫院的國家漸凍人症/運動神經元疾病多學科診所就診。

結果護理人員的生活質量和心理困擾是負擔的最具預測性特征(敏感性為0.92,特異性為0.78)。臨床決策支持模型最具預測性的特征與主要護理人員的每周護理職責、他們的年齡和健康狀況以及患者的身體功能和發病年齡相關。但該模型的敏感性和特異性評分較低(分別為0.84和0.72)。在本研究中,未做胃造口手術的患者切食物和處理器具的能力也可高度預測負擔。一般來說,我們的模型在預測高風險類別方麵更好,我們建議需要與護理人員的生活質量和心理困擾相關的信息。

結論這項工作證明了信息學解決方案的概念,可以識別有負擔風險的護理人員,並將其納入未來的護理途徑。

  • 衛生信息學
  • 運動神經元病
  • 神經學
  • 生物技術與生物信息學
http://creativecommons.org/licenses/by-nc/4.0/

這是一篇開放獲取的文章,根據創作共用署名非商業(CC BY-NC 4.0)許可證發布,該許可證允許其他人以非商業方式分發、混音、改編、在此基礎上進行構建,並以不同的條款許可其衍生作品,前提是正確引用原始作品,給予適當的榮譽,任何更改都已注明,並且使用是非商業性的。看到的:http://creativecommons.org/licenses/by-nc/4.0/

數據來自Altmetric.com

請求的權限

如果您希望重用本文的任何或全部內容,請使用下麵的鏈接,該鏈接將帶您到版權清除中心的RightsLink服務。您將能夠快速獲得價格和即時許可,以多種不同的方式重用內容。

本研究的優勢和局限性

  • 使用帶有嵌入式特征選擇例程的機器學習技術,允許在分析中包含所有可用信息,以發現任何可以預測的特征,並根據特征的重要性將其表示出來,這可以為模型的決策提供一些見解。

  • 我們建立了預測護理人員負擔的模型,敏感性為0.92,特異性為0.78,使用10倍交叉驗證評估的隨機森林算法識別高風險人群。

  • 與醫療數據一樣,我們的數據集具有高維數和缺失數據。

  • 由於樣本量小,我們將不同時間點的患者-護理人員對視為獨立和同分布的隨機變量。

簡介

肌萎縮性側索硬化症(ALS),也稱為運動神經元疾病(MND),是一種罕見的多種神經退行性疾病,但通常未知,病因。在歐洲,每10萬人中每年有2-3例新病例。1雖然罕見,但這種情況會導致嚴重的殘疾,並有致命的軌跡,通常在症狀出現後3-4年內。2它的特點是上下運動神經元的進行性退化,導致肌肉萎縮和癱瘓。最常見的死亡原因是由於逐漸的呼吸衰弱引起的呼吸衰竭。症狀包括運動,如肌肉無力、痙攣、吞咽困難(吞咽困難)、構音障礙(說話困難)、肌肉痙攣和運動外,如認知和行為障礙。肢體發病最常見,約占所有病例的60%,而球部發病占30%,其餘罕見病例以呼吸係統發病為主。1在診斷方麵,沒有一種特定的測試可以識別ALS;相反,這是一個長期的醫學檢查過程,目的是排除有相同症狀的任何其他疾病存在的可能性。一項研究發現,從首次症狀到診斷的中位時間間隔為12個月。3.

隨著病情的發展,患者需要護理人員持續的身體和精神支持。因此,患者及其護理人員可能需要定期評估和支持。疾病的性質以及照顧者責任的增加可能導致高水平的負擔;研究發現,由於從症狀開始到診斷的漫長過程,在診斷之前可能會出現照顧者負擔。4“照顧者負擔”一詞代表照顧者的情緒或身體健康、社會生活和經濟狀況的下降。5

這項工作的目的是通過使用機器學習將護理人員分為高負擔組或低負擔組,確定護理人員負擔的風險因素。此外,建立一個預測護理人員負擔的臨床決策支持係統(CDSS)可以促進為護理人員提供更快、更有效的幫助和更有效的資源管理。CDSS是一種軟件,它結合了關於患者的現有知識,為醫療保健從業者提供支持,以更好、更快和更個性化的治療決策。在這種情況下,CDSS將使用患者和護理人員的特征來指示護理人員是否需要額外的支持來減輕他們的負擔。此外,確定負擔的危險因素可能有助於解決這些問題。

一項係統綜述了與照顧者負擔相關的患者和照顧者因素的論文,發現照顧者負擔與患者的身體功能和行為障礙以及照顧者的抑鬱感覺之間存在相關性。6愛爾蘭以前的研究使用統計檢驗和線性回歸模型來確定負擔的驅動因素7 - 10已表明,每周提供的護理時間、生活質量和心理困擾與負擔有關。在這裏,我們使用機器學習技術來調查變量之間更複雜的相互作用,以揭示與負擔相關的其他因素,同時準確預測那些有高負擔風險的人。

方法

研究參與者

這是一項針對漸凍症患者及其主要照顧者的隊列研究,旨在深入了解人口統計學、醫學、社會經濟和心理因素對主要照顧者的影響。本研究招募了90對ALS患者和他們的主要照顧者,並在他們的住所采訪。這些患者在都柏林博蒙特醫院的國家ALS/MND多學科診所(MDC)就診。主要照顧者是成年人(18歲以上),他通過提供無償幫助來承擔患者的主要責任。通過MDC確定患者和護理人員,並要求他們考慮參與研究。研究人員對受試者進行了隨訪訪談,並通過國家ALS/MND登記冊檢索了患者的臨床信息。患者和護理人員信息在收集後和為當前工作進行任何數據分析之前都是匿名的。

數據收集

在2013年5月至2015年6月期間,以4 - 6個月為間隔,在3個不同的時間點(T1、T2和T3)對患者和護理人員進行了訪談。一些患者-護理人員對失去了隨訪,數據集中可能有1到2個訪談實例,而不是3個。患者-護理人員對參與的每一次訪談都包含相同的問題,並被視為我們數據集中的單個實例。護理者-患者對的問卷包括人口統計學(性別、教育程度、他們之間的關係、婚姻狀況、居住地區等)和社會經濟問題(汽車擁有率、住宿、醫療保險、收入等)以及生活質量和焦慮和抑鬱。此外,患者還被問及他們對資源的使用情況(看全科醫生/治療師的次數和時間,使用不同的護理服務,谘詢,藥物,服務費用等),護理人員回答了與他們的負擔水平相關的問題。最後,通過國家ALS/MND登記冊收集的信息包括診斷細節(首發症狀、發病、分期等)和臨床訪問表中記錄的信息(當前階段、疾病進展、幹預措施等)。根據上一次記錄的狀態,將患者的認知和行為狀態歸因後,再將患者的認知和行為狀態加入輸入變量集。有關數據收集方法的更多資料,請參閱在線補充數據

數據預處理

本研究在R Studio中進行,使用R V.3.5.1。11在創建預測模型之前,對數據進行預處理並以一種有助於分析和創建機器學習算法將使用的訓練和獨立測試數據集的方式進行轉換。這些數據的主要問題是它們的高維數和缺失值。因此,由於擔心在模型中引入偏差,丟失數據超過30%的變量被丟棄。缺少Zarit Burden訪談(ZBI)分數(結果)的實例也被刪除。

在這一步之後,剩下的數據集中有兩類數據丟失:問題的“不適用”答案和沒有給出答案或信息不可用的情況。第一種類型被替換為值0,第二種類型被賦值。我們使用了兩種方法來計算缺失的數據。我們使用的第一種方法是用該特征的中值替換每個特征中缺失的數據。第二種技術使用了機器學習算法——隨機森林12方法,以預測缺失的值。用於這些任務的R包是“imputeMissings”13和' missForest '(使用默認值),14分別。為了分析數據,開放式問題被排除或轉化為二進製/數值變量。為了進一步減少冗餘變量的數量,測量了它們之間的線性相關性,並丟棄了具有最大平均絕對相關性(高於0.8)的變量(使用R包'插入'中的' findCorrelation '方法)。15).最後,為了考慮患者和護理人員在不同時間點所經曆的所有變化,由於樣本量小,每個時間點的患者-護理人員二元組被視為一個獨立的條目。

數據分析

這項研究的結果是照顧者負擔。之前的研究發現,當ZBI評分≥24時,就存在負擔,16在一個類似的研究中,使用簡單統計和線性回歸來確定負擔預測因子。7因此,我們還創建了一個分類問題,可以識別所有受影響的護理人員,以及揭示他們與未受影響的護理人員的不同之處。護理人員負擔被分為兩類,以創建一個新的二進製變量,如果ZBI評分小於24(103名護理人員),則值為“低負擔”(或“0”),否則為“高負擔”(或“1”)(74名護理人員)。機器學習算法經過訓練,學習如何根據預測變量(即負擔分數以外的變量)自主地進行分類,以獲得新的(以前“未見過的”)預測變量組合。

對於這個分類問題,所使用的預測方法是隨機森林算法(使用' randomForest ' R庫,V.4.6-14)17)是目前最流行的集成機器學習算法之一,具有簡單的超參數調優和在不同數據大小下分類的良好精度。18 19這種技術創建了不同決策樹的集合,然後使用所有決策樹結果的多數“投票”來決定如何對每個護理人員進行分類。與使用簡單的決策樹相比,它的偏見更小,並且通過查看隨機森林中使用最多的變量,仍然可以提供關於如何做出決策的見解。它的集成性質和每棵樹都是由不同的數據樣本創建的事實使算法具有廣泛性和準確性。隨機森林有一種嵌入的特征選擇方法,對於像本研究中這樣的高維數據集很有用,因為它們可以自動識別與結果相關的變量,並產生具有較少特征的模型。此外,它們可以用於特征數量超過數據中實例數量的情況,即使大多數特征是“噪聲”(與結果無關),它們也具有非常好的性能。20 21最後,隨機森林可以捕獲數據中的非線性模式。22另外兩種方法(最小絕對收縮和選擇算子和極端梯度增強)以隨機森林為基準;然而,表現不是很好(見在線補充數據).

在應用該技術之前,數據集被隨機分為訓練集和測試集。訓練集用於訓練機器學習算法,包括完整數據集的75%,而剩餘的25%作為獨立的測試集(參見在線補充表S1).我們要注意的是,所有數據的預處理都是在這次拆分之前執行的。數據是根據護理人員的身份進行排序的,因此他們的訪談在數據集中是連續的,數據集中保持原樣,並隨機分為訓練集和測試集。此外,為了在數據集的不同子集中評估我們選擇的機器學習算法,隨機森林以10倍交叉驗證(CV)的方式進行訓練,其中十分之一的訓練數據集保留用於測試,剩下的十分之九依次用於訓練。這將產生10個單獨的訓練數據模型。在訓練集上進行10倍CV,使用訓練集建立最終模型,並在獨立測試集上進行測試。總的10倍CV結果是10次折疊中每一次結果的平均值。通過對10個模型進行集成,得到了獨立測試集上的結果。

評估過程中使用的指標是敏感性、特異性和馬修斯相關係數(MCC),23(見在線補充數據對於公式)。MCC是一個描述真假陽性和陰性的混淆矩陣的數字,它考慮了兩個類是否有不同的大小。這個數字的範圍從−1到1,1表示完全正確的分類,−1表示完全錯誤的分類,0表示概率(正確分類的50%)。最後,采用受試者工作特征(ROC)曲線分析評估結果(使用R包“pROC”,V.1.15.3,24).ROC曲線是每個不同決策閾值的真陽性率(TPR)或敏感性與假陽性率(FPR)的關係圖,假陽性率相當於1-特異性。曲線越接近左上角,TPR和FPR之間的平衡越好。在模型可以完美區分類別的情況下,TPR等於1,FPR等於0。對於所有的測量,用於區分兩個類別的概率閾值為0.5。

特征的重要性是根據基尼指數的平均下降來衡量的。基尼指數(Gini Index)表示數據集S分區的純度。基尼指數的加權和用於評估S在特定特征上的分裂為k個子集Si。在隨機森林中,每棵樹都使用一個特定的變量V來分割一個節點,然後對基尼指數的下降進行平均,平均下降最高的變量被認為是最重要的變量。根據訓練集計算變量重要度。

沒有病人和公眾的參與

這項研究是在沒有病人參與的情況下完成的。患者未被邀請對研究設計進行評論,也未被谘詢以製定與患者相關的結果或解釋結果。為了可讀性和準確性,我們不邀請患者參與本文檔的寫作或編輯。

結果

人口統計資料

有90對患者-護理人員參加了第一次訪談(T1), 58對參加了第二次訪談(T2), 41對參加了第三次訪談(T3)在線補充圖S1).下一節概述每一類參加者的人口統計資料。

病人

ALS患者的平均年齡為64.8歲(SD=10.7, min=39.2 max=87.2)。男性患者占59% (53M, 37F)。脊柱起病64例(71%),平均發病年齡64.8歲,(中位數=65.1歲,標準差=10.7歲,最小值=39.2歲,最大值=87.2歲)。從診斷到基線訪談的平均時間為1.3年(22.7個月),但中位值為0.6年(最小=0.1年,最大=11.3年)。從診斷到第一次訪談的時間分布偏右,均值受極值(如最大值)影響較大。考慮到一些患者(90例中有11例)被診斷為不同亞型的ALS(原發性側索硬化症(PLS)、單粒型ALS、上運動神經元為主的ALS),這些亞型通常會導致疾病進展緩慢,兩組患者的臨床人口統計學數據在表1.該組被稱為“慢變ALS組”,而其餘患者(n=79)屬於“漸凍人”組。在ALS登記處有記錄的73名患者(17名缺失)的ALSFRS-R平均分數可以在聯機補充表S2在線補充表S3顯示了肌萎縮性側索硬化症不同階段患者的時間分布。

表1

ALS診斷組(n=79)與PLS診斷組(n=11)或明顯表型(上運動神經元顯性漸凍症、單粒型漸凍症)患者的人口學特征比較

護理人員

護理者以女性為主(63名,70%),平均年齡為55.5歲(SD=13.2歲,min=25.3歲,max=80.3歲)。在第一次訪談中,63名照護者為配偶/伴侶(70%),19名照護者為兒子/女兒(21%),2名照護者為父母(2.2%),4名照護者為兄弟姐妹(4.4%),1名照護者為朋友(1.1%)。每周護理小時基線為0 ~ 168,平均值為45.6小時(中位數=28,SD=47.3)。根據ZBI,料級範圍為0 ~ 88。在本隊列中,基線ZBI評分範圍為1 ~ 65,平均值為26.9。

機器學習

在去除非信息性特征和條目的初始預處理之後,當使用missForest時,保留了177個觀察值(有記錄的負擔分數)和232個預測特征(529個中),當使用中位數來引入缺失數據時,保留了234個。177項觀察包括所有3次訪談中的照顧者-患者組合。

在對這些數據應用了兩種不同的imputation方法後,使用了隨機森林過程,從missForest-imputed數據創建模型M1,從中值-imputed數據創建模型M4。選取M1和M4最重要的25個特征,分別作為預測特征建立模型M2和M5。最後,將M1和M4的15個最重要的特征作為預測特征來創建模型M3和M6。該方法根據現有數據確定了護理人員負擔的重要預測因素。

中給出了所有隨機森林的結果表2.在“parameters”字段中,“trees”表示隨機森林中樹的數量,“mtry”是在每個樹節點上可用於分裂的變量的數量。我們嚐試為ntree和mtry超參數使用一些不同的值,以選擇性能更好的。在小型(15個變量數據集)中,我們用60、80和100棵樹進行了實驗,在其餘的數據集中,我們用100、150和200棵樹進行了實驗。對於mtry,我們嚐試了默認值和接近默認值的值,以查看是否有變化,並選擇具有更好性能的值。“Sen”和“Spec”分別為敏感性和特異性,“MCC”為Matthews相關係數,“AUC”為ROC曲線下麵積。由10倍CV產生的指標由它們的平均值表示。M2(在表中突出顯示)是最好的模型,因為它在獨立測試集中的所有指標中具有最高的值,而隻使用25個變量,並且在10倍CV中表現良好(幾乎等同於M6)。所有試驗數據的ROC曲線可以在在線補充圖S2

表2

預測模型M1-M6的驗證

根據基尼指數的平均下降,該模型的特征按重要性排序在圖1.變量對其餘模型的重要性顯示在在線補充圖S3.根據訓練集計算變量重要度。後綴“。c”代表照顧者的特征,後綴“”。P '代表病人的特征。它們被用來區分存在於兩個組中的特征。

圖1

最佳模型的最重要變量:M2和M9根據基尼指數的平均下降。

變量子集

除了探索數據和使用所有可用信息構建模型之外,還使用了一個較小的數據集,該數據集隻使用在護理點可以常規收集的信息。通過這種方式,嵌入ALS登記冊的CDSS可以檢索信息,並提醒高危護理人員。患者的臨床信息,例如他們的殘疾程度或因摔倒(這是前往A&E的最常見原因)而前往事故和急診(A&E)的次數,可能會對護理人員的負擔水平產生影響,因為在某些情況下,幫助他們對護理人員來說可能更具挑戰性。根據該術語的定義,以贈款或醫療卡的形式向患者或照顧者提供的支助也可能對照顧者的負擔產生影響。最後,其他人口統計信息,如子女數量、居住縣(因此,為醫療目的旅行有多難)、教育水平、經濟支持和就業狀況,都可能造成心理困擾和負擔。所選的76個變量子集的列表顯示在在線補充數據

在misforest -imputed數據集和median-imputed數據集上執行與前麵類似的過程。表3顯示了這些模型的結果,我們可以看到預測能力的下降。雖然模型的結果非常相似,但我們認為M9是最好的模型,因為它在獨立測試集和10倍CV中具有較高的度量標準,並且在精度上使用了很少的變量,“犧牲”非常小。通過觀察ROC曲線在線補充圖S4和S5,很明顯,為了增加特異性評分,需要犧牲高敏感性值,因為曲線明顯偏離左上角。變量按模型的重要性排序顯示在圖1,而其餘的型號可以在在線補充圖S5

表3

預測模型M7-M12的驗證

討論

本研究的目的首先是確定與漸凍症患者照護者負擔相關的照護者和患者特征,然後對這些關聯進行建模,使係統能夠提醒醫療保健專業人員照護者的高負擔風險。我們使用隨機森林算法對第一個任務的所有可用信息(特征)進行建模,並對第二個任務使用選定的特征子集。

關於實現第一個目標的模型集,我們觀察到使用的兩種類型的imputation方法在隨機森林的性能上有微小的差異。考慮到我們獨立測試數據集的規模較小,在“高”和“低負擔”類別中正確分類的護理人員的差異非常小,盡管指標看起來非常不同。使用25個變量的M2模型表現最好,因為其所有評價指標都更高。高負擔類別預測的準確率很高(獨立測試數據集上92%的分類正確),而對於低負擔類別,78%的護理人員被正確分類。

隨機森林是一種算法,它提供了一定程度的透明度,允許識別最具預測性的特征以及它們對最終結果的貢獻。根據基尼指數的平均下降,由最佳模型確定為最重要的三個因素是:照顧者的抑鬱總分(HADS(醫院焦慮和抑鬱量表)抑鬱評分),他們對自己生活的控製程度(麥吉爾C部分問題12)和他們對自己生活質量的總體感知(麥吉爾A部分)。其他重要因素包括:患者在未做胃造口手術的情況下切割食物和處理器具的能力(ALSFRS-R評分為5a),護理人員的焦慮總分(HADS焦慮評分),他們每周需要為患者提供護理的時間,他們感受到的支持水平(McGill C部分問題16),患者的書寫能力(ALSFRS-R評分為4),護理人員在McGill C部分問題14中表達的負擔水平,職業治療師(OT)看患者的次數,護理人員感到悲傷的時間(麥吉爾大學C部分問題7),護理人員的年齡,患者在停車和交通上的支出(6個月),患者對自己生活的控製程度(麥吉爾大學C部分問題12),護理人員在麥吉爾大學C部分問題5中的抑鬱水平,患者在McGill B部分問題1中表示的最麻煩的症狀或問題,患者第二個孩子的年齡,患者用於取暖的電費費用,照顧者認為他們的生活有多大價值(McGill C部分問題11),他們的身體感覺如何(McGill B部分問題4),他們在實現生活目標方麵的進步程度(McGill C部分問題10),患者在日常著裝和衛生方麵的獨立性(ALSFRS-R評分6分)以及他們對生活質量的總體感知(麥吉爾A部分)。

在目前的工作中,我們確定了護理人員的生活質量評估和患者的身體功能障礙的特定屬性,這些屬性可以預測護理人員的負擔。這些發現與以前的研究結果一致6 - 10該研究發現,護理人員的負擔與他們每周提供的護理時間、他們的生活質量和心理困擾以及患者的身體功能(ALSFRS-R評分)之間存在關聯。在這一點上值得注意的是,預測變量和結果之間的關聯並不一定顯示它們之間的因果關係。患者第二個孩子的年齡可能反映了相互競爭的責任的存在,這可能會影響照顧者所經曆的負擔水平。另一個新發現的因素是來自OT的訪問數量,這與負擔的關係尚不清楚。然而,由於OT負責幫助患者進行日常活動,並且模型發現的一些重要因素是衡量患者執行這些任務的能力,我們可以看到某種形式的關聯。此外,用於就醫的停車費用可能表明,根據患者病情的嚴重程度,就醫的次數和時間,因此與照顧者的負擔有關。主要的照顧者可能也會出現在所有這些訪問中,所以,這個特征,以及交通費用,可能代表著經濟問題以外的問題。此外,這項研究使用了一種新的方法來研究該領域,迄今為止尚未報道的護理人員負擔的重要預測因素,這是以前的工作,包括我們自己的詳細定性研究沒有顯示的。8雖然我們承認這一結果需要在另一個類似的數據集中得到複製,但我們認為這表明這種新穎的方法可能有助於發現臨床上有意義的預測因子,而這些預測因子是該領域更標準的方法不容易揭示的。如果這一特定的預測因素在一項重複研究中被證明是顯著的,那麼在與以前未知的某些患者亞群會診時,就喂養問題的建議和建議而言,這將具有臨床意義。這種暗示在主要治療仍然是症狀管理的情況下確實是有意義的。它還指出了應用於其他神經退行性疾病隊列研究中類似數據集的方法的潛在有用性。我們發現一些患者自我報告的生活質量信息也可以預測護理人員的負擔。我們可能會認為這種類型的聯係,因為患者生活質量低或生活獨立性低可能意味著照顧者的責任更高或心理下降,反之亦然。最後,盡管患者的認知和行為狀態被包括在輸入變量集中,但我們發現在本研究中與結果沒有相關性,盡管de Wit先前的工作6顯示了照顧者的負擔和病人的行為障礙之間的相關性。事實上,這一發現與以前的工作不一致,可能反映了這一隊列中具有顯著行為障礙的患者比例相對較低,以及機器學習模型相對不敏感,無法隔離具有不同類型認知/行為變化的患者。

基於目前的研究結果,我們建議提供心理調整援助10或者額外的正式或非正式的社會支持可能對照顧者有益。25另一項建議是引入基於遠程保健的幹預措施,使患者和護理人員能夠與專家進行遠程預約,而不是訪問,因為這已被證明對慢性病護理具有積極影響。26

我們探索了一種CDSS的開發,它可以在護理人員處於高負擔風險時發出警報,使用的數據可以作為ALS登記冊的一部分定期收集。因此,被認為是預測負擔水平的最重要特征的照顧者的生活質量信息,以及焦慮和抑鬱得分,被排除在這個減少的特征集之外,因為這些信息不會在登記冊中。正如預期的那樣,基於這個減少的特征集構建的預測模型比使用完整特征集的預測模型表現得更差。然而,在缺乏更詳細的護理人員數據的情況下,這個模型可能仍然是有用的。在近30%的情況下,低負擔的護理人員會被錯誤地歸類為高負擔,然而,算法可以捕獲真正屬於高負擔類別的大多數護理人員(84%)。

在最佳模型中,根據基尼指數的平均下降,最重要的特征是主要照顧者每周的照顧職責(小時),患者在沒有做胃造口手術的情況下切食物和處理器具的能力(ALSFRS-R評分為5a),患者發病年齡和照顧者的年齡。其他重要因素包括:患者的書寫能力(ALSFRS-R評分為4)、到全科醫生和急診室就診次數、居住縣、教育水平、獨立完成穿衣和衛生日常工作(ALSFRS-R評分為6)、獨立行走(ALSFRS-R評分為8)、呼吸困難程度(ALSFRS-R評分為10)、患者和照顧者的子女數量以及照顧者的健康狀況(自我評估評分為0 -差至5 -優秀)。

可以注意到,所有模型都能更好地預測高負擔類別(陽性),而不是低負擔類別(陰性)。這項工作的主要挑戰是樣本量小,數據集的高維數和缺失數據,因此,我們建議需要進一步的工作來驗證我們在更大的獨立測試集上開發的模型。然而,隨機森林算法已經被證明即使在這種規模的數據集上也表現良好18 19以及在特征數量大於樣本數量或有許多“噪聲”特征的數據集上。20 21盡管研究設計存在挑戰和限製,但數據表明,機器學習可以可靠地識別可能經曆高水平負擔的護理人員。由於在本研究中,同一對患者-護理人員的不同訪談被視為獨立的條目,因此未來的工作可以側重於解釋數據中的相關性和時間依賴性的不同方法。雖然還需要做更多的工作來完善模型,但這項工作證明了信息學解決方案的概念,可以識別有風險的護理人員,並將其納入未來的護理途徑。

參考文獻

腳注

  • 推特@anna_antoniadi

  • 作者貢獻聲明AMA和CM設計和開發了這項研究,分析和解釋了數據,並起草了最初的手稿。MG, MH和OH參與了數據的獲取,研究問題的發展,並協助分析和解釋數據。所有作者都修改了草稿的知識內容,並編輯了手稿。所有作者審閱並批準了最終草案。

  • 資金本出版物源於部分由愛爾蘭科學基金會(SFI)在第16/RC/3948號撥款下的研究撥款支持的研究,並由歐洲區域發展基金和FutureNeuro行業合作夥伴共同資助。愛爾蘭衛生研究委員會都柏林(http://www.hrb.ie),作為HRB跨學科能力增強獎(ICE/2012/6)和HRB- jpnd /2013/1的一部分,以及通過美國漸凍人症協會的臨床管理贈款(17 CM-324)資助(http://www.alsa.org).

  • 相互競爭的利益OH是《肌萎縮性側索硬化症》和《額顳變性》雜誌的主編,也是《神經病學、神經外科和精神病學雜誌》的編委會成員。

  • 患者發表同意書不是必需的。

  • 倫理批準本研究獲得Beaumont醫院醫學研究倫理委員會的倫理批準,所有參與者均提供知情的書麵同意。

  • 出處和同行評審不是委托;外部同行評審。

  • 數據可用性聲明如有合理要求,可提供資料。沒有其他數據可用。由於隱私和保密的原因,目前研究中產生和分析的材料不能公開(Beaumont醫院醫學研究倫理委員會)。但是,可以通過醫院Mark Mr Medical Heverin Research (mark.heverin@tcd.ie)獲得未識別數據集。