條文本

原始研究
開發含三七皂苷的中藥注射劑不良反應預測係統:使用機器學習的嵌套病例-對照研究
  1. Xing-Wei吳12
  2. 家英和張3.
  3. 張洹1
  4. Xue-Wu歌12
  5. Ya-Lin溫1
  6. En-Wu長12
  7. Rong-Sheng通12
  1. 1藥店中國電子科技大學四川省人民醫院成都四川,中國
  2. 2中國科學院四川轉化醫學研究醫院成都四川,中國
  3. 3.藥店成都市第一人民醫院成都四川,中國
  1. 對應到童榮生博士;318004031在}{qq.com

摘要

客觀的本研究旨在利用機器學習算法開發一種藥品不良反應(ADR)前因預測係統,為三七皂苷中藥注射劑在臨床安全使用提供參考。

設計嵌套的病例對照研究。

設置國家不良反應監測中心和電子病曆(EMR)係統。

參與者所有患者均來自2010年1月至2018年12月四川省5家醫療機構。

主要結果/措施使用含三七皂苷中草藥注射劑的不良反應患者資料來自國家不良反應監測中心。采用嵌套病例對照研究,將EMR係統中無不良反應的患者按1:4的比例隨機匹配。應用18種機器學習算法建立ADR預測模型。以曲線下麵積(AUC)、準確率、精密度、召回率和F1值評價模型的預測性能。從1080個模型中篩選出最優模型,建立ADR預測係統。

結果共納入5家醫療機構的530例患者,建立1080個ADR預測模型。其中,能力最好的模型AUC為0.9141,精度為0.8947。根據最佳模型,建立了三七皂苷不良反應風險預測係統,為早期識別三七皂苷不良反應風險患者提供依據。

結論本研究基於機器學習模型開發的預測係統具有良好的預測性能和潛在的臨床應用價值。

  • 不良事件
  • 草藥
  • 毒性

數據可用性聲明

如有合理要求,可提供資料。如有合理要求,可提供資料。數據可以從第三方獲得,但並不公開。第一作者(7190175@uestc.edu.cn)如果通過電子郵件請求,將分享任何公開可用的數據。

http://creativecommons.org/licenses/by-nc/4.0/

這是一篇開放獲取的文章,根據創作共用署名非商業(CC BY-NC 4.0)許可證發布,該許可證允許其他人以非商業方式分發、混音、改編、在此基礎上進行構建,並以不同的條款許可其衍生作品,前提是正確引用原始作品,給予適當的榮譽,任何更改都已注明,並且使用是非商業性的。看到的:http://creativecommons.org/licenses/by-nc/4.0/

數據來自Altmetric.com

請求的權限

如果您希望重用本文的任何或全部內容,請使用下麵的鏈接,該鏈接將帶您到版權清除中心的RightsLink服務。您將能夠快速獲得價格和即時許可,以多種不同的方式重用內容。

本研究的優勢和局限性

  • 據我們所知,本研究首次利用機器學習技術開發了含三七皂苷的中草藥注射劑不良反應(ADR)預測係統。

  • 不良反應患者數據來自國家藥品不良反應監測中心,具有很強的代表性。

  • 為了得到最佳模型,數據處理采用了4種數據填充、5種數據采樣、3種變量選擇方法和18種機器學習算法進行模型建立。

  • 以曲線下麵積、準確度、精密度、召回率和F1值作為評價模型預測性能的指標。

  • 由於研究人群均來自中國西南地區,當該預測係統應用於其他醫療機構時,結果可能存在偏差。

簡介

三七皂苷,為三七(Buck.)的主要成分。陳富華,已廣泛應用於神經係統、心腦血管係統疾病的治療。1 - 4含三七皂苷的中草藥藥品不良反應(ADR)發生率高,已引起廣泛關注。其中注射劑引起的不良反應占69.57%,主要表現為藥疹(50.5%)、過敏反應(20.4%)和過敏性休克(9.7%),嚴重者可危及生命。5

目前ADR監測主要采用自發報告係統、病例對照研究、隊列研究、處方事件監測和醫院集中監測係統。然而,這些方法大多存在明顯的滯後現象。因此,為預防三七皂苷中藥注射劑不良反應的發生,開發不良反應前因預測係統的必要性日益增大。

機器學習是人工智能的核心技術,通常用於建立預測模型。近年來,已經建立了一些ADR的預測模型。6 - 10基於一種聚類方法對關聯規則進行後處理,Wei和Scott6開發了逐步關聯規則挖掘的應用程序,以識別疫苗和多個不良事件之間的關聯。此外,今井10應用人工神經網絡評價萬古黴素腎毒性。但樣本量小、患者信息不完整、預測效果不理想等問題製約了ADR預測模型在臨床中的應用。針對這些挑戰,本研究旨在開發基於機器學習算法的三七皂苷中草藥注射劑不良反應預測係統,為臨床不良反應管理和預防提供參考。

方法

數據收集

本研究納入的使用含有三七的中草藥注射劑的不良反應患者來自2010年1月至2018年12月四川省五家醫院國家藥物不良反應監測中心報告的病例。然後,采用嵌套病例對照研究,從5家醫療機構的電子病曆係統中隨機抽取無不良反應的患者。有不良反應者與無不良反應者之比為1:4。對於多個實驗室結果,為了便於臨床應用,我們選取了患者用藥前的最後一個結果。對於多次入院的患者,所有患者都根據首次入院的情況被納入。

數據清理

變量賦值

二元狀態變量被直接賦值為0或1。根據臨床實驗室變量是否在正常範圍內,分別賦值為1、2、3(1,低於正常範圍;2、正常範圍內3、正常範圍以上)。

列刪除

刪除數據缺失>90%,或單一類別>90%,或變異係數<0.1的變量。

數據填充

數據填充有四種方式。不填充:保留原始數據。簡單填充:將連續變量的缺失數據替換為平均值或中位數,將類別變量替換為模式。隨機森林(Random Forest, RF)填充:利用RF模型直接預測和替換缺失數據。射頻改進填充:根據缺失數據的數量排序變量,然後由射頻填充替代。

數據采集

無采樣:根據原始數據建立模型。隨機over抽樣:隨機複製較少類別的數據,使樣本大小與較多類別的樣本大小相匹配。隨機下抽樣:刪除較多類別的數據,以匹配較少類別的樣本量。合成少數過采樣技術(SMOTE)過采樣器:從少量原始數據合成新數據。邊緣SMOTE over采樣器:從邊緣數據合成新數據。

變量的選擇

沒有變量選擇或使用套索或Boruta變量選擇。

模型建立

通過不同的數據填充、數據采樣和變量選取,共獲得60組數據。采用AdaBoost、Bagging、伯努利Naïve貝葉斯、決策樹、額外樹、高斯Naïve貝葉斯、梯度增強、k -近鄰、潛狄利克裏分配、邏輯回歸、多項式Naïve貝葉斯、被動攻擊、二次判別分析、射頻、隨機梯度下降、支持向量機、極限梯度增強和集成學習等18種機器學習算法構建模型。

模型建立如下:數據按8:2的比例隨機分為訓練集和測試集。用訓練集建立模型,用測試集評價模型的預測性能。對訓練集進行十倍交叉驗證,用於模型的內部驗證,並從測試集中選取200個Bootstrapping樣本,用於評估不同數據處理方法或機器學習算法對模型預測性能的影響。集成學習模型由每個數據集上曲線下麵積(AUC)最大的五種機器學習算法開發。

模型評價

我們用AUC、準確率、精密度、召回率和F1值來評價模型的預測性能。比較AUC最大的5個模型,選擇最佳模型建立三七皂苷注射液不良反應預測係統。SHapley加法解釋(SHAP)有助於解釋變量對模型的貢獻。

樣本量評估

為了評估不同樣本量對模型預測性能的影響,通過Bootstrapping從訓練集中隨機抽取10%、20%、30%至100%的子集。分別用這10個子集建立模型。重複該過程100次,從測試集計算出AUC,用於樣本量檢查。

患者和公眾參與

患者和/或公眾沒有直接參與這項研究。

統計分析

分類變量用計數和百分比表示,連續變量用平均值±標準差表示。如果數據為正態分布且方差相等,則采用方差分析,否則采用Kruskal-Wallis檢驗。p值<0.05為有統計學意義。假設檢驗和模型構建分別使用Python (V.3.8)中的stats和sklearn包實現。

結果

研究人口

本研究共納入530例患者,其中106例患者發生不良反應。其中男性250例(47.17%),女性280例(52.83%)。患者的人口學和臨床特征顯示在在線補充表1

數據清理

83個變量賦值結果見在線補充表2.刪除列後,63個變量被納入以下研究(在線補充表3).然後采用四種數據填充方法對缺失的1290個(3.86%)數據進行填充。我們使用Lasso或Boruta進行變量選擇,結果如在線補充表3.分別采用4種數據填充、5種數據采樣和3種變量選擇方法進行數據處理,共獲得60組數據集。

模型建立

通過18種機器學習算法和60個數據集,共建立了1080個預測模型。10倍交叉驗證結果見在線補充表4.從測試集中使用200個Bootstrapping樣本來評估不同的數據處理方法或機器學習算法對模型預測性能的影響。結果表明,不同的數據填充、數據抽樣、變量選擇(表1)和機器學習算法(表2).整體學習模型表現最佳,AUC為0.793±0.083 (表2).

表1

不同數據處理方法對模型預測性能的影響(自舉)

表2

不同機器學習算法對模型預測性能的影響(自舉)

模型評價

以AUC、準確率、精密度、召回率和F1值作為評價模型性能的指標。其中模型1表現最佳,AUC為0.9141 (表3).5個最佳模型的接收機工作特性曲線如圖所示圖1

圖1

5個最佳模型的ROC曲線。ROC,受試者工作特征。

表3

五個最佳模型的預測性能指標

模型的解釋

每個變量對最終預測模型的重要性顯示在圖2.結果顯示,預處理血清水平、腎功能、皮膚病、性別和年齡是模型最重要的5個變量。我們用SHAP值來解釋變量對模型的貢獻,前20名的SHAP值見圖3.該圖解釋了高低變量值與SHAP值之間的關係。在預測模型中,一個變量的SHAP值越高,ADR發生的可能性越大。

圖2

各變量對最終預測模型的重要性矩陣圖。變量名顯示在在線補充表2).X83,治療前血清水平;X55,腎功能;25、皮膚病;X1、性別;X2,年齡;X29劑量;X62,低密度脂蛋白;X64血液蛋白不足;X30,抗感染藥物; X82, pre-treatment indicators of carcinoma; X79, haemoglobin; X6, history of allergy; X16, respiratory diseases; X66, albumin/globulin; X78, red blood cell; X81, hypersensitive C reactive protein; X51, dermatology medication; X77, eosinophils; X13, Charlson comorbidity index (Score); X57, serum potassium.

圖3

模型前20個變量的SHAP彙總圖。紅色表示變量值較高,藍色表示變量值較低。變量名顯示在在線補充表2).X83,治療前血清水平;X55,腎功能;25、皮膚病;X1、性別;X2,年齡;X29劑量;X62,低密度脂蛋白;X64血液蛋白不足;X30,抗感染藥物; X82, pre-treatment indicators of carcinoma; X79, haemoglobin; X6, history of allergy; X16, respiratory diseases; X66, albumin/globulin; X78, red blood cell; X81, hypersensitive C reactive protein; X51, dermatology medication; X77, eosinophils; X13, Charlson comorbidity index (Score); X57, serum potassium. SHAP, SHapley Additive exPlanations.

樣本量評估

隨著樣本數據規模的不斷增加,測試集的AUC值也不斷增加,說明本研究的樣本量是足夠的(圖4).

圖4

樣本量驗證。縱柱表示ROC曲線AUC的95% CI。AUC,曲線下麵積;ROC,受試者工作特征。

建立三七皂苷不良反應預測係統

根據最佳模型,開發了三七皂苷不良反應預測係統,並獲得了軟件著作權。藥品不良反應預測係統的開發圖5.係統的運行和輸出如圖所示圖6

圖5

藥品不良反應預測係統的開發。ADR,藥品不良反應;AUC,曲線下麵積;DT,決策樹;ET,額外樹;FN。假陰性;FP,假陽性;KNN, k -最近鄰;RF,隨機森林; TP, true positive; TN, true, negative.

圖6

ADR預測係統的操作(A)和輸出(B)。ADR,藥物不良反應。

討論

中醫用於預防和治療疾病已有幾個世紀的曆史。11近年來,含三七皂苷的中草藥注射劑在臨床應用越來越普遍,而不良反應也常引起關注。有研究表明,中藥成分、中藥製劑和聯合用藥是引起三七皂苷中草藥注射劑不良反應的重要因素。藥疹(50.5%)、過敏反應(20.4%)、過敏性休克(9.7%)最為常見,部分病例甚至危及生命。5但ADR監測方法,包括自發上報係統、處方事件監測係統、醫院集中監測係統等均為事後上報,甚至存在數據偏差、漏報或重複上報。因此,實現ADR預測對臨床預防三七皂苷中藥注射劑不良反應具有重要意義。

在我們的研究中,進行了嵌套的病例對照研究以收集數據。為了獲得最佳模型,我們采用4種數據填充、5種數據采樣和3種變量選擇方法進行數據處理,並結合18種機器學習算法,建立了1080個ADR預測模型。通過比較各模型的AUC、準確率、精密度、召回率和F1值,篩選出最佳模型,建立三七皂苷注射劑不良反應預測係統。

近年來,一些基於數據挖掘的ADR預測模型被開發出來,6 - 9機器學習算法10 12 - 15以及統計方法。16日至18日Tangiisuran16將單因素分析和多因素二元logistic回歸相結合,識別臨床危險因素,建立ADR風險模型。模型在內部驗證期AUC為0.74,外部驗證期AUC為0.73,敏感性為80%,特異性為55%,特異性為43%。16Imai10采用人工神經網絡預測不良反應風險,AUC為0.83。與其他研究相比,本研究建立的模型具有更好的預測性能(準確率為0.8947,精密度為0.75,召回率為0.6667,AUC為0.914)。由於數據缺失在臨床實踐中很常見,本研究中使用的數據填充方法可能有利於處理臨床現實研究中的不平衡數據。更重要的是,采用最佳模型開發的係統操作簡單,計算速度快,準確度高,有可能方便臨床應用。

值得注意的是,哈曼19建立了基於化合物化學、物理和結構性質的預測不良反應發生的決策樹模型,模型預測準確率較高(78.9 ~ 90.2%)。但該模型忽略了病理生理狀況和聯合用藥對不良反應的影響,難以解釋。這使得該模型不太可能被臨床醫生所接受。在我們的研究中,我們收集了患者的病理生理特征、臨床實驗室結果和用藥情況等80多個因素。同時,通過SHAP值確定與不良反應相關的關鍵預測因素。雖然使用SHAP值作為識別含有三七皂苷的中草藥注射劑引起的不良反應的重要臨床決定因素是不可能的,但它可能有助於對某些特定的臨床事件產生臨床假設。

SHAP結果表明,患者是否有皮膚病將顯著影響模型的預測性能。皮膚不良反應是三七最常見的不良反應之一,如多形性紅斑、蕁麻疹、重度多形性紅斑和急性全身性發疹性膿皰病。20 21因此,本來就有皮膚病的患者在使用三七後更容易發生不良反應。此外,我們發現年齡和性別與三七不良反應的發生有關,這與Yang報道的結果一致22

這項研究有一些局限性。首先,本研究樣本量較小,可能會影響模型的預測性能。第二,由於研究人群均來自中國西南地區,當預測係統應用於其他醫療機構時,結果可能存在偏差。最後,需要一個前瞻性對照試驗來證明ADR預測係統的準確性。

數據可用性聲明

如有合理要求,可提供資料。如有合理要求,可提供資料。數據可以從第三方獲得,但並不公開。第一作者(7190175@uestc.edu.cn)如果通過電子郵件請求,將分享任何公開可用的數據。

倫理語句

患者發表同意書

倫理批準

本研究由四川省醫學科學院倫理委員會和四川省人民醫院批準(2017-11-01)。參與者在參與研究前均知情同意參與研究。

參考文獻

補充材料

  • 補充數據

    此網頁文件由BMJ出版集團從作者提供的電子文件製作而成,並沒有對內容進行編輯。

腳注

  • 貢獻者X-WW, E-WL和R-ST參與了研究的概念和設計。X-WW起草了這篇文章。J-YZ, HC, X-WS和Y-LW對數據進行了分析。E-WL和R-ST對手稿進行了修改。所有作者最後都同意出版這個版本。通訊作者證明所列作者均符合作者身份標準,且沒有遺漏其他符合標準的作者。R-ST是擔保人。

  • 資金國家自然科學基金項目(no . 72004020)、四川省科技廳科技計劃項目(no . 2021YJ0427)、四川省科技廳重點研發計劃項目(no . 2021yfs0197、2019YFS0514)資助。電子科技大學研究生科研與教學改革項目(編號JYJG201919)、四川省衛生健康委員會課題(編號19PJ262);

  • 相互競爭的利益沒有宣布。

  • 患者和公眾參與患者和/或公眾沒有參與本研究的設計、實施、報告或傳播計劃。

  • 出處和同行評審不是委托;外部同行評審。

  • 補充材料此內容由作者提供。它沒有經過BMJ出版集團有限公司(BMJ)的審查,也可能沒有經過同行評審。討論的任何意見或建議僅是作者的意見或建議,不被BMJ認可。BMJ不承擔因對內容的任何依賴而產生的所有責任和責任。如果內容包括任何翻譯材料,BMJ不保證翻譯的準確性和可靠性(包括但不限於當地法規、臨床指南、術語、藥品名稱和藥物劑量),並且對因翻譯和改編或其他原因引起的任何錯誤和/或遺漏不負責。