條文本

下載PDF

原始研究
利用LSTMSeq2Seq深度學習模型預測氣候變化對中國瘧疾病例再次出現的影響:一種建模和預測分析研究
  1. Eric Kamana
  2. Jijun趙
  3. Di唄
  1. 自動化學院複雜性科學研究所青島大學青島,中國
  1. 對應到Jijun趙;jjzhao在}{qdu.edu.cn

摘要

目標瘧疾是一種病媒傳播的疾病,由於其對氣候的敏感性,它仍然是一個嚴重的公共衛生問題。準確預測瘧疾的再發情況,是采取相應有效措施的關鍵。本研究旨在探討氣候因素對中國大陸瘧疾再次出現的影響。

設計一個造型研究。

設置和參與者每月瘧疾病例4例瘧原蟲物種(惡性瘧原蟲三日瘧原蟲間日瘧原蟲和其他瘧原蟲),收集了31個省的月度氣候數據;2004 - 2016年瘧疾病例數據由中國疾病預防控製中心提供,氣候參數由中國氣象數據服務中心提供。我們在總體層麵進行了分析,沒有涉及機密信息。

主要和次要結局測量采用長短時記憶序列對序列深度神經網絡模型(LSTMSeq2Seq),基於氣候因素的影響對2004 - 2016年瘧疾病例再次出現進行預測。利用中國31個省份的月瘧疾病例和相應的氣象資料,對極端梯度助推(XGBoost)、門控循環單元(gated recurrent unit)、LSTM、LSTMSeq2Seq模型進行訓練和檢驗。然後我們用均方根誤差(RMSE)和平均絕對誤差評估方法比較了模型的預測性能。

結果所提出的LSTMSeq2Seq模型將預測的平均RMSE降低了19.05%至33.93%,18.4%至33.59%,17.6%至26.67%和13.28%至21.34%惡性瘧原蟲,間日瘧原蟲,瘧疾瘧原蟲和其他瘧原蟲,分別與其他候選模型進行比較。LSTMSeq2Seq模型的平均預測精度為87.3%。

結論LSTMSeq2Seq模型顯著改善了基於氣候因子影響的瘧疾再發預測。因此,LSTMSeq2Seq模型可以有效地應用於瘧疾再次出現的預測。

  • 傳染病
  • 公共衛生
  • 信息技術
  • 感染控製
  • 流行病學

數據可用性聲明

數據在公共的、開放訪問的存儲庫中可用。中國大陸所有31個省份的瘧疾病例是通過https: www.phsciencedata.cn和氣象數據獲取的https://data.cma.cn/en

http://creativecommons.org/licenses/by-nc/4.0/

這是一篇根據創作共用署名非商業性(CC BY-NC 4.0)許可發布的開放獲取文章,該許可允許其他人以非商業的方式發布、重新製作、改編、構建本作品,並以不同的條款授權他們的衍生作品,前提是正確引用了原始作品,給出了適當的榮譽,表明了所做的任何更改,並且使用是非商業性的。看到的:http://creativecommons.org/licenses/by-nc/4.0/

來自Altmetric.com的統計

請求的權限

如果您希望重用本文的任何部分或全部內容,請使用下麵的鏈接,該鏈接將帶您前往版權清算中心的RightsLink服務。您將能夠獲得一個快速的價格和即時許可,以許多不同的方式重用內容。

本研究的優勢與局限性

  • 氣候因子的使用已被證明是瘧疾發病率的有效預測因子,並顯著影響所提出的長-短期記憶序列序列(LSTMSeq2Seq)模型在捕捉季節模式和趨勢和預測瘧疾發病率方麵的應用。

  • 典型的機器學習模型很難預測長期依賴關係,甚至單個LSTM很難捕捉過去的關鍵事件並利用它們預測未來的值。LSTMSeq2Seq結合了專門的LSTM細胞,可以預測多個時間步驟,而不是隻有一個多任務細胞,解決了這個問題。

  • LSTMSeq2Seq比其他使用的深度學習模型需要更多的訓練時間。要為所有31個省從頭開始訓練LSTMSeq2Seq,四種類型的測試需要2周的時間瘧原蟲用於我們的研究。而其他模型則需要幾個小時到幾天的時間來使用瘧疾病例和氣象變量的數據來訓練它們。在許多省份,LSTM比LSTMSeq2Seq模型快7倍。然而,在瘧疾病例較少的省份,這種影響並不顯著。

  • 由於缺乏其他相關的潛在非氣候因子,在本研究中使用任何模型都無法對部分省份進行準確的預測。

簡介

瘧疾是由該屬寄生原生動物引起的病媒傳染疾病瘧原蟲惡性瘧原蟲惡性瘧原蟲),瘧原蟲那p .那),間日瘧原蟲間日瘧原蟲),瘧原蟲simiump . simium),瘧原蟲諾氏瘧原蟲諾氏瘧原蟲),瘧原蟲cynomolgip . cynomolgi).世界各地的政府、衛生組織和科研機構在瘧疾控製措施和消除方案方麵作出了重大努力。盡管在減少瘧疾病例和死亡方麵取得了巨大進展,但由於瘧疾對環境和氣候變化的敏感性,它仍然主要在非洲、亞洲和美洲大陸對全球健康構成威脅。

根據世衛組織發布的《2020年世界瘧疾報告》,2019年全球共報告了2.29億例瘧疾病例和40.9萬人死亡。1大多數瘧疾病例(93%)和瘧疾死亡(94%)發生在世衛組織非洲區域,而世衛組織其他區域占其餘比例。1盡管取得了顯著的進展,但近年來,全球在防治瘧疾方麵取得的進展已趨於平穩,許多沉重的負擔正在減輕。與瘧疾的鬥爭已經到了一個十字路口。1世界沒有達到到2030年將瘧疾病例和死亡率降低90%的裏程碑。如果不采取大規模協調行動,世界就不可能實現世衛組織《2016-2030年全球瘧疾技術戰略》的目標。2根據世衛組織的模型分析,COVID-19大流行進一步複雜化了瘧疾問題。世衛組織最近的報告特別提到COVID-19大流行和瘧疾,由於驅蟲蚊帳運動中斷和抗瘧藥物獲取中斷,世衛組織非洲區域的瘧疾死亡人數可能會增加一倍。

曆史上,瘧疾是中華人民共和國最流行的寄生蟲病之一。然而,經過多年抗擊瘧疾,中國政府通過有效的治療和病媒控製措施,在降低瘧疾發病率方麵取得了顯著進展。病媒控製措施包括減少蚊蟲滋生地,開展基層抗瘧運動。3.2010年,中國政府啟動了國家消除瘧疾計劃。4 - 62017年,中國本土瘧疾病例大幅減少至零,這標誌著中國成為有可能實現世衛組織認證的消滅瘧疾計劃的21個國家之一。7然而,進口惡性瘧原蟲許多省份的瘧疾病例有所增加,這對實現無瘧疾地位構成挑戰,並可能導致在一些國家已確定的瘧疾重新出現的另一種情況。8 9中國的監測係統用於檢測輸入性瘧疾病例,但可能遺漏一些病例。蚊子仍然存在,有能力傳播未被發現的輸入性瘧疾病例。

21世紀初,安徽、河南兩省再次出現瘧疾。它的重新出現是由於氣候變化,人口流動,按蚊蚊子的抗藥性也在增加。10 11瘧疾在黃淮地區的暴發和複發是由於瘧疾發病率的增加按蚊sinensis一個。中國).重新出現與間日瘧原蟲以及向量容量的增加一個。中國12日13氣候條件作為本研究的相關因素,為蚊子的繁殖和生存提供了有利條件,從而促成了瘧疾的再次出現。14許多研究試圖確定和評估氣候因素對中國瘧疾發病率的影響。15 - 17日一些研究報告瘧疾病例的年內變化可能與環境溫度、降水、相對濕度、風向、日照時數和風速的變化有關。然而,這些發現在觀察到的關鍵因素和估計的相應影響上是不一致的。Zinszer18回顧了以前發表的有關預測瘧疾發病率的不同方法和因素的研究。大部分預測因子與氣候因子有關。統計、數學、機器學習和深度學習模型已被應用於這些氣候預測器,以提高瘧疾發病率的預測精度。王19提出了一種傳統時間序列和深度學習模型的集成方法,利用雲南省瘧疾和氣候數據提高瘧疾發病率的預測性能。研究將時間序列和深度學習模型如自回歸綜合移動平均(ARIMA),季節和趨勢分解黃土綜合移動平均(STL+ARIMA),反向傳播人工神經網絡和長短時記憶(LSTM)網絡分別應用於準備好的數據。采用不同的評價方法對各方法的預測精度進行比較。梯度增強回歸樹結合了不同的模型,並使用氣候數據和瘧疾發病率進行訓練。該模型優於傳統的時間序列和深度學習方法。Nkiruka20.提出了一個機器學習係統來評估氣候因素與瘧疾發病率之間的關聯,發現降雨、地表輻射和溫度影響瘧疾疾病的爆發。

瘧疾發病率和氣候因素之間的關係是複雜的,不能很容易地擬合經典的預測方法和機器學習算法。為了通過卓越的性能預測瘧疾發病率來降低這種關係的複雜性,深度學習模型通過與訓練數據交互,在醫療保健領域提供了更多優勢。與統計和數學方法相比,深度學習模型給出了更準確的預測。通過更深層的隱藏層,深度學習方法幫助我們對護理過程、診斷和預測獲得前所未有的見解,並可以從醫療數據中獲得意義。將深度學習模型應用於直接傳播傳染病的預測。21一些先進的深度學習模型,如LSTM和具有大量離散時間步長的門控循環單元(GRU)循環神經網絡,已被用於預測流感、登革熱發病率和手足口病等傳染病。LSTM模型在預測精度和均方根誤差(RMSE)方麵優於其他機器學習模型。22日至26日在這項研究中,我們確定並評估了氣候因素作為可能有助於瘧疾在中國再次出現的預測因子。利用氣候因素與瘧疾發病率的關係對構建的深度學習序列序列模型(LSTMSeq2Seq)進行訓練,並通過預測中國瘧疾的再次出現來評估模型的性能。

方法

患者和公眾參與

涉及任何病人。

數據采集和數據預處理

我們收集了2004年1月至2016年12月中國所有31個省份的每月瘧疾病例。數據集包含四類瘧原蟲物種是惡性瘧原蟲間日瘧原蟲三日瘧原蟲和其他瘧原蟲物種。的瘧原蟲物種類別命名為其他可以P.ovale諾氏瘧原蟲或不明物種類型。中國大陸所有31個省份的瘧疾病例均來自中國疾病預防控製中心(www.phsciencedata.cn27提供傳染病數據庫。這31個省份的氣象資料由中國氣象資料服務中心(http://data.cma.cn/en).28所有氣象數據特征均保留了氣壓、平均氣溫、最高氣溫、風速、最低氣溫、風向、降水量、平均相對濕度、日照時數、最小相對濕度10個氣象變量,無缺值。為了防止深度學習模型在訓練時過擬合,我們使用特征選擇去除冗餘屬性。利用高相關濾波和低方差濾波對部分氣象變量進行了簡化。四個變量(即壓力、風速、風向、日照時長)在所有研究區域中方差最小,因此被丟棄。我們總共考慮了10個有效特征(即6種氣象特征和4種瘧疾寄生蟲),如圖1

圖1

廣東的氣候變量和惡性瘧原蟲用來訓練模型。ARH:平均相對濕度;Avt,平均溫度;MaxT,最高溫度;薄荷,最低溫度;MRH,最小相對濕度;惡性瘧原蟲,即惡性瘧原蟲。

Train-validation-test分裂

為了訓練和評估本文提出的機器學習和神經網絡框架,我們將數據集分為訓練集、驗證集和測試集。在我們的實驗中,整個數據集的70%被用來訓練模型。我們已經分配了15%的數據集用於驗證。在每個訓練曆元之後使用驗證集來評估模型,並確保模型沒有過擬合訓練數據集。在模型完成訓練後,將剩餘15%的數據集作為測試集對模型進行評價。在拆分之前,數據不會被打亂,以確保驗證集和測試集的結果更真實。我們將2004年1月1日至2012年12月31日期間分配給訓練集,並將2013年1月1日至2014年12月31日期間分配給驗證集。剩下的時間分配給測試集。

預測模型

本研究提出了一種基於LSTM神經網絡的序列對序列(Seq2Seq)預測模型。該模型將考慮氣象因素對中國31個省份瘧疾病例的影響,用於瘧疾病例再次出現的預測。我們將我們構建的LSTMSeq2Seq遞歸神經網絡的性能與其他機器學習和深度神經網絡預測模型進行了比較,包括XGBoost(極端梯度boosting)、GRU網絡和LSTM網絡模型。下麵是我們提出的Seq2Seq模型以及其他使用的模型的簡要描述。這些模型在預測、診斷和控製傳染病方麵取得了最好的效果。

XGBoost模型

XGBoost是一種靈活且易於解釋的集成機器學習算法。它提供了一個有效的梯度提升機器學習模型的實現,認為在醫療保健行業是勝任的。公共衛生方麵的大量研究應用了基於XGBoost的框架,以利用數據來源和預測登革熱等傳染病。XGBoost模型在預測登革熱或西尼羅河病毒引起的病媒傳染病方麵可以取得令人難以置信的成績。29它已被用於傳染病的預測、預防和早期診斷30 31和非傳染性疾病。32通過對梯度助推模型中的超參數進行調整,優化了XGBoost模型,獲得了我們研究中最佳的性能。在測試了幾個XGBoost參數和作為輸入的時間步數後,我們選擇100棵樹作為估計器的數量,以避免過擬合。我們使用scikit-learn中的GridSearchCV方法來調整超參數,學習率為0.8,最大深度為8。該方法大大降低了XGBoost模型的預測誤差。我們使用確定的月度觀察類型瘧原蟲發病率(惡性瘧原蟲間日瘧原蟲三日瘧原蟲以及在我們的實驗中命名為other的另一類)和氣候變量,如最高溫度、平均溫度、最低溫度、平均相對濕度、最小相對濕度和降雨量,來訓練XGBoost方法,並評估其在測試數據集上的性能。

LSTM模型

LSTM描述了一種長短期記憶神經網絡,屬於一類遞歸神經網絡(rnn)。RNN可以利用以前的數據來處理當前的數據。它已有效地用於解決連續時間序列的問題,如氣候模擬、網絡流量預測、金融預測、神經科學、入侵檢測、異常檢測、空氣質量預測、醫療監測等。同時,RNN在處理長期依賴序列時存在梯度消失和爆炸問題。LSTM是一種智能循環神經網絡,通過依賴記憶細胞來專門解決梯度消失問題,記憶細胞具有存儲網絡時間狀態的自連接,並由一組三門控製:輸入、輸出和遺忘。這些門和存儲單元可以長時間記錄信息,從而解決了長期依賴的問題,並可以預測下一次時間特征,這意味著它可以根據時間序列的前一個值預測下一次時間步長。LSTM成功地從具有長期時間依賴性的數據中學習的能力使它成為時間序列預測的自然選擇。該模型在預測登革熱等病媒傳染病方麵取得了卓越的成績33是一種潛在的兒童傳染病深度學習預測模型。最近,它已被應用為預測新冠病毒的最先進的深度神經網絡之一。34-36我們開發了一個包含128和32個存儲單元的兩層LSTM模型,使用32批大小和1000個epoch的診斷。的四個類中的每個類都包含7個輸入參數瘧原蟲物種,惡性瘧原蟲.我們每月觀察惡性瘧原蟲發病率、最高氣溫、平均氣溫、最低氣溫、平均相對濕度、最低相對濕度和降雨量為當月輸入向量序列。

格勒烏模型

GRU是一種改進的遞歸神經網絡,是LSTM的一種簡單變體,它將輸入門和遺忘門組合成一個單獨的門,稱為更新門。GRU由更新門和複位門組成,由於沒有額外的存儲單元來保存信息,所以隻能控製單元內部的信息。研究人員已經將這個框架應用於預測流感等傳染病。37對於GRU模型,我們使用了與LSTM模型相同的超參數。我們使用12個月作為GRU模型的輸入,下一個月作為輸出來創建訓練數據集。相同的輸入向量序列如下所示圖1的四個類中的每個類都包含七個輸入參數瘧原蟲物種和六個氣候變量。將最高氣溫、平均氣溫、最低氣溫、平均相對濕度、最小相對濕度和降雨量6個氣候變量在GRU模型上進行訓練,並對其性能進行測試。

LSTMSeq2Seq模型

直覺上,預測時間序列有兩種不同的任務:通過觀察過去的已知值來理解已經發生了什麼,以及預測未來將發生什麼。這兩個任務需要兩種不同的技能集。第一種能力是審視過去的價值觀,並對當前係統的狀態產生一種想法。第二種是利用對係統當前狀態的理解來預測係統未來將如何發展的能力。正如我們前麵提到的,LSTM預測下一次時間特征,這意味著它隻能預測輸入的下一次時間步的屬性。當我們在我們的模型中使用單個LSTM單元格時,我們要求它能夠記住過去的主要事件,並使用這些事件來預測未來的值。與單個LSTM不同,我們可以使用一個Seq2Seq模型,該模型有兩個專門的LSTM細胞,能夠預測多個時間步驟,而不是隻有一個多任務細胞。Seq2Seq指的是神經網絡擬合的序列到序列的架構。該架構支持任意長度序列之間的映射。因此,Seq2Seq可以執行很多任務,包括語言翻譯、圖像字幕和時間序列預測。 The Seq2Seq architecture is made up of an encoder and a decoder, as illustrated in圖2

圖2

長短時記憶(LSTM)序列對序列的結構。

LSTMSeq2Seq模型由編碼器LSTM cell和解碼器LSTM cell兩大部分組成。編碼器輸出編碼器矢量作為輸入到解碼器塊。解碼器對輸入向量進行編碼,並預測下一個時間步長輸出。隨後,如果Xt是輸入下一個特征序列,然後輸出LSTM序列模型Xtt + 1作為下一個時間步特征。

以下是編碼器和解碼器網絡的公式。

嵌入式圖像 (1)

在哪裏HEt表示時間步長t時的當前隱藏狀態,W舊的隱藏狀態在時間步長的權重是合適的嗎t -1,Wx表示輸入向量的適當權重Xt

式(1)給出了利用編碼器公式的普通遞歸神經網絡的一般序列的結果。隻需要對之前的隱藏狀態應用適當的權重HEt−1輸入向量Xt

嵌入式圖像 (2)

在哪裏HDt當前的解碼器是隱藏狀態嗎,我們隻是在某一時刻使用舊的輸入向量的隱藏狀態t-1來計算下一個和f是參數的函數。

(2)式是預測每個輸出的大量遞歸的堆棧yt在時間t作為解碼器的公式。每個迭代單元從舊單元接受一個隱藏狀態,並生成它的隱藏狀態。

輸出yt在時間步t計算公式(3)

嵌入式圖像 (3)

yt最終輸出狀態是否為時間步長t計算使用softmax(用於創建一個概率向量,這將幫助我們確定最終輸出)函數及其各自的權重W年代

式(3)利用每個權值對應的當前時間步隱藏狀態來計算輸出W年代

我們設計了一個可以回顧12個月曆史數據的編碼器和一個可以預測6個月數據的解碼器t +12個月作為譯碼器的輸入,如圖所示圖2我們設計的LSTMSeq2Seq模型t +12時間步長是編碼器的矢量,被用作輸入到解碼器和LSTM解碼器單元預測接下來的6步t +1到t +瘧疾發病率6。除了dropout,在GRU、LSTM和LSTMSeq2Seq模型中,通過L1正則化和L2正則化來避免過擬合,防止每個網絡的權值過高。每一層的高參數值會導致網絡嚴重集中在少數幾個特征上,從而導致過擬合。權值正則化對較大的權值增加了網絡的損失函數的代價。因此,模型被迫隻學習訓練數據中的相關模式。

模型驗證

利用兩個指標的損失函數評分,我們評估了基於氣象因素的瘧疾發病率再次出現預測方法的性能。首先,我們通過測量預測誤差值和觀測誤差值的平均差,將RMSE作為評估連續變量的基礎。

嵌入式圖像 (4)

在哪裏yt瘧原蟲病例觀察的時間t,ŷt為模型預測的病例數。較低的RMSE值表明在預測之間有輕微的差異瘧原蟲實例和實測數據表明,該模型具有較高的預測精度。其次,采用平均絕對誤差(mean absolute error, MAE)對序列的預測誤差進行數值估計,並計算誤差之間的平均值瘧原蟲對當前時間步長的觀察案例和預測案例。

嵌入式圖像 (5)

結果

LSTMSeq2Seq與候選模型的比較

我們使用Python (V.3.7.1)進行所有實驗,並通過穀歌用於深度學習的應用程序編程接口Tensor Flow (V.2.0.0)對GRU、LSTM和LSTMSeq2Seq模型進行建模。我們還使用了Keras (V.2.3.1),一個用於LSTM模型開發的深度學習庫(Chollet, 2015)。

本研究的主要目的是利用LSTMSeq2Seq神經網絡,利用中國大陸31個省份的氣候因子和瘧疾發病率,建立瘧疾病例再次出現的準確預測模型。我們應用了幾個機器學習和深度學習預測模型來實現我們的目標。利用上述評價指標(RMSE和MAE),我們對XGBoost、GRU、LSTM和LSTMSeq2Seq四種訓練模型的性能進行了評估。從表1 - 4,我們展示了每個模型的RMSE/MAE,其中LSTMSeq2Seq方法在幾乎所有省份和所有4個物種中都顯示出比其他方法更低的誤差瘧原蟲瘧疾。由於LSTMSeq2Seq可以通過學習氣候變量對瘧疾發病率的特征和波動,提高對未來病例的預測精度,在多個省份的預測誤差明顯下降。以下圖3舉例說明了預測結果的實例惡性瘧原蟲間日瘧原蟲, P。malariae等基於LSTMSeq2Seq預測模型。y軸表示每一種瘧疾的月病例數瘧原蟲.曲線顯示,峰值向下移動為間日瘧原蟲由於預測的時間步長具有較準確的季節波動惡性瘧原蟲.我們選擇了參加的省份圖3根據以往研究得出的兩個瘧疾高危區38 39:中國中部淮河沿岸地區,包括河南、湖北、安徽、江蘇等省;西南及南部地區,主要包括廣東、廣西、海南、雲南等省。間日瘧原蟲第一地區氣候為亞熱帶濕潤至半濕潤季風氣候,為優勢種;LSTMSeq2Seq模型在大部分省份的預測準確率為87.3%,優於其他候選模型。整個研究中性能從高到低的依次是LSTMSeq2Seq、LSTM、GRU和XGBoost。LSTMSeq2Seq生成的最小RMSE值為0.0252、0.0107、0.0586和0.0077惡性瘧原蟲間日瘧原蟲三日瘧原蟲和其他瘧原蟲,分別。LSTMSeq2Seq模型將預測的平均RMSE降低了19.05%至33.93%,18.4%至33.59%,17.6%至26.67%,13.28%至21.34%,for惡性瘧原蟲,間日瘧原蟲,瘧疾瘧原蟲和其他瘧原蟲,分別與其他候選模型進行比較。

表1

利用RMSE和MAE對模型性能進行了比較惡性瘧原蟲使用氣候變量

表2

利用RMSE和MAE對模型性能進行了比較間日瘧原蟲使用氣候變量

表3

利用RMSE和MAE對模型性能進行了比較malariae使用氣候變量

表4

利用根RMSE和MAE對其他模型進行預測的模型性能比較瘧原蟲利用氣候變量的物種

圖3

預測病例為4例瘧原蟲類型使用長短時記憶序列對序列模型。

自2008年以來,峰值下降為P.vivax在不同地區有明顯的減少,但為惡性瘧原蟲在美國,這種趨勢的增加可能是由於除氣候預測因素外的其他因素,比如2013年廣西的發病率最高,因為中國勞動力從加納淘金回國。然而,……的增長趨勢惡性瘧原蟲LSTMSeq2Seq能較好地預測廣東、海南和江蘇地區的案例,其預測精度優於傳統機器學習模型,優於深度學習前沿模型。因此,LSTMSeq2Seq可以有效地應用於瘧疾發病省份瘧疾複發的預測。

討論

本研究評估了影響瘧疾複發的氣候因子,構建了先進的LSTMSeq2Seq深度神經網絡模型,對中國31個省份的瘧疾複發進行了預測。我們將LSTMSeq2Seq模型與本研究中應用的其他機器學習模型的性能進行了比較。2014年國際氣候變化專門委員會的報告暴露了氣候變化與瘧疾負擔顯著增加之間的關聯。40 41以前的研究表明,氣候因素不是瘧疾再次出現的唯一原因,因為其他非氣候因素也負有責任。41除了氣候變化外,瘧疾的重新出現還受到人口結構變化、旅行和貿易增加等其他全球變化的影響。雖然這些非氣候因素在時空上影響瘧疾傳播,但氣候因素通過為蚊蟲媒介活動和傳播提供適宜的環境而促進傳播瘧原蟲導致易感人群增加的潛伏期基於這些研究結果,我們利用深度學習模型在處理大數據集方麵的優勢,並利用它們來研究氣候因素對瘧疾再次出現的影響。研究人員利用不同地區的氣候決定因素和瘧疾發病率數據開發了瘧疾預測模型。然而,據我們所知,利用氣候決定因素和中國所有31個省份的瘧疾發病率數據,利用LSTMSeq2Seq模型構建瘧疾再次出現的預測模型尚屬首次。通過與其他候選模型的性能比較,LSTMSeq2Seq模型在大多數省份對不同瘧原蟲種類的預測誤差值較低。LSTMSeq2Seq在捕捉趨勢和季節模式方麵表現出了出色的能力,特別是對於間日瘧原蟲而且三日瘧原蟲,作為大多數間日瘧原蟲病例為本地病例,受氣候因素影響惡性瘧原蟲病例可能會輸入,並受到其他全球變化因素的影響。氣候因子是瘧疾發病率的有效預測因子,並對LSTMSeq2Seq循環神經網絡模型在捕捉季節模式和趨勢和預測瘧疾發病率方麵有顯著影響。

然而,由於某些省份的瘧疾病例較少,Seq2Seq深度神經網絡的數據集相對較小,GRU和XGBoost在某些情況下的RMSE/MAE值低於本文提出的方法。即便如此,LSTMSeq2Seq模型產生了更好的預測結果,並優於其他候選模型瘧原蟲種分布於中國許多省份。然而,為了進一步改善中國瘧疾複發的預測,我們未來的研究將考慮人口流動、人口轉移、土地利用變化和內亂等氣候和非氣候因素。通過考慮可能導致瘧疾發病率重新出現的其他潛在因素,我們將增加數據集的規模,並提供更多的模式瘧原蟲物種。我們還將考慮一種被稱為遷移學習的深度學習技術。該技術利用學習到的與新象牙相關的象牙來加速其訓練,提高其預測精度。將LSTMSeq2Seq模型在瘧疾高發地區的預測誤差值轉移到瘧疾高發地區,從而降低了LSTMSeq2Seq模型在瘧疾高發省份的預測誤差值。本研究基於LSTMSeq2Seq模型,利用長期時間序列瘧疾病例和氣候變量數據,實現了對中國瘧疾病例的準確預測。該方法可用於其他類瘧疾疾病的大規模預測。

這項研究有一些局限性。首先,LSTMSeq2Seq比其他使用的深度學習模型需要更多的時間進行訓練。要為所有31個省從頭開始訓練LSTMSeq2Seq,四種類型的測試需要2周的時間瘧原蟲在我們的研究中使用,而其他模型需要幾個小時到幾天的時間,使用瘧疾病例和氣象變量的數據來訓練它們。在大多數情況下,LSTM比LSTMSeq2Seq模型快7倍。然而,這種影響模型在瘧疾病例較少的省份並不顯著。其次,本研究中的任何一個模型在某些省份都無法獲得準確的預測結果,這可能是由於我們沒有獲得其他相關的潛在非氣候因子。

結論

瘧疾仍然是一個公共衛生負擔,可通過許多因素的影響廣泛傳播。為了減輕這一負擔,預測瘧疾的再次出現並采取嚴格的控製措施是非常重要的。在本研究中,我們提出了一個能夠有效預測中國大陸瘧疾發病率的LSTMSeq2Seq模型,探討了氣候因子對中國大陸瘧疾複發的影響瘧原蟲種分布於全中國31個省份。我們比較了典型的機器學習和其他遞歸神經網絡模型與LSTMSeq2Seq方法的性能。值得注意的是,本文觀察到的預測性能表明,LSTMSeq2Seq預測性能優於其他候選模型。因此,LSTMSeq2Seq模型可以有效地應用於瘧疾再次出現的預測。

數據可用性聲明

數據在公共的、開放訪問的存儲庫中可用。中國大陸所有31個省份的瘧疾病例是通過https: www.phsciencedata.cn和氣象數據獲取的https://data.cma.cn/en

倫理語句

發表患者同意書

倫理批準

該研究方案得到了中國青島大學複雜性科學研究所機構評審委員會的批準。

參考文獻

腳注

  • 推特@kameri16

  • 貢獻者EK對數據進行了分析和預處理,對模型的性能進行了訓練和評估,並對結果進行了解釋和撰寫稿件。JZ監督、協調整個研究的設計,審閱和編輯稿件。JZ是擔保人。DB收集了本研究使用的數據。所有作者已閱讀並同意提交版本的手稿。

  • 資金本文資助項目為山東省自然科學基金(ZR2018MH037)。

  • 相互競爭的利益沒有宣布。

  • 患者和公眾參與患者和/或公眾沒有參與本研究的設計、實施、報告或傳播計劃。

  • 出處和同行評審不是委托;外部同行評議。