條文本

使用決策樹來理解結構缺失的數據
  1. Nicholas J Tierney1,2,
  2. 霏歐納一個硬3,4,
  3. 莫裏斯·J變硬5,
  4. Kerrie L Mengersen1,2
  1. 1統計部門科學、數學科學、科學與工程學院,昆士蘭科技大學的,昆士蘭州布裏斯班、澳大利亞
  2. 2電弧中心卓越的數學和統計前沿(ACEMS),澳大利亞昆士蘭州布裏斯班
  3. 3教師的健康,臨床科學,昆士蘭科技大學的,昆士蘭州布裏斯班、澳大利亞
  4. 4健康和生物醫學創新研究所的澳大利亞昆士蘭州布裏斯班
  5. 5獵人工業醫學,新南威爾士州紐卡斯爾、澳大利亞
  1. 對應到Nicholas J Tierney;nicholas.tierney在{}qut.edu.au

文摘

目標演示的應用決策trees-classification和回歸樹(車),和他們的近親,提振了回歸樹(brt係統)——理解結構缺失的數據。

設置數據取自澳大利亞員工在三種不同的工業場所。

參與者7915觀察被包括在內。

材料和方法的方法是使用一個職業衛生評價數據集組成的問卷調查的結果,醫療測試和環境監測。統計方法包括標準統計檢驗和“rpart”和“綠帶運動”的購物車和BRT分析包,分別統計軟件的“R”。模擬研究探索的能力與missingness人為引入決策樹模型在描述數據。

結果車和BRT模型有效地突出missingness結構數據,相關的數據類型(醫療或環境),該網站收集,訪問的數量,和極端的存在價值。仿真研究表明車模型能夠識別負責誘導missingness變量和值。有更大的變化對非結構化和結構化missingness變量的重要性。

討論車和BRT模型有效地描述結構性missingness數據。車模型可能優於BRT模型缺失的數據進行探索性分析,並選擇變量對預測missingness很重要。BRT模型可以顯示值missingness其他變量的影響,這對於研究人員可能有用。

結論鼓勵研究人員使用購物車和BRT模型來探索和理解缺失的數據。

  • 流行病學
  • 職業與工業醫學
  • 公共衛生
  • 統計數據和研究方法

這是一個開放的分布式條依照創作共用署名非商業性(4.0 CC通過數控)許可證,允許別人分發,混音,適應,建立這個工作非商業化,和其派生作品在不同的條款進行許可,提供了最初的工作是正確地引用和非商業使用。看到的:http://creativecommons.org/licenses/by-nc/4.0/

來自Altmetric.com的統計

請求的權限

如果你想重用任何或所有本文的請使用下麵的鏈接,這將帶你到版權稅計算中心的RightsLink服務。你將能夠獲得快速的價格和即時允許重用內容在許多不同的方式。

本研究的優點和局限性

  • 此研究表明,該實用程序在使用統計方法來確定變量決策樹和價值觀缺失的數據有關的數據集。

  • 這項研究並沒有解決缺失的數據是否丟失完全隨機(MCAR),隨機缺失(MAR)或失蹤不是隨機(MNAR)。

背景和意義

這個調查的激勵問題是職業衛生數據的分析和報告。7915健康變量的觀測數據集包括報道個別工人在監測站和相應的環境變量記錄,三個工地在澳大利亞,從2006年到2013年。在每個站點,員工被分為相似的暴露組(之後),基於職業暴露的類型。例如,在政府工作的,是在“支持”賽格,和那些驅動大型建築車輛在“生產”凹陷。在研究的時間段,人均醫療訪問範圍從1到8。健康數據包括肺功能指標、身體質量指數(BMI)、膽固醇、心髒功能和血壓,聽力,和心理措施如嗜睡、焦慮和抑鬱。環境暴露數據包括措施可吸入性呼吸道塵埃,和噪音。

這個數據集可能是富含能夠揭示健康和環境變量之間的關係,健康檔案的差異之後,和個別員工健康風險概況。然而,有大量的數據缺失的數據集,大約63%的數據丟失。這裏缺少的數據每一行的比例計算觀測變量,每一行的數量除以總數量的連續變量。因此,任何分析之前,重要的是要理解這個missingness的結構和可能的潛在影響的分析和合成估計。

標準方法,當看到這些數據可能是運行一個肺功能的線性回歸預測的變量如年齡、性別、凹陷、吸煙狀況和體重指數。然而,標準線性回歸估計方法需要完整的數據,所以情況下不完整的數據將被忽略,導致偏見時數據丟失而不是隨機隨機(MNAR)或失蹤(MAR),和一個失去動力時數據丟失的完全隨機(MCAR)。1 - 3雖然方法等多重填補方式可以用來轉嫁缺失值,必須注意避免偏見。2

缺失的數據觀測數據中無處不在。三種缺失的數據通常是確定的。4第一個是MCAR, missingness沒有與觀察到的或未被注意的數據。例如,評估肺功能在工作場所可能失蹤工人度假。如果沒有已知或可測量的關係測試的時間和假期的時間,如果工人的其他相關特征度假時的測試類似於其他工人,那麼這些缺失的數據可以被視為MCAR。第二類是3月這是一個更具體的MCAR missingness取決於數據的觀察,而不是數據未被注意的。例如,如果丟失的肺功能數據發生在工人正在評估抑鬱,如果沒有肺功能和抑鬱之間的關係,那麼它就可以被認為是3月第三類MNAR, missingness的響應與一個未被注意的價值評估相關的興趣。例如,如果BMI是感興趣的,但是那些有特別大的BMI指數更有可能丟失的身體質量指數數據,這些數據可以視為MNAR。重要的是,研究人員認識到MNAR介紹偏差的估計協會和感興趣的參數。例如,如果肺功能和身體質量指數負相關,估計體重指數基於MNAR可能太低了。

這三個品種的缺失數據可進一步分為一個可知的結構(MAR)或未知結構(MAR或MNAR)、流程驅動數據成為失蹤是已知的或未知的,5和結構是指可能影響missingness的變量和交互數據MCAR沒有結構,因為它們是失蹤沒有任何其他變量的依賴。確定這是已知或未知的重要判斷偏差可能會引入分析。

missingness的例子

規範缺失的數據來源是問卷調查。從問卷調查獲得的數據往往是未知和已知的missingness結構。例如,MCAR數據可以從受訪者出現意外沒能回答問題或無意中提供不適當的答案。另一方麵,3月數據可能出現由於問卷的結構。例如,在調查的第一個問題可能是:“如果是的,跳過問題4”,導致問題2和3人失蹤。如果問卷的結構是已知的,這種類型的missingness很容易被評估。然而,如果這些信息不可用,負責生產的機製缺失的數據必須從數據推斷。

另一個常見的已知和未知來源結構化missingness體檢數據。特定的醫學測試的結果可能是:沒有原因純粹隨機(MCAR),由於過程(3月),或基於決策引起的觀測數據(MNAR)。例如,如果一個工人很年輕,他們可能不受神經退行性測試預留給老員工,導致3月或MNAR數據,根據分析的目的。最後一個例子是輟學在縱向的一項研究中,參與者不換取未來測試會話。在這種情況下,它是困難的,有時是不可能的,以確定輟學的原因,因此,missingness是否已知或未知的,或MCAR, 3月或MNAR。然而,這確定是至關重要的,如果估計基於這些數據被認為是公正的。5 - 7

現有的方法來處理缺失數據

測試確認是否MCAR數據非常有用,因為他們打開門使用多個歸責標準技術。所述,6一個標準的方法來確定數據是否MCAR隻有一個變量時,y,缺少從一個數據集比較這些變量完全觀察到反應者和無使用t測試比較的差異意味著,或χ2的不同預期。證據數據MCAR觀察到顯著差異時提供。這種方法可以擴展到多個變量有缺失值的情況,在與給定變量樣本分為例觀察,或失蹤。盡管這個過程信息,它的收益率p−1測試(p是變量)的數量為每個變量和p (p−1)統計評估MCAR假設。推理在所有這些測試是有問題的測試相關的方式依賴於模式的缺失數據和協會y變量。這缺乏獨立性的影響第一類錯誤的概率(即錯誤申報統計意義),並使其難以獲得清晰的推理missingness的性質,如我們的結果部分。

為了解決這一問題的過程,小MCAR提出了一個檢驗統計量測試。這涉及到一個平等的評價意味著發現缺失的數據組之間。拒絕這個測試結果數據沒有MCAR提供強有力的證據。小的測試MCAR今天被廣泛使用,特別是在社會科學8和醫學研究。9

最近的研究也提供了統計測試和軟件評估缺失的數據通過模式,意味著平等、和方差的同質性,允許非正態數據。這是實現,例如,在MissMech包R統計軟件,10它使用歸責(從正常或非正態分布)比較均值和方差。這些測試使研究者能夠確定是否有足夠的證據數據聲明為MCAR。然而,理解如何以及為什麼missingness正在生成可以變得艱苦時處理更大的數據集,因為他們可以有許多missingness模式,使推理同樣困難的原因有p變量和p (p−1)統計,正如前麵所解釋的那樣。

此外,依賴統計顯著性測試評估數據是否丟失可能無法解決設置missingness那裏可能不重要,但一個完整的案例分析仍可能導致偏見。11方法更好地理解missingness容易理解和實現,因此在需求。

通用的方法處理缺失數據,如完整的案例分析,失蹤的指標方法,最後一例結轉時已經被證明是可以接受的數據是MCAR。12,13話雖這麼說,現在大多數的建議是使用多個非難,但受製於一些護理時隻減少偏見的分析數據是3月或MCAR;多個非難也需要包含在變量影響missingness歸責模式。1 - 4,14當MNAR數據時,可以使用多個歸罪但需要已知MNAR機製,在實踐中不經常進行。3改善missingness結構的理解在一個數據集允許適當考慮其他多個歸責方法,或其他方法將部分觀測變量,如隨機效應模型、貝葉斯方法、重量降低分析,混合模型或模式。2,15,16

有各種方法和包專門開發探索缺失的數據,和合成歸責方法。這些包括:R包VIM,阿米莉亞,mi,馬奈計劃,17以及獨立software-MissingDataGUI。21頁這些包方便的圖形勘探數據之前和歸責missingness評估趨勢和原因後,分別和歸責準確性。這些方法要求用戶視覺搜索並找到missingness趨勢,並推斷出有趣的結構。17,22雖然人類是非常善於模式、模型驅動的方法提供了一個更精確的和更自動框架探索缺失的數據。我們建議使用決策樹作為輔助工具來執行此操作。

客觀的

特別是決策樹分類和回歸樹(車),和他們的近親,提高回歸樹(brt係統),是眾所周知的統計非參數技術檢測結構數據。23決策樹模型是由迭代確定這些變量和它們的值將數據分成兩組,這組內的反應是最均勻,有團體之間的差距最大。23日本文演示了車和brt係統的應用程序在理解缺失數據的結構。

材料和方法

決策樹模型通常表示為樹狀結構。車分析通常返回單個與多個分裂樹,描繪成多個分支機構。種植一棵樹需要遞歸分區響應分為兩部分基於某種價值的最佳分割數據的變量。選擇變量和分割點優化給定的擬合優度的標準,比如最小化殘差平方和連續數據,或衡量節點純度(如基尼係數或叉)分類數據。23,24這個遞歸分區一直持續到選定的停止規則,比如當有少於10觀察每個最終partition-terminal節點。24,27

最後的樹的深度,這棵樹的複雜性,是衡量的總數將由各種擬合優度措施旨在平衡精度的估計和吝嗇。大型車模型可以適應生長數據很好,導致過度擬合和降低能力準確地適應新的數據(魯棒性)。改善車模型的魯棒性,可以使用交叉驗證和cost-complexity修剪,生長在其中的模型數據的子集,然後使用標準來選擇一些“最佳”模型,最好減少cost-complexity參數。24,25,27,28

決策樹的一個有用的特性是他們處理缺失數據的方式。而一些方法,如線性回歸,通常默認為隻使用完整的數據預測的結果,決策樹使用代理分割方法。這意味著當一個變量的值是失蹤,這需要使用變量來確定分割,與失蹤的另一個變量是高度相關的變量用於確定分割的方向。24

車相比,順序通常生成許多BRT分析變得簡單樹基於隨機樣本數據。每個順序生長樹關注錯誤之前的樹,導致模型,強調觀察模仿不善的現有樹的集合。提高模型返回一個用於創建的變量列表分割在不同的樹。然後相對權重的計算為每個變量通過乘以一個變量的平均數是選擇分裂平方加權的改進模型從每個分裂和總結100。29日更大的重量顯示更強的影響力。

提高了回歸樹需要的參數學習速率和樹的複雜性。值得注意的是,這些術語也被稱為收縮參數和樹的複雜性,分別。學習速率控製多少每棵樹有助於模型的發展。一般來說,一個更小的學習速率提供了更好的預測比一個更大的學習速率。樹複雜性集交互模型中安裝的數量,在一棵樹的複雜性兩個允許雙向交互,三個允許三方互動,等等。26BRT模型中創建可重複的結果需要設置一個隨機種子,隨著過程用於創建BRT模型涉及到隨機二次抽樣的數據。

而產生的單樹車分析吸引人,他們不太能夠預測的線性關係,對數據的微小變化非常敏感,可能提供一個“真實”的模型的簡化。30.相比之下,BRT分析能夠更好地描述線性關係和更健壯的預測準確性,雖然解釋能力受到了影響。26使用購物車和BRT模型提供了補充inference-one是簡單但提供可解釋性,另提供複雜度和魯棒性,但在減少可解釋性。

購物車和BRT模型應用於案例研究數據,使用每分錢每行數據缺失作為響應變量和解釋變量:網站,印尼(獨特的識別號碼),性別、類型(數據)、日期、FVC、FEV1, FVC %, FEV1%, FEV1%, FVC %,賽格,年齡、體重指數、代碼、收縮壓、舒張壓、高密度脂蛋白膽固醇、總膽固醇、心髒風險評分,吸煙、積分尺度睡覺,次級凹陷,K10抑鬱,ETOH酒精,BHL,重複訪問,每周鍛煉,體重、身高、腰圍、血糖水平、脈搏、濃度,LAeq。這些變量表形式在網絡中可以看到補充表S1。

統計軟件包“R”和圖形用戶界麵,“RStudio”是用於分析。31日,32R包“rpart”和“綠帶運動”的被用於購物車和BRT分析。27,33rpart模型處理缺失值通過使用代理分裂:當一個變量的值是失蹤,這需要使用變量分裂,另一個變量與一個類似的分裂屬性用於確定分割的方向。gbm函數也使用代孕分割方法。

當前分析生成購物車模型使用“rpart”中指定的默認值27和BRT模型使用參考26日提供的指導方針,構建包裝上“綠帶運動”。33BRT模型是假設一個高斯誤差分布響應,5的深度互動,學習速率為0.01,裝袋(訓練集觀測隨機選擇的分數)設置為0.5。

當有廣泛缺失的數據,對描述這些變量確定為重要missingness結構也可能丟失。這是觀察到的案例研究,可能會影響結果的可靠性和/或有效性和預測。探討missingness如何可能影響購物車和BRT模型,模擬研究,這樣車和BRT模型應用於小數據集與缺失的數據插入人工。這些都是描述案例研究分析的結果。

如前所述,失蹤的案例研究包含大量數據。0.63缺少總體比例。missingness地圖(從R包“阿米莉亞”,19所示圖1,顯示數據是否丟失(灰色)或(黑),為每一個案件。

圖1

Missingness地圖中的缺失數據的案例研究。橫軸表示數據集合中的變量,和每個人的研究是y軸中的一行。黑色表示顯示數據,灰色表示沒有數據。

結果

作為一個探索性的評估,以確定是否有足夠的missingness保證調查,t測試和χ2測試是用來評估是否存在與否的BMI, FEV1、FVC、FEV1 / FVC,濃度,影響其他變量的平均值(通過t檢驗),或預期的特定因素(通過χ計數2測試)。結果表明,一致受到影響的變量集,表明潛在的missingness模式或結構。在列出這些變量的影響表1。這些變量,其平均值或預期的數量,據報道行業合作者幫助探索缺失數據的原因和考慮重量降低他們在其他分析。

表1

變量的影響存在/ BMI, FEV1、FVC、FEV1 / FVC和濃度

購物車和BRT模型運行在材料和方法部分描述。購物車模型獲得的分析案例研究數據的表示圖2。樹表明類型的數據最好的預測個人的記錄中缺失的數據的比例。有三個主要類別的數據類型:醫學(1型),後續醫療(2型),和衛生或環境暴露(類型3 - 6)。missingness比例為每種類型中可以看到小提琴情節在網上補充圖S1。購物車的預測模型是這樣,當類型是1(醫療數據),缺失數據的比例較低(30%),與正確的分割相比,當數據類型= 2 - 6,(重複醫療和環境暴露;缺失的數據74%)。另一個分裂發生在1型,數據從網站3少缺失的數據(22%)相比,網站1和2 (34%)。另一個分裂的發生基於2型(重複醫療數據)相比,類型3 - 6(環境暴露),數據缺失數據的2型64%,缺失數據和數據類型3 - 6的76%。在2型,有分裂重複訪問,這樣的一個訪問中,有37%的缺失的數據,所有其他訪問(2 - 8)有65%缺失的數據。

圖2

車案例研究數據的分析,表明類型的數據和重複訪問(rpt-visit)是重要的預測因素的比例數據丟失。這三個數字在每個橢圓表示預期的缺失數據比例(道具。小姐)每一行的數據(即個人記錄)和(n)的行數定義的變量用於分裂的標題表1(車、分類和回歸樹;BRT,提振了回歸樹)。

分析巧妙地證明了這種建模方法的實用程序在識別那些重要的變量及其值預測missingness結構。從這個模型,我們可以協商數據收集器來確定數據的“類型”最初是獨立的數據集,然後結合和表示為記錄為每個單獨的(員工),導致許多缺失值/記錄。我們也能夠識別不同的變量測量站點1和2相比,網站3日少,重複測量數據作為測試變得更具體的後續訪問。

圖3提供了一個圖形化的評價模型的購物車和BRT模型。圖3每一行顯示了缺失數據的預測比例根據購物車模型,而觀察到的比例。很明顯,該模型能夠準確地預測缺失數據的大小比例,但不準確預測適度的比例。這個預測分辨率是一個魯棒性之間的權衡的結果,吝嗇,和準確性,反映在樹的修剪的程度。允許更多的分支模型在右邊麵板中圖3提供一個更好的適合觀測數據,但可能導致過度擬合。預測分辨率也使用一個樹的結果而不是多個樹,30.激勵brt係統的配套使用。預測的比較和觀察值的比例BRT的缺失的數據模型圖3B證實,該模型提供了改進的擬合優度。圖3C還顯示購物車和BRT模型主要提供非常準確的模型,與BRT模型相比有相對嚴格的誤差分布更廣泛分布的車模型。

圖3

比較觀察(橫軸)和預測(垂直軸)的比例數據丟失的每一行,基於購物車(A)模型(左上角)和(B) BRT模型(右上角)。所有這些情節有一個小點抖動添加到他們的位置,這樣可以看到重複點。底部麵板(C)也還顯示了巴特和購物車的誤差分布的結果,與具有良好預測(接近0),和車模型有更廣泛的分布(BRT,提振了回歸樹;車、分類和回歸樹)。

BRT模型的結果也給變量的相對重要性在預測缺失數據的比例;圖4。這一分析表明,肥胖(體重指數衡量)和肺功能(衡量FEV1和FVC)是最重要的預測變量missingness。

圖4

在預測變量的相對重要性(RI)的比例根據BRT每行缺失的數據分析。隻有變量與RI > 1的變量包括按照重要性(左到右)體重指數(25.57),殘(25.25),FEV1(預測)的(14.22),FVC (11.34), FVC(預測)(6.266)、式(4.23)、FEV1(百分比)的(1.80),(1.66),吸煙收縮壓(1.58),血糖水平(1.02),K10抑鬱得分(1.00)(BMI,身體質量指數;BRT,提振了回歸樹;殘,用力呼氣量在1 s;FVC、用力肺活量)。

圖5顯示了觀察到的比例missingness相比擬合函數基於BRT模型,前九變量表示圖4。縱軸表示模型的中心預計missingness比例。正如所預期的,這些變量的更明確的非線性擬合函數在BRT分析更有影響力。例如,更多missingness預計在個人高BMI或低肺功能測量。

圖5

擬合函數變量的基礎上提高了回歸樹模型與垂直軸的零點指示模型預計missingness比例。行0.00以上表示missingness超過預期,下麵和線條表示missingness少。注意,類型和吸煙(smok)代表不同,因為它們是離散的,而其餘的是連續的。

模擬研究

兩個實驗探索的能力創建決策樹模型闡明誘導missingness結構。

實驗一

在第一個實驗中,數據集創建的變量煽動missingness要麼(1)不是失蹤,或(2)MCAR 50%。這些新數據集包含五個變量,兩個分類和三個連續的,與1000年的觀察。這兩個分類因素,F1和F2,不等跨類別名義上統一標簽1 - 7,和1 - 10。三個連續變量,C1, C2, C3,是正態分布的手段和SDs 50和10,90和30和3。

這些變量和值被選出來代表特定的變量在我們的數據集。C1:年齡;C2:肺功能;C3:體重指數;外國遊客1:之後;和F2:從測量獲得的分數。變量C1確定C2, C3, F1和F2失蹤,這樣當C1大於55這些變量失蹤概率為0.95。C1被選為missingness煽動者來模擬一個場景,55歲的人並不是衡量各種變量。

購物車和BRT模型評估了100個模擬數據集上的這兩個場景中,結果在哪裏丟失的數據的比例變量C1, C2, C3, F1和F2。

模型的性能在第一個實驗中評價是基於以下標準:

  • 模型的預測變量,C1,負責missingness嗎?

  • 55歲的模型識別閾值為變量導致missingness C1的價值?

如果模型表現良好在第一個實驗中,我們有信心,模型可以識別結構化missingness。

實驗2

第二個實驗探討了決策樹的性能與MCAR數據使用。在第二個實驗中,購物車和BRT模型評估了在兩個數據集,MCAR 20%,或MCAR 50%, 100模擬數據集創建。在這個實驗中,模擬數據集一樣的第一個實驗中有兩個變量,R1和R2,來自一個隨機均勻分布。最後這兩個變量是故意作為“噪音”模擬來協助評估是否過度擬合數據的模型。除了標準用於實驗1,我們評估實驗2基於方差的變量重要性的措施我們感興趣探索這些變量是否一致在一個MCAR場景選為重要。如果是這種情況,那麼我們可以假設決策樹模型隻是撿在噪音,而不是信號。這些變量代表一個小,簡單而真實的數據集,我們會遇到行業網站(除了從實驗變量R1和R2 2)。我們所代表的目的是評估missingness真實數據集,MAR和MNAR MCAR數據進行比較來評估模型的性能。

變量測量重要性為每個模擬數據集,並與案例研究的數據集。仿真實驗研究,BRT模型有一個小互動深度2,而不是5中使用的案例研究分析,仿真研究數據集有更少的變量。

仿真研究結果

在第一個實驗中,兩個1我(不是失蹤),第二部分(50% MCAR),購物車模型確定變量C1負責煽動missingness,滿足標準a CART模型也為C1,正確確定分割閾值時,C1 > 55 missingness數量增加,這滿足了標準b所有發達車模型選擇C1分裂和價值55歲,這意味著所有的模型在本質上是相同的。這些模型可以在網上查看補充圖S2。

有趣的是,BRT模型無法識別C1是最重要的變量在預測缺失數據的比例,而不管C1不是失蹤,或50% MCAR。因此,BRT模型不滿足標準a。然而,當檢查模型預測變量值,BRT模型預測改變missingness C1達到55。這些擬合函數中可以看到在線補充圖S3。B這BRT模型滿足標準。

BRT模型,有變化變量重要性在這個仿真研究中,這樣,當有更多missingness,變量重要性有更大的變化。這是在網上的一個範例補充圖S4。購物車模型總是C1,價值55分,所以評估變量重要性有點無關緊要。

在第二個實驗中,MCAR要麼(1)20%的數據,或(2)MCAR 50%。購物車模型顯示不同級別的變量重要性在模擬數據集,而偽隨機變量R1和R2經常被確定為重要。這個可以在網上看到補充圖4所示。

重新取樣的變量重要性的變化是小案例研究的數據集,而實驗2。BRT模型,如車模型,還選擇了變量在預測missingness R1和R2是相對重要的。視覺描繪變化變量重要性的購物車和BRT模型實驗和案例研究數據可以發現在網上補充數據6 - 8。

變量重要性的差異變化模擬與重新取樣的案例研究提供證據表明數據MCAR產生更大的數據變量的變化的重要性。變量重要性的變化減少了模擬數據與案例研究數據相比,案例研究數據表明確實有missingness結構。

討論

在本文中,我們提出了使用決策樹模型,特別是車和brt係統,檢查missingness在觀測數據的結構。作者的知識,這是第一次,為此提出了決策樹模型。模型的應用涉及職業健康數據的一個實質性的案例研究,專門為員工體檢,證明了互補性的分析。而車模型確定了三個變量:類型的醫學;有多少員工訪問網站;BRT模型確定的BMI和肺功能是最重要的預測因素的比例missingness在員工的健康記錄。此外,BRT分析還模仿預期missingness變量值。

合作夥伴的案例研究發現,這些結果顯示重要的已知和未知結構的數據。結構的一個例子是存在但不知道有這樣舉足輕重的影響力,是小型數據庫的數據集是一組來自不同來源,用的值類型;也就是說,類型1和2是不同的醫療數據,和類型3 - 6,環境暴露數據。數據集最初結合以這種方式匹配的數據可以通過ID號,允許個人鑒定檢驗的結果。匹配是不可能的,結果可以觀察到。由於這種連接不同的數據類型,大塊大塊的數據丟失,收集不同的信息來源和使用不同的id,防止數據匹配。進一步探索missingness和類型之間的關係表明,絕大多數的缺失數據類型3 - 6失蹤了,而類型1和2。這是顯示在在線補充圖S1小提琴的陰謀。

另一個缺失的數據結構顯示在我們的分析發現了從購物車和BRT分析比較結果。車的重點分析類型,網站和重複訪問。與車模型相比,BRT分析更深入地關注醫療數據,和強調,極端值變量如BMI或肺功能,有更多的丟失的數據。與行業合作夥伴討論這些研究結果顯示,個人與BMI等極端值測量或肺功能需要後續測試。作為後續測試是在一個小組特定的變量有關的特定健康查詢或擔憂,他們導致更多的缺失數據在整個數據集。發現這些缺失的數據結構導致了未來研究進行的數據子集選擇基於這些丟失的數據結構。這允許更具代表性,可靠和有效的結果。它也可以激發不同的數據和更明智的方法分析和建模。

在我們的分析中,我們使用的比例連續缺失的數據作為響應。這樣做的優勢適應變量之間的相關性,並提供一個容易理解、摘要missingness統計。missingness替代措施的數據集可以被使用,例如missingness單個變量,基於因子分析或索引,或類似的降維方法。這些可以用來預測其他數據的結構特點,如多個獨立變量的missingness多變量分析,missingness或集群,會告訴我們不同的東西的missingness結構數據集。

本文中描述的缺失數據的分析並不局限於決策樹,和可以擴展到其他分析如神經網絡、隨機森林,貝葉斯網絡學習。此外,決策樹本身可以實現使用不同的變量選擇方法,盡管遞歸分區是標準的選擇。24,27正如本文中演示的那樣,決策樹使用遞歸分區是可取的易於實現,處理非參數數據,並自動處理缺失數據。

在介紹中提到的,知道的結構缺失的數據可能不注明的機製(MNAR MCAR而言,MAR)。然而,理解missingness結構可以幫助研究人員創建更好的歸責模式或使用替代方法處理缺失數據,以及進一步改善未來的數據收集或進行自己的調查missingness結構。3

執行我們的模擬分析決策樹分析MCAR和MAR場景性能使用一個簡單的評估模型,已知missingness的例子。在案例研究中,然而,盡管3月和MCAR變量存在,missingness的主要形式是MNAR由於醫療檢查的性質。因此,本文提出的方法已被證明是有效的為所有三種類型的missingness。然而,正如簡介中表示,MNAR場景可以設想,解釋missinginess沒有觀察到的數據結構。這激發了對這個問題的進一步研究。

結論

使用購物車和BRT模型允許我們開發missingness結構數據的理解。作者使用這些模型的經驗是,他們積極適當的問題探索丟失的數據結構,導致更好的理解數據的起源。這種理解將有助於提高數據收集和處理缺失數據在未來的分析。

仿真研究的結果令人驚訝。盡管先驗預期,基於出版文學BRT模式會比車更健壯的和準確的模型,這不是在分析證實。BRT模型準確地預測是否有重大缺失的數據,和診斷圖提供了一個視覺指示missingness表現為變量。然而,在模擬研究中,BRT無法選擇正確的變量是最重要的預測(,模仿)missingness結構的數據。相比之下,購物車模型一致。

實驗2涉及的評估決策樹的性能數據MCAR(20%或50%)使用模擬數據集從第一個實驗的兩個變量,R1和R2,來自一個隨機均勻分布。R1和R2被包含在這些模擬協助探索哪些變量是重要的購物車中分裂和BRT missingness在沒有結構模型。實驗結果證明兩個車和BRT模型有更大的變化變量重要性更missingness介紹時,盡管這似乎與因變量的學位失蹤了。

雖然該研究表明該實用程序在使用決策樹相關統計方法確定變量和值缺失的數據在一個數據集,它是指出,這些方法沒有解決是否MCAR數據,3月或MNAR,他們沒有特別輪廓數據的偏差由於missingness。相反,這些方法有助於確定為什麼和如何丟失的數據。它仍然是研究者了解潛在的偏見,這可能會或可能不會導致。

確認

作者感謝妮可·懷特博士和博士Jegar Pitchforth尋求幫助和有益的討論。作者還要感謝那些評論家的建設性意見。

引用

補充材料

  • 補充數據

    僅這個web文件已經由英國醫學雜誌出版集團從一個電子文件提供的作者(年代)和沒有對內容進行編輯。

腳注

  • 推特遵循尼古拉斯Tierney在@TierneyNicholas

  • 貢獻者NJT有最初的想法去探索使用決策樹缺失的數據,進行分析,寫了初稿。荷航在選擇提供了指導和解釋分析,設計仿真研究和評論的手稿。華氏溫標和MJH協助收購數據,解釋結果從行業的角度來看,和評論的手稿。所有作者批準出版的版本的論文,並同意應對可能出現的問題,關於誠信的工作。

  • 資金共同資助的這項研究是一個澳大利亞研究生獎(APA),澳大利亞技術網絡產業的博士訓練中心(IDTC),獵人工業醫學、澳大利亞研究理事會和ARC卓越中心為數學和統計的前沿。

  • 相互競爭的利益沒有宣布。

  • 倫理批準昆士蘭科技大學的大學的人類研究倫理委員會。

  • 出處和同行評議不是委托;外部同行評議。

  • 數據共享聲明統計代碼和仿真數據集可從相應的作者在森林女神庫,誰將是永久性的,可引用的和開放獲取的材料。這可以通過森林女神訪問存儲庫http://datadryad.org/與doi: 10.5061 / dryad.j4f19。