用於醫療保健專業人員

研究方法和報告

是一個可信的子群的效果呢?更新標準來評估小組分析的可信度

BMJ2010年;340年doi:https://doi.org/10.1136/bmj.c117(2010年3月30日發表)引用這個:BMJ2010;340:c117
  1. 新太陽,研究員12,
  2. 馬提亞Briel,高級研究員13,
  3. 斯蒂芬·D沃爾特教授,1,
  4. 戈登·H Guyatt教授,14
  1. 1臨床流行病學和生物統計學,麥克馬斯特大學,漢密爾頓,加拿大
  2. 2臨床流行病學和循證醫學中心,華西醫院,四川大學,成都,中國
  3. 3巴塞爾研究所臨床流行病學和生物統計學,巴塞爾大學醫院,瑞士巴塞爾
  4. 4加拿大漢密爾頓市麥克馬斯特大學醫學係的
  1. 函授:戈登•H Guyatt以西1200大街,Rm 2 c12,漢密爾頓,安大略省,加拿大,z5 L8N 3guyatt在{}mcmaster.ca
  • 接受2009年12月29日

我們如何區分虛假和真實的子群的影響?本文確定了新的評判標準,提出了一個清單子群分析的可信度

介紹

子群分析的隨機對照試驗的薈萃分析(相關的)或相關的檢查治療效果是否根據不同患者群體,給予幹預,或方法測量的結果。亞組分析是普遍的,往往也是與索賠相關的治療效果差異subgroups-termed“子群效應”,“效應”修改,或“子群變量之間的相互作用和治療”。123子組之間的差異影響,如果這是真的,可能為臨床實踐和政策製定具有重要意義。然而,許多小組聲稱,後來證明是錯誤的。4因此,調查人員、臨床醫生和政策製定者麵臨的挑戰是否相信明顯不同的效果。

討論小組的影響可能是陷害絕對接受或拒絕。例如,在一場激烈的學術爭論,567891011一個陣營保持,心得安對死亡的影響不同的兩組研究中心,而其他仍然高度懷疑。這個“是”和“不”兩極分化的方法是不可取的,破壞性的,主要是因為它忽略了不確定性是不可避免的一部分,這樣的判斷。更有效率和更現實的一種方法是將連續體上的子群效應是真實的可能性“非常合理的”到“非常可能”,可能通過使用視覺模擬尺度。問題是那麼的決定在這連續的子組效果所在。

1991年,優素福等12討論的原則分析和解釋子群的影響,指出定性交互(也就是說,當治療是有益的在另一個群但有害)是罕見的。他們提倡先驗的規範小組假設,完成少量的亞組分析,並使用交互的測試分析子群的影響。在隨後的一年,奧克斯曼和Guyatt13建議7標準指導推斷子群分析的可信度。這些標準得到滿足的程度就越大,越合理假定的子群效果。

自1992年以來,這七個標準被廣泛用於評估提出子群的影響,14151617181920.212223和經曆隻有最小的化妝品修正。4經過多年的使用的1992個標準,我們已經開始感知的局限性。這些限製成為生動的在決定一個小組假設的可信度的一個大型的多中心隨機試驗。24這一經驗的基礎上,回顧發表解決子群分析方法論的文章,與臨床醫生和流行病學家的同事協商,我們確定了四個新標準可能會進一步援助區分虛假和真實的子群的影響。我們現在認為,未能考慮這些標準可能導致誤導性推斷小組假設。在本文中,我們將描述這些新標準,使用實際的例子來展示他們的影響推理的力量小組假設,並討論它們的意義。最後,我們提出了一個聽清單項目解決研究設計,分析,和上下文。

相對和絕對效應子群分析

在亞組分析中一個至關重要的問題是,應該檢查影響相對而非絕對的措施。相對影響,相比之下,在大多數情況下保持不變在不同的基線風險,絕對風險降低通常會隨基線風險。

例如,考慮他汀類藥物的治療效果的主要冠狀動脈事件(即,非致命性心肌梗死和冠心病死亡)患者不同冠狀動脈的風險。一個45歲的不抽煙的女人沒有心髒病,沒有糖尿病家族史的禮物與血清膽固醇升高(> 5.2更易/ L,血壓130/85毫米汞柱。她主要冠狀動脈事件的風險在未來十年是5%。把這個女人比作一位65歲男性吸煙與心髒病和糖尿病的家族史,呈現與血清膽固醇升高(> 6.2更易/ L),和血壓160/90毫米汞柱。他的主要冠狀動脈事件的風險是50%。

一項薈萃分析顯示,他汀類藥物治療可能主要冠狀動脈事件的相對風險降低29.2%。25這種相對效應是一致的子組,包括冠心病風險的決定因素在前款規定的討論。由於常數相對風險降低跨子組(也就是說,我們有信心,沒有子群效應的相對效應測量),我們可以推斷主要冠狀動脈事件的絕對風險降低1.5%(從5%到3.5%)的第一個病人,14.6%(從50%到35.4%)在第二個病人。如果我們考慮絕對風險降低,一個明顯的子群效果存在(低風險患者,如我們的女病人,有一個絕對風險降低1.5%,而高危病人,如我們的男性病人,絕對風險降低14.6%)。

這個例子顯示了子群的影響往往出現在使用絕對風險降低,但很少出現在使用一個相對效應的措施。事實上,在已知的預後因素的存在,使組織在不同風險的定義,如果沒有子群效應與這些因素有關的相對措施效果,絕對的措施必須存在的子群的效果。我們後續的討論,因此,專門集中於假定的子群的差異相對影響。

最初的七個標準子群分析

框顯示了7 1992標準,13聽清單解決設計、分析和上下文的亞組分析。推斷群效應更強,如果在設計階段,研究之間的比較是在而不是指定的子群的假設是先天的,和少量的假設進行測試;在分析,如果測試治療和子組變量之間的交互(例如,年齡、性別、疾病嚴重程度)表明,機會是一個不太可能的解釋明顯差異;背景的基礎上,如果實際上隸屬的類別之間的差異是大的和一致的研究,和間接證據支持(生物原理)的區別。

標準來評估小組分析的可信度

設計
  • 是一群隨機變量特征測量基線或之後呢?

  • 中建議的效果比較研究之間而不是?

  • 指定的假說是先天的嗎?

  • 的方向是指定一個先天的*子群的效果呢

  • 群效應提出的少數之一影響測試?

分析
  • 機會的交互測試表明低可能性解釋明顯的子群的效果呢?

  • 是重要的子群的效果獨立*

上下文
  • 子群的大小影響大嗎?

  • 是研究之間的交互一致?

  • 是交互一致密切相關的研究結果?

  • 有間接證據支持提出交互(生物原理)?

  • *新標準。

新標準來判斷的可信度子群的影響

1是該小組隨機變量特征測量基線或之後?

子組可以根據定義特征隨機測量基線或之後。子組定義根據post-randomisation特點可能影響測試的幹預措施;即子組之間的明顯差異的治療效果可以解釋為幹預本身,或由不同預後特征群體隨機後出現,而不是由子群特征本身。因此,基於post-randomisation特征的子群假設的可信度嚴重受損,並且可以拒絕簡單的準則。

例如,在1200名危重患者的隨機試驗,26強化胰島素治療,與常規治療相比,並沒有顯著降低全因死亡率醫院(37.3%v40.0%,P = 0.33)。767年病人住在重症監護室(ICU)至少3天,強化胰島素治療組有較低的醫院全因死亡率(43.0%v52.5%,P = 0.009),而在433名患者在ICU待了不到三天,強化治療似乎增加醫院全因死亡率(26.5%v18.9%,P = 0.05)。因為子組沒有選擇在基線特征的基礎上,最可能的解釋的結果不在於胰島素治療是有害的在那些注定要在ICU停留不到3天,有利於那些注定要停留超過三天,而是治療的作用是創建預後不平衡組織那些最終呆不到三天或者至少三天。這種post-randomisation子群分析非常低信譽大多數情況下,它們可以輕易解雇。

2是方向指定的先驗的子群的效果呢?

即使指定先天的,假定的子組效果不太可能是引人注目的,如果調查員幾乎沒有影響的方向。子群的影響一致pre -指定的方向將增加一個亞組分析的可信度;未能指定方向或更糟的是,得到wrong-weakens方向的一個真正的底層子群的效果。

用戶應該顯式聲明的先驗規範群假說和子群方向主要研究報告。針對新興的證據不同協議和研究報告,27語句什麼是包含在注冊之前或公開協議敲定這項研究或係統評價是可取的。

例如,拉塞爾et al28相比後葉加壓素和去甲腎上腺素灌注在28天死亡率的影響的隨機試驗778例感染性休克。作為主要的亞組分析,作者提出一個先驗的好處,加壓素對去甲腎上腺素會更大更嚴重的膿毒性休克患者。然而,事實證明,抗利尿激素的好處似乎更多的不太嚴重的膿毒性休克患者(RR 1.04更嚴重v0.74在不太嚴重的感染性休克,交互P = 0.10)。調查人員未能正確識別方向的子群效應明顯減弱的任何推論後葉加壓素比去甲腎上腺素在減少重症病人。

3是重要的獨立子群的效果呢?

當研究小組假設,一個必須解決的可能性影響的差異可以解釋為機會。統計方法,解決了這個問題被稱為測試交互(即治療效果在不同子群的交互類)。交互測試的零假設是子群之間沒有差異存在於底層的真實效果的類別。P值越低,越有可能是,機會解釋了明顯的子群的效果。不可避免的是,P值的閾值的選擇涉及主觀判斷。而不是使用一個閾值,一個更好的評估方式的P值變小,該小組假設變得越來越可靠:我們可以懷疑任何假設的P值大於0.1,開始考慮假設如果P值在0.1和0.01之間,和認真對待的假設當P值達到0.001或更少。

當測試多個假設在一個研究中,分析可能產生多個顯然重要的交互。然而,這些重要的相互作用可能是相互關聯的,因此解釋為一個共同的因素。例如,在一個薈萃分析研究阿司匹林對預防心血管事件的影響,阿司匹林降低女性患中風的風險,而在男性沒有明顯影響。29日然而,男性通常比女性更年輕,這表明年齡,而不是性,可能解釋的交互。30.

表達這種概括地說,在一個特定的分析,治療效果顯然是根據患者的不同狀態變量a和B, a和B在統計上是相互關聯的。影響患者在不同類別之間的差異對可能,因此,被解釋為B(即明顯影響治療效果的大小是由於混淆與B)。

另一個例子來自一個審判鉸與非擴髓帶釘的脛骨骨折。24鉸和非擴髓帶釘再次手術(尚可率無顯著差異的相對危險度0.92,95%可信區間0.74到1.14,圖1所示)。七十一先驗假設的分析表明,鉸釘有再次手術率尚可降低閉合骨折(相對危險度0.64,95%可信區間0.47到0.96)而再次手術率尚可導致更高的開放性骨折(相對危險度1.27,95%可信區間0.91到1.78,交互P = 0.011,圖1)。我們隨後利用試驗數據探索五個額外的假設,其中一個建議鉸釘優越於吸煙者(相對危險度0.68,95%可信區間0.50到0.92)和其他非擴髓帶釘更好(即一生過度吸煙者和不吸煙者)(相對危險度1.56,95%可信區間1.04到2.36,交互P = 0.001,圖1)。

圖1個工程的影響v再次手術患者尚可非擴髓帶釘在骨折:先天的和因果子群分析。第一個點估計和置信區間表明主要影響。隨後對點估計和置信區間表明工程的效果v再次手術在尚可非擴髓帶釘在12組變量的類別。*小組做事後分析。患者亞組分析通過Tscherne類型包括封閉的製作,和分析通過Gustilo類型包括開放骨折。在我們分析的重要和非重要交互,這兩個交互並不包括在回歸模型,導致十交互條件包括在模型中。

我們想知道如果在治療效果顯著差異吸煙者和不吸煙者之間可以解釋為骨折類型(打開v關閉)。換句話說,一種可能性是,明顯的影響是,吸煙者吸煙的原因往往開放性骨折和其他傾向於關閉骨折。在這種情況下,明顯首選過程之間的聯係(工程或非擴髓帶釘)和吸煙狀況實際上可能是由於吸煙和骨折類型之間混淆(開啟和關閉)。檢查吸煙的相互影響過程的獨立性(鉸v非擴髓帶),我們包括互動的治療與吸煙和治療骨折類型在相同的回歸模型。分析表明,吸煙的相互作用仍然顯著(P值從0.001改為0.006)調整後與治療骨折類型的交互。這表明明顯交互無法解釋吸煙的吸煙狀況和開放與封閉骨折之間的聯係。

額外檢查協會的獨立性可能包括所有重要和非重要交互回歸模型。堅持的意義交互方麵加強推理子群的影響。在我們的分析中,這些額外的回歸包括重要和非重要提出交互(即10個病人特點與治療之間的相互作用在圖1)顯示持續吸煙交互(P = 0.008),從而提供進一步支持吸煙的獨立子群的效果。警告:調整重要和非重要交互方麵可能會受到有限的樣本大小和小數量的事件,31日提供了進一步的理由pre-specifying有限數量的重要的相互作用。

4是一致的交互密切相關的研究成果?

如果一個群效應是真實的,它可能會體現在所有的結果密切相關。例如,在一個隨機試驗1692耐火非小細胞肺癌患者,撒切爾et al32比較了吉非替尼和安慰劑對生存的影響。生存利益的主要趨勢分析顯示與吉非替尼在安慰劑(風險比(人力資源)0.89,95%可信區間0.77到1.02,P = 0.087)。先驗假設的測試表明微分對生存的影響不吸煙者(HR 0.67, 95%可信區間0.49到0.92)和吸煙者(HR 0.92, 95%可信區間0.79到1.06;交互P = 0.07)。二次分析治療失敗時間顯示類似的差異的影響不吸煙者(HR 0.55, 95%可信區間0.42到0.72)與吸煙者(HR 0.89, 95%可信區間0.78到1.01,交互P = 0.0015)。群效應在結果的一致性提高其可信度。

鉸的審判與非擴髓帶釘的脛骨骨折,24非擴髓帶釘明顯減少re-operations在吸煙者鉸釘減少re-operations在其他病人(一生過度吸煙者和不吸煙者)(圖1)。檢查是否在其他結果存在的差異,我們測試了治療之間的交互和吸煙狀況對生活質量測量的健康效用指數和短form-36(圖2所示)。結果一致表明非擴髓帶釘的優越性在目前的吸煙患者,鉸釘和沒有或非擴髓帶之間的細微差別和鉸釘在其他病人。這個結果加強推理的交互型釘和吸煙狀況。

">Figure2

圖2個工程的影響v非擴髓帶釘在醫療效用指數(回族,2)和短Form-36 (SF-36 2 b)在吸煙和其他子組脛骨骨折患者。總結電腦=物理組件。總結MCS =心理組件。

討論

臨床和政策決策總是涉及不確定性。小組聲稱將不太可能滿足所有或沒有我們的標準在幾乎所有情況下,一個小組聲稱將會見一些但不是全部的標準。治療組效果的可能性是真正作為一個連續體反映出不確定性的本質。判斷其信譽將取決於強烈的臨床醫生和政策製定者相信子群的效果是真實的。換句話說,他們將法官考慮每個標準:標準得到滿足的程度就越大,就越有可能子群的效果是真實的。當總結小組的力量推論,一個精子可能應用視覺模擬量表錨的“非常合理的”和“極不可能”。

臨床實踐和政策決策、預後的差異,和絕對風險降低的差異與不同的預後相關,比相對更重要的子群的影響有兩個原因。首先,識別和實質性的預後的差異是相當常見的,和一個可以在絕對相信潛在的重要的差異影響預後子組將發生。真子群的差異相對影響,相比之下,相當罕見。其次,即使真正的跨子組治療的影響存在差異,這些差異可能不是足夠大的授權管理的差異在這些子組。這可能是這種情況,例如,如果所有患者的治療是有益的,但治療效果不同子組的大小。假定常數相對風險降低,使用基線風險計算絕對風險降低病人組與驗證相關差異化預後特點,提供了一個最佳交易方法可取的和不受歡迎的治療結果。33

我們聽的物品清單包括七原和四個新標準(表1)。這個清單是根據組織設計、分析和上下文的亞組分析。

這些標準的重要性各不相同,但應適用於每一個準則的相對權重仍不確定。如果可以建立一個可信的加權方案可能提高效率和精度的判斷。一個方法是開發一個正式的測量儀,分配每個標準的比重,並驗證儀器通過應用子群分析,建立了真實或虛假的。

總結分

  • 現有7個標準幫助臨床醫生評估的可信度假定的子群的影響連續從“非常合理的”到“非常可能”

  • 我們建議四個額外的標準:小組定義基線特征的基礎上,獨立的子群效應,先驗的規範的方向子群的效果,和一致性相關結果

  • 我們提出一個聽清單項目解決研究設計,分析,和上下文

筆記

引用這個:BMJ2010;340:c117

腳注

  • 貢獻者:所有作者概念化的想法手稿和閱讀和批準了手稿。XS發達初稿和合並的評論作者對連續的草稿。溫室氣體是擔保人。

  • 資金:XS支持中國國家自然科學基金的資助(批準號70703025)。MB支持Santesuisse戈特弗裏德和茱莉亞Bangerter-Rhyner基礎。

  • 利益衝突:沒有宣布。

  • 出處和同行評審:不是委托;外部同行評議。

引用

Baidu
map