亞群效應可信嗎?更新評估亞組分析可信度的標準
BMJ2010;340doi:https://doi.org/10.1136/bmj.c117(2010年3月30日發布)引用如下:BMJ2010; 340: c117- 1加拿大安大略省漢密爾頓市麥克馬斯特大學臨床流行病學與生物統計學係
- 2四川大學華西醫院臨床流行病學與循證醫學中心,中國成都
- 3.巴塞爾臨床流行病學和生物統計學研究所,巴塞爾大學醫院,瑞士巴塞爾
- 4加拿大漢密爾頓麥克馬斯特大學醫學係
- 收信人:Gordon H Guyatt, Main Street West 1200,室2C12, Hamilton, Ontario, Canada, l8n3z5guyatt在{}mcmaster.ca
- 接受十二月二十九日
介紹
隨機對照試驗(RCTs)或隨機對照試驗的薈萃分析中的亞組分析檢查治療效果是否因患者組、給予幹預的方式或測量結果的方法而異。亞組分析很常見,通常與子組之間治療效果差異的聲明有關,稱為“亞組效應”、“效果修改”或“子組變量與治療之間的相互作用”。123.亞組之間的效果差異,如果是真的,可能對臨床實踐和政策製定具有重要意義。然而,許多小組的主張後來被證明是錯誤的。4因此,研究人員、臨床醫生和政策製定者麵臨著是否相信效果上的明顯差異的挑戰。
關於子群體效應的爭論可能會以絕對接受或拒絕的方式進行。例如,在激烈的學術辯論中,567891011一個陣營堅持認為,在兩組研究中心中,心得安對死亡的影響是不同的,而另一個陣營則持高度懷疑態度。這種“是”對“否”的兩極分化方法是不可取的,也是破壞性的,主要是因為它忽略了這種判斷中不可避免的不確定性。一種更有效、更現實的方法是將子群體效應的可能性置於從“高度可信”到“極不可能”的連續體上,可能是通過使用視覺模擬量表。接下來的問題是決定在這個連續體上假定的子群效應在哪裏。
1991年,優素福等人12討論了分析和解釋亞組效應的原則,並指出定性相互作用(即治療對一個亞組有益而對另一個亞組有害)是罕見的。他們主張對子組假設進行先驗說明,完成少量的子組分析,並使用相互作用檢驗來分析子組效應。第二年,奧克斯曼和蓋亞特13提出了七個標準來指導對亞組分析可信度的推斷。滿足這些標準的程度越高,假定的亞群效應就越可信。
自1992年以來,這七個標準被廣泛用於評估假設的亞組效應,14151617181920.212223而且隻做了很小的整容。4在使用1992年標準多年之後,我們開始意識到其局限性。在決定大型多中心隨機試驗的亞群假設的可信度時,這些局限性變得生動起來。24在這一經驗的基礎上,我們回顧了發表的關於亞組分析的方法文章,並谘詢了臨床醫生和流行病學家同事,我們確定了四個新的標準,可以進一步幫助區分虛假和真實的亞組效應。我們現在認為,不考慮這些標準可能會導致對子群假設的誤導性推論。在本文中,我們描述了這些新標準,使用現實世界的例子來展示它們如何影響子群假設的推斷強度,並討論了它們的含義。最後,我們提出了一個重新結構化的項目清單,以解決研究設計,分析和背景。
亞組分析的相對效應和絕對效應
亞組分析中的一個關鍵問題是,應該用相對而不是絕對的措施來檢查影響。相對效果在大多數情況下在不同的基線風險中保持不變,而絕對風險降低通常會隨著基線風險的變化而變化。
例如,考慮他汀類藥物治療對不同冠狀動脈風險患者的主要冠狀動脈事件(即非致死性心肌梗死和冠心病死亡)的影響。45歲女性,不吸煙,無心髒病家族史,無糖尿病,血清膽固醇升高(>5.2 mmol/L,血壓130/85 mm Hg),未來10年發生主要冠狀動脈事件的風險為5%。將該女性與有心髒病和糖尿病家族史的65歲吸煙男性進行比較,其血清膽固醇升高(bb0 6.2 mmol/L),血壓160/90 mm Hg,其發生主要冠狀動脈事件的風險為50%。
一項薈萃分析顯示,他汀類藥物治療可將主要冠狀動脈事件的相對風險降低29.2%。25這種相對效應在亞組中是一致的,包括前文討論的冠狀動脈風險的決定因素。由於亞組間的相對風險持續降低(也就是說,我們確信相對效應測量沒有亞組效應),我們可以推斷第一位患者的主要冠狀動脈事件絕對風險降低1.5%(從5%到3.5%),第二位患者的絕對風險降低14.6%(從50%到35.4%)。如果我們考慮絕對風險降低,則存在明顯的亞組效應(低風險患者,如我們的女性患者,絕對風險降低1.5%,而高風險患者,如我們的男性患者,絕對風險降低14.6%)。
這個例子顯示了當使用絕對風險降低時,通常會出現子組效應,但當使用相對效應度量時,很少出現子組效應。事實上,在已知的預後因素允許定義不同風險的群體的情況下,如果沒有亞組效應與這些相對效應度量的因素相關聯,則必須存在絕對度量的亞組效應。因此,我們隨後的討論隻關注相對效應中假定的亞組差異。
亞組分析的原始七個標準
這個方框顯示了1992年的7項標準,13在一個重新結構化的檢查表中,處理設計,分析,以及本文中子組分析的上下文。如果在設計階段,在研究內部而不是在研究之間進行比較,子組假設是先驗指定的,並且對少數假設進行了檢驗,則關於子組效應的推論更強;如果在分析中,對治療與一個亞組變量(例如,年齡、性別、疾病嚴重程度)之間相互作用的測試表明,機會不太可能解釋明顯的差異;如果,在上下文的基礎上,亞組類別之間的效果差異很大,並且在研究中是一致的,並且存在間接證據來支持這種差異(生物學原理)。
評估亞組分析可信度的標準
設計
亞組變量是在基線或隨機化後測量的特征?*
這種效應是通過研究內部的比較而不是研究之間的比較得出的嗎?
假設是先天的嗎?
亞群效應的方向是先天指定的嗎
亞組效應是測試的少數假設效應之一嗎?
分析
相互作用檢驗是否表明機會解釋明顯的亞群效應的可能性很低?
顯著亞組效應是否獨立?*
上下文
子組效應的大小大嗎?
研究之間的相互作用是否一致?
研究中密切相關的結果之間的相互作用是否一致?*
是否有間接證據支持假設的相互作用(生物學原理)?
*新標準。
判斷亞群效應可信度的新標準
亞組變量是在基線或隨機化後測量的特征嗎?
亞組可以根據基線或隨機化後測量的特征來定義。根據隨機化後特征定義的亞組可能受到測試幹預措施的影響;也就是說,亞組之間治療效果的明顯差異可以用幹預本身來解釋,也可以用隨機化後出現的亞組預後特征的不同來解釋,而不是用亞組特征本身來解釋。因此,基於後隨機化特征的亞組假設的可信度受到嚴重損害,並且可以簡單地根據該標準拒絕。
例如,在1200名危重病人的隨機試驗中,26與常規治療相比,強化胰島素治療並沒有顯著降低醫院全因死亡率(37.3%)v40.0%, P = 0.33)。在重症監護病房(ICU)住院至少3天的767例患者中,強化胰島素治療組的全因死亡率較低(43.0%)v52.5%, P=0.009),而在433名在ICU住院少於3天的患者中,強化治療似乎增加了全因住院死亡率(26.5%)v18.9%, P = 0.05)。因為子組沒有選擇在基線特征的基礎上,最可能的解釋的結果不在於胰島素治療是有害的在那些注定要在ICU停留不到3天,有利於那些注定要停留超過三天,而是治療的作用是創建預後不平衡組織那些最終呆不到三天或者至少三天。這種後隨機化亞組分析的可信度非常低——在大多數情況下,它們很容易被駁回。
是嗎?方向先驗指定的子群體效應?
即使指定了先天的,假設的亞群效應不太可能令人信服,如果研究者不知道影響的方向。子群效應與pre -指明方向會增加子群分析的可信度;未能明確方向——或者更糟的是,弄錯方向——削弱了真正潛在子群體效應的理由。
用戶應該在初步研究報告中尋找對子組假設和子組方向的先驗規範的明確陳述。鑒於新出現的證據表明方案和研究報告之間存在差異,27在研究或係統評價之前,需要對已注冊或公開可獲得的方案中所包括的內容進行說明。
例如,羅素等人28比較抗利尿激素與去甲腎上腺素輸注對778例感染性休克患者28天死亡率的影響。作為主要的亞組分析,作者先驗地假設,在膿毒性休克更嚴重的患者中,抗利尿激素比去甲腎上腺素的益處更大。然而,結果表明,抗利尿激素的益處似乎在膿毒性休克較輕的患者中更大(RR = 1.04)v輕度感染性休克0.74,相互作用P=0.10)。研究人員未能正確識別亞組效應的方向,這明顯削弱了抗利尿激素在病情較輕的患者中優於去甲腎上腺素的任何推斷。
3 .顯著亞組效應是否獨立?
在檢驗亞群假設時,必須考慮到效應差異可以用偶然解釋的可能性。解決這個問題的統計方法被稱為相互作用測試(相互作用意味著治療效果在不同的子組類別中不同)。相互作用檢驗的零假設是子組類別之間的潛在真實效應不存在差異。P值越低,機會解釋明顯的亞群效應的可能性就越小。不可避免地,P值閾值的選擇涉及主觀判斷。比起使用閾值,評估P值的一種更可取的方法是,隨著P值越來越小,子群假設變得越來越可信:我們可以懷疑P值大於0.1的任何假設,如果P值在0.1到0.01之間,我們開始考慮這個假設,當P值達到0.001或更小時,我們會認真對待這個假設。
當在一項研究中檢驗多個假設時,分析可能會產生不止一個明顯顯著的相互作用。然而,這些重要的相互作用可能是相互關聯的,因此可以用一個共同的因素來解釋。例如,在一項檢驗阿司匹林對預防心血管事件影響的薈萃分析中,阿司匹林降低了女性中風的風險,而對男性沒有明顯的影響。29然而,男性普遍比女性年輕,這表明年齡,而不是性別,可能解釋了這種互動。30.
一般來說,在特定的分析中,根據患者在變量a和變量B上的狀態,治療效果明顯不同。因此,不同類別患者之間相對於A的效果差異可能可以用B來解釋(即A對治療效果大小的明顯影響是由於與B混淆)。
另一個例子來自脛骨骨折的擴孔與未擴孔釘入試驗。24擴孔與未擴孔的再手術率無顯著差異(RR 0.92, 95% CI 0.74 ~ 1.14,圖1)⇓)。對7個先驗假設的分析表明,擴孔內釘治療閉合性骨折的再手術率較低(RR 0.64, 95% CI 0.47 ~ 0.96),而開放骨折的再手術率較高(RR 1.27, 95% CI 0.91 ~ 1.78,相互作用P= 0.011,圖1)。我們隨後利用試驗數據探索了另外5個假設,其中一個假設表明擴孔內釘治療當前吸煙者的再手術率更高(RR 0.68,95% CI 0.50 ~ 0.92),而其他人(即戒煙者和終生不吸煙者)的未鉸釘效果更好(RR 1.56, 95% CI 1.04 ~ 2.36,相互作用P=0.001,圖1)。
我們想知道吸煙者和非吸煙者治療效果的明顯差異是否可以用骨折類型(開放性骨折)來解釋v關閉)。換句話說,一種可能性是,吸煙的明顯影響的原因是吸煙者傾向於開放性骨折,而其他人傾向於閉合性骨折。在這種情況下,首選手術(擴孔或未擴孔釘)與吸煙狀況之間的明顯關聯實際上可能是由於吸煙和骨折類型(開放性和閉合性)之間的混淆。檢查吸煙與手術過程相互作用的獨立性v),我們在同一回歸模型中納入了吸煙治療和骨折類型治療的相互作用項。分析表明,在調整骨折類型與治療的相互作用後,吸煙的相互作用仍然顯著(P值從0.001變化到0.006)。這表明明顯的吸煙相互作用不能用吸煙狀況與開放性或閉合性骨折之間的關聯來解釋。
對關聯獨立性的額外檢查可以包括回歸模型中所有顯著和非顯著的相互作用。交互項的持續顯著性強化了子群效應的推斷。在我們的分析中,這個額外的回歸包括顯著和非顯著的假設相互作用(即圖1中患者特征與治療之間的十種相互作用)顯示了持續的吸煙相互作用(P=0.008),從而進一步支持吸煙亞組效應的獨立性。注意事項:由於樣本量有限和事件數量少,對顯著和非顯著相互作用項的調整可能會受到影響。31為預先指定有限數量的重要交互提供了進一步的理由。
研究中密切相關的結果之間的相互作用是否一致?
如果子群體效應是真實的,那麼它很可能在所有密切相關的結果中表現出來。例如,在一項1692例難治性非小細胞肺癌患者的隨機試驗中,Thatcher等32比較吉非替尼和安慰劑對生存的影響。初步分析顯示吉非替尼比安慰劑有生存獲益的趨勢(風險比(HR) 0.89, 95% CI 0.77 ~ 1.02, P=0.087)。先驗假設的檢驗表明,非吸煙者(HR 0.67, 95% CI 0.49 ~ 0.92)和吸煙者(HR 0.92, 95% CI 0.79 ~ 1.06;交互P = 0.07)。對治療失敗時間的二次分析顯示,非吸煙者(HR 0.55, 95% CI 0.42 ~ 0.72)與吸煙者(HR 0.89, 95% CI 0.78 ~ 1.01,相互作用P=0.0015)的療效差異相似。亞群效應在結果間的一致性增強了其可信度。
在脛骨骨折的擴孔與未擴孔釘入試驗中,24未擴孔內釘明顯減少了當前吸煙者的再手術,而擴孔內釘減少了其他患者(戒煙者和終生不吸煙者)的再手術(圖1)。為了檢驗其他結果是否存在差異,我們測試了治療和吸煙狀況之間的相互作用,通過健康效用指數和簡表-36來衡量生活質量(圖2)⇓)。結果一致表明,在吸煙患者中,未擴孔釘優於擴孔釘,而在其他患者中,未擴孔釘與擴孔釘之間沒有或隻有很小的差異。這一結果加強了關於指甲類型和吸煙狀況之間相互作用的推斷。
討論
臨床和政策決策總是涉及不確定性。子組索賠不太可能滿足我們的全部標準或不滿足我們的所有標準——在幾乎所有情況下,子組索賠將滿足一些標準,但不是全部標準。將子群效應真實存在的可能性作為連續體來處理,反映了不確定性的本質。對其可信度的判斷將取決於臨床醫生和政策製定者對亞組效應的真實性的相信程度。換句話說,他們會根據每個標準進行判斷:滿足標準的程度越大,子群體效應就越有可能是真實的。當總結子群體推斷的強度時,人們可以想象——並可能應用——一個帶有“高度可信”和“極不可能”錨點的視覺模擬量表。
對於臨床實踐和政策決策而言,預後差異以及與預後差異相關的絕對風險降低差異遠比相對亞組效應重要,原因有二。首先,可識別的和實質性的預後差異是相當普遍的,並且可以確信預後亞組之間絕對效果的潛在重要差異將會發生。相比之下,真正的亞組相對影響差異是相當罕見的。其次,即使不同亞組之間的治療效果存在真正的差異,這些差異也可能不足以要求不同亞組之間的管理差異。例如,如果治療對所有患者都有益,但治療效果的大小在亞組之間是不同的,情況可能就是這樣。假設恒定的相對風險降低,並使用基線風險來計算與經過驗證的鑒別預後特征相關的患者組的絕對風險降低,提供了一種權衡理想和不理想治療結果的最佳方法。33
我們重新構建了清單的項目,包括七個原始標準和四個新標準(表1)。該清單是根據亞組分析的設計、分析和上下文組織的。
這些標準的重要性各不相同,但每個標準的相對權重仍然不確定。如果可以建立一個可信的加權方案,它可能會提高判斷的效率和準確性。一種方法是開發一種正式的測量儀器,為每個標準分配特定的權重,並通過將其應用於已確定為真實或虛假的子組分析來驗證該儀器。
總結分
現有的七個標準幫助臨床醫生評估從“高度可信”到“極不可能”的連續亞組效應的可信度。
我們提出了四個額外的標準:基於基線特征的子組定義,子組效應的獨立性,子組效應方向的先驗說明,以及相關結果的一致性
我們提出了一個重新結構化的項目清單,以解決研究設計、分析和背景
筆記
引用如下:BMJ2010; 340: c117
腳注
貢獻者:所有作者概念化稿件中的觀點,閱讀並批準稿件。XS開發了初稿,並在後續草稿中納入了作者的意見。溫室氣體是保證人。
基金資助:國家自然科學基金(批準號:70703025)資助。MB得到了santassei和Gottfried and Julia Bangerter-Rhyner基金會的支持。
競爭利益:沒有宣布。
出處和同行評議:未委托;外部同行評審。