條文本
摘要
目標研究在閱讀隨機對照試驗(rct)報告時,對抽象結論的過度陳述是否會影響初級保健醫生的評價
設計隨機對照試驗設置:本研究是一項平行組隨機對照調查,在線進行,同時掩蓋研究假設。
參與者誌願者於2017年1月從日本初級保健協會成員中招募。我們向7040名初級保健醫生發送了電子郵件邀請。在訪問該網站的787個人中,有622個符合條件,並自動隨機分為“沒有誇大”(n=307)和“有誇大”(n=315)兩組。
幹預措施我們從已發表的隨機對照試驗中選擇了至少一個主要結果不顯著且抽象結論誇大的5個摘要。為了構建一個不誇張的版本,我們重寫了結論部分。對方法和結果部分進行了標準化,以便在原始摘要中缺少主要結果信息時提供必要的信息。參與者被隨機分配閱讀一篇有或沒有誇張表述的摘要,並被要求評估幹預的益處。
結果測量主要結果是參與者對摘要中討論的幹預措施的益處的評價,評分範圍從0到10。次要結果是結論的有效性。
結果兩組間對幹預效果的評價無顯著差異(平均差異:0.07,95% CI−0.28 ~ 0.42,p=0.69)。“沒有”組的參與者比“有”組的參與者認為研究結論更有效(平均差異:0.97,95% CI 0.59 ~ 1.36, P<0.001)。
結論當初步結果的必要信息得到明確報告時,抽象結論的誇大並未顯著影響初級保健醫生對幹預效果的評價。
- 隨機對照試驗
- 一般實踐
- 誇大的敘述
- 初級保健醫生
- 報告的偏見
- 臨床試驗
這是一篇根據創作共用署名非商業性(CC BY-NC 4.0)許可發布的開放獲取文章,該許可允許其他人以非商業性的方式發布、混編、改編、構建本作品,並以不同的條款許可其衍生作品,前提是原始作品被正確引用且使用是非商業性的。看到的:http://creativecommons.org/licenses/by-nc/4.0/
來自Altmetric.com的統計
本研究的優勢和局限性
這是第一個也是唯一一個評估在抽象結論中誇大陳述的影響的隨機對照試驗研究。
我們評估了作為證據主要使用者之一的初級保健醫生的誇大陳述的影響。
雖然參與者的數量高於我們的目標樣本量,但相對較低的回複率限製了我們的研究結果的普遍性。
當主要結果的必要信息在方法和結果部分報告時,我們關注的是抽象結論中過度陳述的影響,因此應該進一步評估摘要中各種其他形式的不充分報告的影響。
簡介
隨機對照試驗(rct)的報告摘要提供了簡明、有教育意義和易於獲取的信息。它們對初級保健醫生特別有用,因為他們要處理各種各樣的病人和問題,需要快速獲取有關他們的實踐的信息。有時摘要是他們使用的唯一證據來源。1
摘要結論是整個摘要中最關鍵的部分,因為它們總結了主要結果並提供解釋。2此前的一項調查顯示,初級保健醫生最關注這一結論。3.該結論對缺乏循證醫學技能的初級醫師也有指導意義。3 4解釋結果。因此,一個強有力的結論可能會改變讀者對整個研究的解釋。
不幸的是,結論部分是摘要中最常被歪曲的部分。5誇大試驗結果,比如使用spin5或誇大,6並不少見。自旋的例子包括忽略主要結果的不顯著結果,而專注於重要的次要結果或亞組分析。5此前的研究還發現,58%的隨機對照試驗結果不顯著,570%的非隨機研究7自旋。隨後的研究報告稱,在各種亞專業中,spin、誤導性信息或過度陳述都很常見,比如風濕病學、8精神病學,9傷口護理,10手術11日12和腫瘤。13 - 15
這表明,就抽象結論而言,盡管有報告試驗綜合標準(CONSORT)的摘要指南,但報告的質量仍然很差。2
然而,關於這些摘要對現實世界中讀者解讀的影響,證據有限。隻有一個隨機對照試驗16調查不恰當的報道對讀者解讀結果的影響程度。Boutron等16將臨床研究人員隨機分為兩組,並要求他們閱讀一篇有或沒有“旋轉”的摘要,作者將其定義為“報告幹預的有益效果大於結果所顯示的”,以估計讀者在評估幹預的有效性時是如何受到影響的。結果顯示,閱讀摘要時帶旋轉的被試比閱讀摘要時不帶旋轉的被試更容易認為幹預對患者有益。
盡管他們的試驗證明了抽象旋轉的影響很小(效應大小=0.24),但仍有幾個問題沒有回答。首先,抽象結論中的自旋對參與者解釋的影響程度尚不清楚,因為研究人員對摘要的所有部分都進行了修改。在他們的研究中,他們在改變措辭的同時,刪除或添加了所有的次要結果。換句話說,他們研究了自旋的一般影響在一個抽象中與它的“典範”相比較。此外,目標人群是有出版經驗的臨床研究人員。因此,抽象結論中的spin對其他類型證據使用者的影響尚不清楚。
本研究旨在通過關注閱讀rct報告的初級保健醫生,確定抽象結論中的過度陳述對一般臨床實踐的影響。
方法
設置和設計
這項在線研究是2017年1月至2月進行的雙盲隨機對照試驗。參與者被蒙住了研究假設,調查者(除了構建隨機序列的RS)被蒙住了分配。我們通過發送電子郵件邀請從日本初級保健協會(JPCA)的成員中招募誌願者。幹預是在一個專門為這項研究設計的網站上進行的。參與者被隨機分為兩組,並被要求閱讀和評價一份RCT報告的10個摘要(5對兩個對應的摘要:一個有,另一個沒有誇張)。該試驗在大學醫院醫學信息網絡-臨床試驗注冊中心(UMIN000025317)進行了前瞻性注冊,目前處於“研究完成”階段。我們在啟動前向JPCA提交了包括統計分析計劃在內的協議,但沒有公布,以避免參與者閱讀該協議的風險。
參與者和招聘
目標人群是從JPCA的成員中招募的。JPCA成立於2010年,旨在促進初級保健專業在日本的發展。17它是該國最大的初級保健醫生組織,並一直在其成員中推廣循證實踐。目前,在各類醫療機構工作的醫生有1萬多名18隸屬於JPCA,在10851名會員中,有5836名會員獲初級護理專家認證。
我們向有2年以上臨床經驗的JPCA成員發送了電子郵件邀請,並注冊了電子郵件地址。(招聘過程的細節將在另一篇文章中報道。)我們排除了經驗不足2年的臨床醫生,因為我們的目標人群是初級保健醫生,醫生通常在日本經過2年的臨床培訓後選擇自己的專業。感興趣的個人可以通過電子郵件中的鏈接訪問博士研究網站。我們在鏈接的末尾添加了一個代碼,以確保參與者通過給定的鏈接訪問網站。作為獎勵,20名抽獎中獎者將獲得價值3000日元(26.6美元)的亞馬遜禮品卡。
參與者的入選標準如下:JPCA成員,目前在臨床實踐的醫生,2年以上的臨床實踐經驗,並能獲得最新的臨床研究知識。我們詢問受訪者是如何了解最近的臨床試驗的,沒有提供任何信息來源的人被排除在外。篩選問題在網站的首頁上。我們排除了那些在研究實驗室或教育機構工作的人。
隨機和分配隱藏
當參與者進入評估頁麵時,他們會被隨機分配到一份有或沒有誇張陳述的摘要,比例為1:1。使用計算機生成的隨機序列(由RS創建)自動執行塊隨機化(每個塊10個)。通過自動隨機分配過程保持分配的隱蔽性。
基礎墊層
在電子郵件邀請中,參與者被告知這項研究旨在調查摘要的印象,他們將被要求對隨機選擇的摘要進行數字評分。(邀請函的英文版包含在網上補充附錄1).因此,他們被掩蓋了研究假設。研究人員(KS, TA, YT和AS),不包括網站經理(RS),進行盲法研究,直到盲法解釋結果完成並簽字。19RS未參加結果分析。
補充文件1
選擇有過度陳述的抽象
我們選擇了五篇摘要至24(5個摘要的文本包含在網上補充附錄2)從已有的2011年至2014年精神病學隨機對照試驗中發表的報告數據庫中獲取,這些報告收集自我們之前的研究。6 25為了避免因參與者的亞專業知識(如內科或外科)而產生的任何偏見,我們選擇了精神病學的報告。
摘要的選擇基於以下標準:(1)具有兩個分支的優勢RCT,(2)聲稱在抽象結論中幹預的有效性,盡管一些或所有主要結果不顯著,(3)針對初級保健醫生在臨床環境中可能遇到的常見精神疾病,(4)具有等於或高於兩個期刊影響。
過度陳述被定義為“全文主要結果的結果與從抽象結論推導出的結果之間的不一致”。6“spin”是在整個報告中美化結果的一種技巧,而“overstatement”則專門指抽象結論中的誇大。
在所選的五個樣本摘要中,有兩個在結論中隻提到了幹預優於對照。事實上,其中一組的主要結果不顯著,而另一組的主要結果是混合的(顯著和不顯著)。其餘三個的結論強調了幹預相對於對照的部分優越性。他們說,雖然所有的主要結果都不顯著,但治療是部分有效的。總之,它們包括不同程度的誇大,從完全誤導到信息較少(不提及不重要的主要結果)的結論。由兩個或兩個以上的調查者(KS, AS和RS)獨立檢查
構造包含或不包含過度陳述的抽象
我們按照以下預先指定的準則構建摘要。首先,我們根據這些規則重寫結論,得出一個不誇張的結論。(1)當所有主要結果都不顯著時,我們將結論改寫為“在……方麵,幹預A並不比對照組B更有效”。(2)當一個主要結果(PO1)顯著而另一個主要結果(PO2)不顯著時,我們將其重寫為“幹預A在PO1方麵比對照B更有效,但在PO2方麵不更有效”,按照原摘要中的順序。我們還從結論中刪除了次要結果和亞組分析的結果。(參見盒子,所有的抽象結論都在表1.)
摘要的一個例子(斜體表示添加了額外的文本,粗體表示在“沒有過度陳述”組中更改)
標題
絕經期症狀的幹預A:一項隨機對照試驗
客觀的
本研究旨在確定幹預A對緩解血管舒縮和其他絕經期症狀的療效。
方法
圍絕經期晚期和絕經後久坐且有頻繁血管舒縮症狀(VMS)的婦女如潮熱、出汗和血液循環不暢參與了一項在三個地點進行的隨機對照試驗:106名女性被隨機分到運動組,142名女性被隨機分到日常活動組。在基線、第6周和第12周時記錄VMS頻率和幹擾。意向治療分析比較了組間VMS頻率和打擾、睡眠症狀(失眠嚴重程度指數和匹茲堡睡眠質量指數)和情緒(患者健康問卷-8和廣泛性焦慮障礙問卷-7)變化的差異。主要結果為6周和12周時VMS頻率和VMS平均頻率或打擾.
結果
在第12周結束時,幹預A組的VMS頻率變化(平均變化- 2.4 vm /d, 95% CI−3.0到−1.7)和VMS打擾(平均變化在4點尺度−0.5,95% CI−0.6到−0.4)與對照組B組(−2.6 vm /d, 95% CI−3.2到−2.0,P=0.43,−0.5點,95% CI−0.6到−0.4,P=0.75)無顯著差異。運動組在失眠症狀(P=0.03)、主觀睡眠質量(P=0.01)和抑鬱症狀(P=0.04)方麵的改善更大,但在調整P值進行多次比較時,差異很小,無統計學意義。當隻考慮堅持治療的婦女時,結果是相似的。
結論
這些發現提供了強有力的證據,12周的幹預A不能緩解VMS,但可能對久坐的中年婦女的睡眠質量、失眠和抑鬱有微小的改善.
對照組B是絕經期症狀的標準治療方法.
“沒有”誇大版本的結論
就絕經後婦女頻繁的VMS如潮熱、出汗而言,幹預A並不比對照B更有效。
對照組B是絕經期症狀的標準治療方法.
第二,規範了方法和結果部分。如果原始摘要中沒有提到主要的結果和結果(例如,OR,風險比,CI, P值),我們從文本中明確地說明了它們。因此,所有的摘要都有參與者理解方法和結果部分的主要結果的必要信息。為了使結論與摘要的其他部分保持一致,這一修改是必要的。如果沒有這一步,一個沒有過度陳述的摘要的結論將與同一摘要的其他部分不一致,因為一個沒有過度陳述的摘要的結論現在將基於原始摘要中沒有提及的實際主要結果進行重構。此外,當方法和結果報告基本信息時,這種標準化使得估計結論中誇大的影響成為可能。
第三,我們將幹預和對照治療的名稱改為匿名的“幹預A”和“對照B”,以盡量減少偏見。當有一個初級保健醫生似乎不熟悉的醫學術語(如VMS):潮熱、出汗和循環不暢時,我們添加了一些詞來解釋。最後,我們把課文翻譯成日語。除了結論之外,“有”或“沒有”誇大陳述的摘要是相同的。
我們建立了兩對研究人員,每對研究人員修改和翻譯了一半的摘要(“有”和“沒有”誇張)。然後,另一組檢查他們是否遵循了指導方針。沒有參與此次研究的另一位研究員(SK)檢查了翻譯結果。任何分歧都通過調查人員之間的討論來解決。
結果
我們的主要結果是參與者對所給摘要中所討論的幹預措施的有效性進行的數值評估:“在0到10的範圍內,您認為幹預措施A對患者的益處有多大,0表示完全沒有益處,10表示可能最有益處?”“我們還問了以下問題(從0分到10分,0分表示完全沒有,10分表示可能性很大)。
從0到10,你認為這個結論有效嗎?
從10分到10分,你有多願意閱讀這項研究的全文?
在您回答上述問題時,您對摘要的哪一部分引用最多?(背景/方法/結果/結論)
樣本大小
我們參考了之前研究中得到的0.25的效應量。16他們通過比較“有”和“沒有”的摘要對臨床研究人員的影響來估計自旋的影響。雖然我們的目標人群與之前的研究有所不同,但考慮到0.2的影響很小,26我們的目標是每個組的樣本量為253人,共506人,以檢測組間效應量為0.25,冪為90%,雙側alpha風險為5%。考慮到我們準備了5對有或沒有誇張的摘要,我們打算為每對登記100或更多的參與者。
統計分析
對於主要的分析,我們使用了一個線性混合效應模型,該模型具有固定的因子(用於幹預)和一個隨機截取的摘要,以解釋摘要的聚類效應(每個摘要有兩個版本:有或沒有過度陳述)。該模型通過使用非結構化協方差矩陣來解釋文摘內部的相關性。在進行研究分析之前,我們從我們的分析中排除了以下受試者,因此不知道任何結果:(1)那些不符合資格標準但被網絡係統錯誤分配的受試者;(2)那些符合資格但被隨機分配但沒有完成問卷或在問卷上花費少於30秒的受試者。TA和KS在不知道分配情況的情況下,使用SPSS統計24分析了數據。評估可能相關因素的影響3 27在解釋方麵,我們使用參與者進行了以下預先指定的亞組分析:(1)在診所工作,(2)隻從藥理學公司獲得信息,(3)有初級保健醫生的認證,(4)有作為首席研究員的經驗(這是事後的)。
盲數據解釋
對研究結果進行盲法解釋是Järvinen推薦的方法等19減少解讀偏差。按照他們的建議,我們在破解隨機編碼之前,盲目地解釋了結果。因此,我們根據兩種情況準備了兩種對結果的解釋:(1)假設A組有過度陳述,B組沒有過度陳述;(2)假設A組沒有過度陳述,B組有過度陳述。在同意不再做任何改變後,我們打破了隨機化代碼並選擇了正確的解釋。
道德的考慮
這項研究是根據《赫爾辛基宣言》進行的。我們獲得了每位參與者的在線參與同意。
結果
我們向7040名JPCA會員發出電郵邀請(圖1).在發送了一個提醒後,我們達到了目標樣本量510。在訪問網站的787個人中,有622個符合條件,並被隨機分配到無誇大(n=307)和有誇大(n=315)組。共有281名“沒有”組的醫生和286名“有”組的醫生被納入分析。每組“有”或“無”誇大陳述的參與者的數量如下:抽象模式1 (n=116), 2 (n=109), 3 (n=115), 4 (n=113)和5 (n=114)。在線補充附錄3提供每個抽象的進一步細分。
55人被排除在外,因為他們在網頁上花費的時間少於30秒(n=14)或沒有完成調查(n=41)。大多數參與者在4分鍾內(中等時間:162秒,IQR: 114-236秒)閱讀和評價摘要。
表2顯示參與者特征;76.5%是初級保健醫師。我們根據他們的認證對他們的子專業進行了分類。最常見的背景是內科。超過60%的參與者參加過循證醫學課程。約40%的醫生說,他們讀的第一部分是結論;隻有11%的學生首先閱讀了搜索結果部分。兩組之間沒有實質差異。
主要的結果
對於給定摘要中討論的幹預措施的益處的解釋,兩組之間沒有統計學上的顯著差異(平均差異:0.07,95% CI−0.28至0.42,P=0.69,根據Cohen’s d: 0.031計算的效應量)(表3).
次要結果和亞組分析
然而,兩組對結論有效性的感知存在顯著差異(平均差異:0.97,95% CI 0.59 ~ 1.36, P<0.001) (圖2).未過度表述組的人比過度表述組的人認為摘要更有效(科恩的效應值d為0.41)。當被問及他們是否想要閱讀全文時,沒有發現明顯的差異。在兩組中,大多數醫生參考結果部分進行評估。
我們進行了亞組分析,但在以下方麵沒有發現顯著差異:基於工作場所(診所,n=177,平均差異:0.04,95% CI - 0.67至0.74,P=0.91),一般信息來源(僅藥理學公司,n=43,平均差異:0.06,95% CI - 1.36至1.48,P=0.93),作為注冊初級保健醫生(n=434,平均差異:−0.01,95% CI−0.41 ~ 0.39,P=0.96)或沒有擔任首席研究員的經驗(n=367,平均差異:−0.10,95% CI−0.53 ~ 0.34,P=0.66)。
討論
我們表明,如果摘要包含了必要的主要結果信息,初級保健醫生不受結論部分的誇大影響。估計效應的95% CI(效應大小由科恩的d: 0.031, 95% CI−0.13至0.20)排除了即使是很小的效應的存在。在基線問卷中,42%的參與者回答他們在閱讀摘要時首先閱讀結論部分。然而,超過60%的人參考了結果部分來解釋他們所給的摘要。他們傾向於判斷誇大的結論不如沒有誇大的結論有效。這些結果表明,如果方法和結果部分報告了足夠的信息,那麼JPCA擁有最新臨床試驗知識的初級保健醫生不會被抽象結論中的誇大陳述所誤導。我們的亞組分析顯示,諸如工作場所、信息資源類型或擔任首席研究員的經驗等因素對結果影響不大。這些結果表明,參與者對研究報告具有良好的批判性評價能力,這有助於他們認識到結果與結論之間的不一致。
我們的結果在某些方麵與之前的研究不同。Boutron和同事的研究16表明摘要的解釋受到自旋的影響。“有旋轉的摘要”組認為幹預比沒有旋轉的組更有益,而“有旋轉”組對閱讀全文更感興趣。這與我們的主要研究結果相反。另一方麵,有自旋組對摘要的解釋不如無自旋組在方法論上嚴謹。這與我們的研究結果一致。
然而,我們必須考慮到波頓之間的設計差異等人的S研究和這個研究。首先,在他們的研究中旋轉的水平比在這項研究中要高得多。Boutron等為了研究抽象自旋的一般影響,他們從抽象中刪除了所有的自旋,並將這個“完美的”抽象與原始的抽象進行了比較。另一方麵,在我們的研究中,“有”和“沒有”組之間的差異僅限於結論部分,因為我們的目的是估計結論部分的過度陳述的影響。因此,我們在兩組的方法和結果部分增加了主要結果的信息。第二,參與者的基線特征不同。而所有的參與者都在研究Boutron等作為有經驗的臨床研究人員,我們選擇初級保健醫生作為我們的目標。盡管本研究的參與者幾乎沒有臨床研究經驗,但他們經常閱讀醫學文獻(90%的參與者在前一個月閱讀了不止一個摘要)。大多數參與者渴望學習循證醫學,並對批判性評估有一定的了解。另外,60%的患者在進行臨床解釋時參考結果部分。因此,他們的研究與我們的研究是互補的,而不是矛盾的。
限製和優勢
我們的優勢在於,這是第一項也是唯一一項對抽象結論中誇大陳述的影響進行評估的隨機對照研究。科學文章的作者喜歡使用有希望的、積極的詞彙28 29;盡管如此,我們證明,如果在其他部分提供了足夠的信息,誇大的結論不會影響讀者對結果的解釋。其次,我們評估了過度陳述在初級保健醫生中的影響,他們是證據的主要使用者。他們在日常臨床實踐中遇到臨床問題,並利用證據為患者做出最佳決策。因此,澄清初級保健醫生是否容易在抽象結論中過度陳述是很重要的。結果顯示,擁有最新試驗/研究信息知識的初級保健醫生不會被誇大的結論所誤導。
有一些限製。雖然參與者的數量超過了我們的目標樣本量,但它可能並沒有完全代表JPCA的成員。11.1%的相對較低的回複率(787/7040)限製了我們研究結果的普遍性。有兩件事需要注意。首先,我們選擇JPCA作為我們的招募池,因為這些成員被認為是在初級保健實踐中積極使用科學證據的代表。JPCA是唯一認證臨床醫生為初級保健醫生的組織,他們定期舉辦循證醫學研討會。然而,那些回應我們邀請的人可能是科學報告的熱心讀者,這就是他們自願參加這次評估的原因,因此,他們可能比其他JPCA成員有更好的摘要批判性評估技能。事實上,大多數參與者回答他們定期閱讀摘要。這表明他們不能代表日本所有初級保健醫生。此外,在沒有報告主要結果的必要信息的摘要中過度陳述或其他各種形式的不充分報告的影響沒有被衡量。 In our study, we added essential information on primary outcomes in the methods and results sections as recommended by a CONSORT statement.2超過60%的被試表示他們主要參考結果來評價摘要。相比之下,隻有大約15%的人根據結論進行評估。這意味著充分的結果報告對於解釋摘要是必要的。最後,我們不應過分概括過度陳述的類型或程度及其對解釋的影響之間的聯係。我們選擇了五個誇大程度不同的摘要作為樣本,但選擇並沒有涵蓋所有的自旋水平或所有類型的自旋。我們也沒有足夠的樣本量來探索這種關係。偏倚報告對臨床決策的影響有待進一步研究。
總之,我們的研究結果表明,當主要結果在方法和結果部分得到適當的報告時,明智和博學的臨床醫生能夠識別結果和結論之間的不一致,並對誤導性結論的有效性做出合理的判斷。然而,這並不意味著可以忽略誇大。摘要的結論部分應該僅僅基於主要結果結果來寫。不恰當的寫作風格對臨床環境的影響應該進一步研究。
致謝
我們感謝參與這項研究的人,組織和發送邀請電子郵件的A Igaki和對摘要翻譯進行複查的S Kishimoto。我們要感謝Editage (www.editage.jp)的英文編輯。
參考文獻
腳注
貢獻者論文的所有作者都對工作的概念或設計、幹預的發展和數據的獲取或解釋做出了貢獻。KS、TA、RS、YT和AMS參與了起草工作。MK和TAF對重要的知識內容進行了嚴格的修訂。RS設計並開發了該研究網站。TA和KS分析了數據。所有作者在投稿前對稿件進行了最終審定。
資金本研究得到了日本初級保健協會(批準號28-01-001)對KS的支持。
相互競爭的利益TAF獲得了禮來、Janssen、Meiji、Mitsubishi-Tanabe、MSD和輝瑞的講座費和武田科學基金會的谘詢費。他得到了Mochida和Mitsubishi-Tanabe的研究支持。
倫理批準京都大學醫學院倫理委員會。
來源和同行評審不是委托;外部同行評議。
數據共享聲明沒有其他數據。