條文本
摘要
目標調查目標樣本量和實際樣本量之間的差異,以及與樣本量相關的研究特征。
設計觀察性研究。
設置clinicaltrials.gov(從1999年開始)和ANZCTR(從2005年開始)的大型試驗注冊到2021年。
參與者超過28萬項介入研究,不包括因安全原因暫停、終止或擴大準入的研究。
主要結果測量實際樣本量與目標樣本量,以及實際樣本量與目標樣本量的研究內比值。
結果大多數研究規模較小:兩個數據庫中實際樣本量的中位數分別為60和52。隨著時間的推移,目標樣本量每5年減少9%-10%,實際樣本量每5年減少18%-21%。每5年的實際與目標樣本量之比降低了4.1%,這意味著更多的研究(平均)未能達到目標樣本量。
結論注冊的研究往往招募不足,而不是招募過多,令人擔憂的是,目標和實際樣本量似乎隨著時間的推移而減少,目標和實際樣本量之間的研究內部差距也在縮小。樣本量的減少和對研究力度不足的持續擔憂意味著需要對改善招募和獲取數據的障礙和促進因素進行更多的研究。
- 統計與研究方法
- 臨床試驗
- 流行病學
數據可用性聲明
數據可以在一個公共的、開放訪問的存儲庫中獲得。所有數據和代碼都可以從github數據庫中公開獲取:https://github.com/agbarnett/registries.
這是一篇根據知識共享署名非商業(CC BY-NC 4.0)許可發布的開放獲取文章,該許可允許其他人以非商業方式分發,重新混合,改編,構建此作品,並以不同的條款授權其衍生作品,前提是正確引用原始作品,提供適當的信譽,指出任何更改,並且非商業性使用。看到的:http://creativecommons.org/licenses/by-nc/4.0/.
來自Altmetric.com的統計數據
本研究的優勢和局限性
所有分析均使用兩個試驗注冊中心重複進行。
注冊中心的樣本量非常大,幾乎沒有丟失數據。
注冊表數據由研究人員完成,存在一些數據輸入錯誤和報告不完善的問題。
隨著時間的推移,所登記的研究類型發生了變化,因此隨著時間的推移,樣本量的差異應該根據這些變化來解釋。
介紹
樣本量是大多數研究設計的關鍵因素。研究人員應該致力於收集足夠大的樣本,以良好的統計能力來回答他們的研究問題,例如,招募足夠多的患者來證明兩種治療方法之間療效的假設差異。然而,研究人員不希望收集不必要的數據,因為這會浪費時間和資源。
目標樣本量應在研究設計階段估計。然後,研究人員收集數據,直到達到目標,或者直到他們的時間或金錢用完。這聽起來很簡單,但在實踐中,許多研究很難招募到他們的目標樣本量,招募困難是試驗提前結束的一個常見原因。1 - 3招募足夠的參與者對試驗的有效性至關重要,認識到招募試驗的困難,目前正在進行大量的研究工作,旨在增加招募和保留。4 5
樣本量不足意味著研究力度不足,因此真正的關聯可能會被遺漏或估計有很大的不確定性。理論工作已經表明,動力不足的研究如何導致了持續存在的低質量研究問題。6 7一般來說,需要更大的樣本量來解決低功率研究的普遍問題,8雖然小樣本通常適合於試點或可行性研究。
樣本大小的計算依賴於一係列應該反映當前知識的假設。這些假設的實際應用被批評為缺乏對不確定性的理解,以及逆向工程假設的方法來獲得期望的目標樣本量。9日10
在本文中,我們使用兩個包含健康和醫學研究信息的大型試驗注冊庫來檢查樣本量。我們檢查了目標樣本量和實際樣本量之間的差異,哪些研究特征與樣本量相關,以及樣本量是否隨著時間的推移而下降。其目的是為正在進行的改進研究設計和研究質量的工作做出貢獻。11
方法
試驗注冊
試驗登記製度的引入是為了解決未報告試驗的嚴重問題。12現在,沒有前瞻性注冊的試驗不能在任何知名醫學雜誌上發表,因此,盡管沒有消除未報告試驗或報告不佳的試驗的問題,但試驗登記已經得到了很好的吸收。13 - 16對於我們的目的,注冊表的高吸收提供了一個大而全麵的數據集來研究樣本大小。
試驗注冊表包含有關研究特征的詳細信息,包括研究設計、疾病、結果、關鍵日期和資金。研究人員負責發布和更新他們的研究。
我們從兩個大型試驗注冊中心下載數據:
澳大利亞新西蘭臨床試驗注冊中心(ANZCTR)成立於2005年。
由美國國家醫學圖書館運營的clinicaltrials.gov網站於1999年啟動,並於2000年向公眾開放。
選擇ANZCTR是因為作者熟悉該地區,而選擇clinicaltrials.gov是因為它是最大的國際注冊網站。這兩個登記處都提供了可供研究的數據。
倫理批準
所有的數據都是公開的,不涉及人類參與者,因此這項研究不需要倫理批準。
納入和排除標準
我們納入了介入性研究,未納入觀察性研究。這是因為這兩種研究類型不太可能具有可比性,並且有許多研究特征(例如,盲法)不適用於觀察性研究。幹預性研究是指參與者被前瞻性地分配到一種或多種與健康相關的幹預措施中,以研究幹預措施的效果。
我們從ANZCTR中排除了2005年注冊開始前的少量回顧性注冊試驗,以及少數缺少研究提交給ANZCTR日期的試驗(詳見下文)。
我們從clinicaltrials.gov網站上排除了由於這些研究的可用數據有限而處於“保留”狀態的研究。我們排除了因安全原因而終止的研究,因為它們可能使用比計劃更小的樣本量達到了目的。我們排除了擴大準入研究,因為我們不確定這些研究與介入性研究的可比性。我們排除了沒有說明樣本量類型的研究,因為我們必須知道樣本量是目標還是實際。我們排除了兩項使用虛擬樣本量的研究,例如“9 999 999”。為了避免重複計算,我們排除了具有ANZCTR編號的臨床試驗。gov研究。我們更喜歡ANZCTR的數據,因為它有更詳細的樣本量信息。除外條款見在線補充圖1.
我們納入了所有符合納入/排除標準的現有研究,沒有使用樣本量計算或正式的假設檢驗。
2021年2月1日以XML格式下載了兩個注冊表的數據,然後讀入R (V.4.0.3)。17已於2021年3月5日下載了clinicaltrials.gov的最新樣本量數據。所有用於複製數據提取和分析的代碼和數據都可以在GitHub (https://github.com/agbarnett/registries).18觀察性研究的結果報告采用《加強流行病學觀察性研究報告指南》。19
統計方法
樣本量模型
兩個注冊中心都有兩種樣本量度量:目標和實際。我們使用多元回歸來估計哪些研究特征與目標和實際樣本量相關。看到在線補充表1為不同注冊表的可用研究特征列表。對於實際樣本量的模型,我們將研究狀態(如“完成”)作為自變量納入,但對於目標樣本量的模型,我們沒有納入研究狀態,因為研究狀態發生在目標樣本量之後,因此任何關聯都不可能是因果關係。
clinicaltrials.gov數據庫不包括研究是否縱向的變量。因此,我們在每項研究的描述中搜索“縱向”,以提取該研究的設計變量。我們還搜索了“適應性”或“平台”試驗,以檢查這些研究設計是否影響樣本量。20.
樣本量有很強的正偏倚,有少數非常大的研究。為了改善模型擬合並減少一些非常大的研究的影響,我們對樣本量(基數e)進行了對數變換。因此,我們將研究特征的影響表示為幾何平均值的百分比變化,而不是樣本量的絕對差異。
一些研究特征在非常大的數字中有很小比例的正偏,例如,主要結局的數量(中位數為1,臨床試驗網站最大214)。為了減少一些大型研究過度影響結果的可能性,我們使用基數2對這些變量進行對數變換,因此參數是變量加倍時樣本量變化的百分比。
我們使用的大多數變量都是強製性的,這意味著研究人員必須完成它們,因此很少有遺漏的數據。對於研究目的而言,最多的缺失數據為2%。對於數據缺失的非強製性分類變量,我們將“缺失”作為其單獨的類別。我們的理由是,如果調查人員認為某個問題與他們的研究無關,他們可能不會完成這個問題,因此“缺失”應該類似於“不適用”。這避免了排除那些缺少少量數據的研究。項目丟失數據的詳細信息在在線補充附錄1.
我們使用彈性網方法從所有變量的較大子集中選擇關鍵變量。21我們使用10倍交叉驗證來選擇理想的懲罰,從而選擇最終模型中包含的變量。我們通過在最小交叉驗證均方誤差的一個SE範圍內選擇懲罰,使用了一個簡約模型。
我們使用5的閾值檢查了最終模型的方差膨脹因子以檢測共線性。我們檢查了最終模型的殘差,以驗證它們是單峰的,近似對稱的,並且沒有大的異常值。
目標與實際樣本量
我們計算了實際樣本數量除以目標樣本數量的比例,並創建了該比例的直方圖。我們使用中心50%和90%的研究來描述該比率的範圍。
為了估計哪些研究特征與樣本量比相關,我們使用了與樣本量模型相同的彈性網方法。該比率具有很強的正傾斜,因此對其進行對數變換(以e為底)以進行建模。
我們使用了實際與目標樣本量相對於平均樣本量((實際+目標)/ 2)的Bland-Altman圖。目的是觀察小樣本量和/或大樣本量的比值是否縮小。我們對比率(以e為底)進行了對數變換,因為樣本量有很強的正偏態。由於樣本量非常大,使用單個研究的標準Bland-Altman散點圖過於混亂,因此我們使用平鋪圖來總結箱子中的研究。
我們使用Bland-Altman一致性極限來顯示覆蓋95%數據的觀察比率範圍。然而,標準限值假設所有樣本量的比率都是恒定的,這對於這些數據似乎是無效的。因此,我們使用貝葉斯模型,並使用八次方的分數多項式方法,允許一致性極限的均值和方差隨平均樣本量而變化: 22(見在線補充附錄2).我們擬合了64個(8 × 8)獨立的模型,以涵蓋所有的均值和方差組合,並使用偏差信息準則(DIC)選擇了最佳模型。23(見在線補充圖2).因為比例分布有長尾,所以我們使用了4個自由度的t分布而不是正態分布,這樣可以更好地擬合數據(DIC改進超過4000)。對於clinicaltrials.gov的數據,由於馬爾可夫鏈蒙特卡洛估計需要時間,我們使用10,000個研究(總數的8%)的隨機樣本來擬合這些貝葉斯模型。
采用JAGS軟件(V.4.3.0)擬合貝葉斯模型。24我們對所有參數使用模糊的正常先驗。我們使用了兩根減薄三根的鏈條,樣本為2000。我們直觀地檢查了鏈的收斂和混合(參見在線補充圖3).
病人及公眾參與
沒有患者或公眾成員參與本研究的設計、實施或報告。
結果
納入研究的數量和排除的原因見在線補充圖1.最終分析了來自ANZCTR的17510項研究和來自clinicaltrials.gov的272 160項研究。
納入研究的一些基本特征如下表1.ANZCTR的中位目標樣本量為66,clinicaltrials.gov的中位目標樣本量為78。ANZCTR的實際樣本量中位數為60,clinicaltrials.gov的實際樣本量中位數為52。關於這兩個數據庫的其他摘要統計數據見在線補充附錄1.
目標與實際樣本量
ANZCTR中有目標和實際樣本量的研究數量為5712項,clinicaltrials.gov中有121 603項。
實際樣本量與目標樣本量之比的直方圖如下圖1.許多研究達到了他們的目標,很大一部分也剛好低於他們的目標。直方圖在1附近是不對稱的,與超過目標的研究相比,沒有達到目標的研究的“肩膀”更大。
對於ANZCTR來說,中心50%的研究的比例在低於目標22%到等於目標22%之間。中間90%的研究的比例在低於目標的53%到高於目標的13%之間。在clinicaltrials.gov網站上,中心50%的研究有43%低於目標,2%高於目標。中心90%的研究有86%低於目標,23%高於目標。
樣本容量比與平均樣本容量的Bland-Altman圖如圖所示圖2.許多平均樣本量在10到200之間的研究都達到了目標樣本量。兩個數據庫中樣本量越大,估計的一致限度就越窄。
對於ANZCTR數據,平均樣本量為50時,樣本量比的95%一致性限為0.58-1.38,平均樣本量為500時,一致性限略微收窄至0.64-1.39。有少數研究遠遠高於或低於一致的限度,特別是在5-500個樣本量範圍內的研究遠遠低於其目標。
對於clinicaltrials.gov網站的數據,95%的一致性限製通常更寬。平均樣本量為50時,95%的一致性限為0.37-1.84,平均樣本量為500時,一致性限收窄至0.63-1.54。圖左下角的對角線研究是目標樣本量較小的研究,沒有招募參與者。
實際與目標樣本量之比模型
我們使用多變量回歸來估計哪些研究特征與實際與目標樣本量比相關。估計數列於圖3,以變化百分比表示,並在在線補充表2.
更大的目標樣本量與更低的實際與目標比率相關,這意味著更小的實際樣本量(每增加一倍目標樣本量就減少5.7%)。實際與目標的比率隨著時間的推移而降低(每5年降低4.3%)。
有更多手臂和更多次要結果的研究與更高的比率相關,包括健康誌願者的研究也是如此。
由美國國立衛生研究院(NIH)或美國聯邦機構(包括食品和藥物管理局)資助的研究的平均實際與目標比率較低,為7.0%-10.3%,而行業資助的研究的平均比率高出18.1%。
在研究設計方麵,具有某種掩蔽類型的研究的實際靶比略高,而單組研究的實際靶比略低。
與已完成的研究相比,早期停止的研究的比例小73.2% (95% CI -73.5至-72.9),而退出的研究的比例小99.9% (95% CI -99.9至-99.9)。
實際樣本量可能小於目標樣本量的一個原因是適應性試驗可能需要比原計劃更少的患者。然而,在clinicaltrials.gov數據中隻有168項(<0.1%)適應性試驗,因此該變量不太可能影響總體結果,因此沒有在彈性網絡中選擇。
ANZCTR的樣本容量模型
在這裏,我們檢查非配對數據的目標和實際樣本量。ANZCTR數據庫樣本大小的估計百分比差異顯示在表2並繪製在圖4.
一些聯係如預期的那樣。更多的資助人和更多的資源意味著更大的樣本量。沒有年齡限製的研究比有年齡限製的研究要大。後期階段的樣本量普遍增加。生物等效性研究的樣本量超過30%,因為證明等效性通常比證明有效性需要更多的參與者。允許健康誌願者參與的研究規模更大,可能是因為它增加了可用的參與者數量。因子設計比平行研究大20%以上,以解釋額外的比較,而交叉研究小60%以上,因為關鍵的比較是在參與者內部。預防研究比治療研究大25%以上,篩查研究大130%以上。公共衛生研究的規模超過60%。
令人驚訝的是,更多的主要結果與更小的樣本量有關,盡管更多的次要結果與更大的樣本量有關。
與兩種性別的研究相比,男性研究的實際樣本量隻小了16%左右,而女性研究的樣本量隻大了19%。
實際樣本量的許多關聯反映了目標樣本量的關聯。一個顯著的區別是,實際樣本量的減少趨勢要大得多,實際樣本量每5年減少21%,而目標樣本量每5年減少10%。
實際樣本量的模型包括研究狀態,當研究提前停止或撤回時,研究狀態是樣本量的重要決定因素。
臨床試驗的樣本量模型。gov
clinicaltrials.gov數據庫中樣本量的估計差異百分比顯示在表3並繪製在圖5.
正如預期的那樣,如果有資金支持,研究規模會更大。如果他們有更多的手臂或更多的條件,研究也會更大。令人驚訝的是,具有更多主要結果的研究與較小的樣本量相關,盡管減少幅度很小,每增加一倍的結果在-4%以下。
隨著時間的推移,目標樣本量每5年減少-7%,實際樣本量減少-18%。
根據ANZCTR數據庫的結果,僅針對女性的研究規模更大,而僅針對男性的研究規模小於同時針對男性和女性的研究。
衛生服務研究比治療研究多150%,篩查研究多250%。
使用掩蔽的研究比不使用掩蔽的研究要小,可能是因為它們更不容易混淆。有些令人驚訝的是,非隨機研究比隨機研究小20%左右,而隨機研究更容易產生混淆,因此可能需要更大的樣本量。適應性或平台試驗的規模超過50%。縱向研究的數據超過24%。
毫不奇怪,那些被暫停、終止或撤回的研究的樣本量大大減少。與已完成的研究相比,研究狀態未知的研究樣本量更大
討論
對於實際樣本量與目標樣本量之比,雖然模態值符合目標,但第90百分位數不對稱,低於目標的研究多於高於目標的研究(圖1).這反映了實現目標樣本規模的許多挑戰,包括道德和治理方麵的困難,尋找和招募參與者的困難,以及時間或資金的耗盡。較大的研究通常更接近其目標樣本量(圖2),但差距不大。
兩個數據庫的結果都顯示,隨著時間的推移,樣本量大幅減少。有趣的是,目標樣本量每5年減少7%-10%,而實際減少18%-21%,這證實了招募研究參與者的難度普遍增加。隨著時間的推移,較低的實際與目標樣本量比率證實了這一發現。較小的實際樣本量意味著研究可能會對meta分析的統計能力和不確定性產生流動效應。25
最近一項對健康文獻的觀察性分析顯示,從1990年到2015年,平均效應量明顯下降。26我們期望隨著時間的推移,更大的平均樣本量可以用足夠的統計能力來研究這些較小的影響。我們發現更小的樣本量(實際和目標)對統計能力有影響,並強烈表明研究能力不足的問題仍在繼續。一項對1975年至2014年Cochrane係統評價數據庫的研究估計,足夠有力的研究比例從1975 - 1979年的5%上升到2010-2014年的9%。8另一項來自Cochrane數據庫的臨床試驗研究估計,隨著時間的推移,足夠有力的研究的OR為每年1.02。27我們的研究結果表明,考慮到樣本數量的平均減少,這種先前功率的小幅增加現在可能麵臨風險。
在這兩個數據庫中,僅限女性的研究多於僅限男性的研究(10%僅限女性vs 5%僅限男性),而且在這兩個數據庫中,僅限女性的研究規模更大。這一差異的部分原因可能是為婦女健康研究提供資金的舉措,以彌補試驗中婦女的曆史短缺。28為了檢查其他差異,我們檢查了clinicaltrials.gov數據庫中僅針對女性和男性研究的簡短標題中的前10個單詞(見在線補充表3).“癌症”和“乳房”是僅針對女性的研究中最常見的兩個詞,“研究”、“前列腺”和“癌症”是僅針對男性的研究中最常見的三個詞。因此,樣本量的差異可能是由於這兩種癌症的主要結果和效應大小的差異。
此前對clinicaltrials.gov網站數據的一項研究調查了2007年至2010年間的臨床試驗,發現62%的試驗參與者不超過100人。29clinicaltrials.gov的另一項研究發現,在2000年至2019年期間,完成研究的實際樣本量有所下降。30.一項對114項試驗的研究發現,隻有31%的試驗達到了目標樣本量。31一項由美國國立衛生研究院資助的臨床試驗研究發現,2005年至2015年間,報名人數超過500或1000人的比例相對穩定。32對臨床試驗為何提前終止的研究發現,招募患者的問題是最常見的原因。1 - 3到三十五預測實際樣本量小於目標樣本量的試驗特征是與3期研究相比的2期研究,更多的資格標準,與安慰劑相比的主動控製,較少的地點和公共資助與行業資助相比。33這些結果與我們的研究階段和行業資金相符,盡管我們發現主動控製的效果略好於安慰劑。圖4和5).
優勢與局限
我們分析了兩個數據庫,並在研究特征與樣本量相關方麵發現了基本一致的結果,這增加了我們結果的穩健性。
一個關鍵的優勢是從試驗注冊中心數據中獲得的大樣本量。研究人員有很強的動機在招募任何參與者之前注冊試驗,這意味著注冊數據應該代表所有試驗的目標人群。然而,有記錄的問題是,試驗沒有更新以包括結果和招募狀況。15 36對我們的研究來說,這意味著實際樣本量將會缺失,對於實際樣本量遠低於目標的研究,很可能存在報告不足的偏倚。因此,我們的結果可能會呈現出實際與目標樣本量比的一些樂觀的畫麵。
數據庫記錄了許多試驗特征,幾乎沒有丟失數據。隨著時間的推移,clinicaltrials.gov上的研究的完成率有所提高,自2007年以來,在分配、屏蔽、性別、入組和研究部門等關鍵領域,完成率超過90%。37一項針對製藥公司發布的2-3期臨床試驗的完整性的研究發現,不完整的數據通常低於3%。38
注冊數據依賴於研究人員正確輸入和更新他們的研究細節,很可能存在數據輸入錯誤和報告不完善的情況。例如,我們發現一項研究在描述文本中提到了年齡限製,但沒有在年齡限製字段中提到。我們還發現了一些集群隨機研究,其中預期樣本量是集群的數量,實際樣本量是參與者的數量(我們排除了這六項研究)。
關於每項研究的實際資金數額的數據是有用的,這樣就可以建立一個實際的美元價值模型,而不是簡單的資助者數量和資助類別的變量。
結論
注冊的研究往往招募不足,而不是招募過多,令人失望的是,目標和實際樣本量似乎隨著時間的推移而減少。如果這是真的,這是值得關注的,值得研究人員和資助者關注,以研究問題的原因和解決方案。這可能包括了解招聘的障礙,使用基於證據的招聘流程39以及鼓勵增加多中心研究的使用。我們建議持續實施循證幹預措施,以增加樣本量並進一步監測樣本量。
數據可用性聲明
數據可以在一個公共的、開放訪問的存儲庫中獲得。所有數據和代碼都可以從github數據庫中公開獲取:https://github.com/agbarnett/registries.
倫理語句
患者同意發表
倫理批準
這項研究不涉及人類參與者。
致謝
感謝國家醫學圖書館和ANZCTR為研究提供注冊數據。感謝Nicholas De Vito對clinicaltrials.gov數據的幫助。感謝Andrew Althouse和Noah Haber對初稿的有益評論。
參考文獻
補充材料
腳注
推特@aidybarnett
貢獻者研究設計和數據解釋:AGB和PG.數據分析和初稿起草:AGB。手稿早期和最終版本的關鍵審查:PG. AB是擔保人。
資金這項工作得到了國家衛生和醫學研究委員會(https://www.nhmrc.gov.au/)資助編號APP1117784。資助者在研究設計、數據收集和分析、決定發表或準備手稿方麵沒有任何作用。
相互競爭的利益Paul Glasziou是ANZCTR谘詢委員會的成員。
出處和同行評審不是委托;外部同行評審。
補充材料本內容由作者提供。它沒有經過英國醫學雜誌出版集團有限公司(BMJ)的審查,也可能沒有經過同行評審。討論的任何意見或建議僅僅是作者的意見或建議,不被BMJ認可。BMJ不承擔所有的責任和責任,因為任何依賴放置在內容上。如果內容包含任何翻譯材料,BMJ不保證翻譯的準確性和可靠性(包括但不限於當地法規,臨床指南,術語,藥物名稱和藥物劑量),並且不對翻譯和改編或其他方式引起的任何錯誤和/或遺漏負責。