條文本
摘要
背景越來越多的研究報告了CT掃描測量腫瘤大小的觀察者間差異。目前尚不清楚傳統的統計指標能否正確評估CT測量的一致性,以優化治療管理和決策。我們比較和評估了現有的評估癌症病變CT測量中觀察者間變異性的方法。
方法13名委員會認證的放射科醫生反複回顧了通過隨機化過程選擇的10組肺部病變和肝轉移的CT圖像。根據RECIST 1.1(實體腫瘤反應評估標準)指南,共收集了130項測量數據用於演示。選擇類內相關係數(ICC)、Bland-Altman作圖法和離群點計數法進行比較。每個選擇的測量方法用於評估三個觀察到的、增加的和減少的觀察者間變異性的病例。
結果在評估放射科醫生之間不同水平的觀察者間變異時,ICC評分產生了弱檢測(增加:0.912;觀察:0.962;降低:0.990)。使用Bland-Altman繪圖和2SD的離群點計數方法根本沒有檢測到,無論觀察者之間的變化程度如何,離群點的數量都沒有變化。與傳統測量方法相比,基於領域知識的離群值計數對不同水平的觀察者間變異更敏感(增加:0.756;觀察:0.923;改善:1.000)。成對Bland-Altman偏倚的可視化也對觀察者間的可變性敏感,其模式隨著不同水平的觀察者間可變性而迅速變化。
結論在評估放射科醫生之間不同水平的觀察者間變異時,常規措施可能產生弱檢測或不檢測。我們觀察到,基於領域知識的異常值計數對癌症病變CT測量中的觀察者間變異性敏感。我們的研究表明,在某些情況下,使用標準統計相關係數可能會產生誤導,並導致與最佳治療管理和決策的測量一致性相關的虛假安全感。
- 計算機斷層掃描
- 保健質量
- 協議和指南
- 成人腫瘤
這是一篇開放獲取的文章,根據創作共用署名非商業(CC BY-NC 4.0)許可證發布,該許可證允許其他人以非商業方式分發、混音、改編、在此基礎上進行構建,並以不同的條款許可其衍生作品,前提是正確引用原始作品,給予適當的榮譽,任何更改都已注明,並且使用是非商業性的。看到的:http://creativecommons.org/licenses/by-nc/4.0/.
數據來自Altmetric.com
本研究的優勢和局限性
雖然一些傳統的統計措施經常被用於評估輻射測量中的觀察者之間的變異性,但很少有比較研究已經進行量化措施的相對優點。
該研究表明,沒有證據支持使用統計相關係數來評估觀察者間CT測量變異性。
這是在一個學術健康中心進行的回顧性研究。
另一個限製可能是在高度控製的環境下收集的測量數據,放射科醫生在整個數據收集過程中很少被打斷。
背景
腫瘤負荷變化是反映癌症治療效果的重要替代指標,腫瘤治療的臨床評價是基於腫瘤負荷變化的評估。腫瘤負荷的綜合評估通常涉及多個腫瘤直徑的一係列測量。測量的準確性和一致性是必不可少的;當由多個放射科醫生進行連續測量時,測量腫瘤大小的巨大觀察者間變異性可能會幹擾癌症治療反應的精確評估。一些研究表明,放射科醫生依賴的因素(例如,首選指南,測量技術,多年的臨床經驗)可能會導致解剖測量的變異性。1 - 6當患者的重複CT成像被分配給不同於最初測量腫瘤的放射科醫生時,可能存在與觀察者間差異相關的潛在患者風險增加。因此,由於放射科醫生之間的差異而導致的臨床分歧可能會導致治療管理的不必要變化。
評價放射測量中觀察者間變異性的主要方法通常包括基於統計相關係數和Bland-Altman圖的測量。2 7 - 14類內相關係數(ICC)是一種廣泛使用的可靠度度量,用來比較同一評級機構不同評級的變異性與所有評級機構和所有評級機構之間的總變異性。15當評分尺度為連續或有序時,該信度測量可用於測試-重測、評分者內部和評分者之間的信度分析。Bland-Altman繪圖是另一種流行的探索性分析方法,當兩個配對測量使用相同的量表時,用於評分者內部和評分者之間的可靠性。16
雖然這些措施在許多其他領域都是有用的評估工具,17日它們在評估放射測量中的可變性方麵的應用還沒有得到充分的探索。在評估放射科醫生之間的觀察者間測量變異性時,很少有研究調查這些措施的絕對有效性或比較有效性。盡管多項統計研究明確警告了在某些情況下使用基於相關性的測量和可視化,15 21 - 25日目前尚不清楚這些措施是否足以適當地評估觀察者之間的可變性。因此,也不知道這些測量是否可以用於旨在減少測量中的觀察者間變異性的介入研究。6先前關於放射測量中觀察者間變異性的研究報告的相關係數得分在0.860至0.999之間。2 7-11 14從放射科醫生的角度來看,這些數字除了分數非常高之外,幾乎沒有提供關於觀察者間變異性水平的臨床見解。多高的分數是觀察者間差異小的問題有待進一步研究。
在本文中,我們使用具有不同水平的觀察者間測量變異性的病例,比較了CT病變測量中觀察者間變異性的不同評估措施的敏感性和臨床有用性。此外,使用這些測量方法對病例進行評估,以提供更好的臨床見解,以解決在日常臨床實踐中得分應該多高才能達到臨床可接受的測量變異性的問題。
方法
我們的演示基於三個病例,這些病例由真實的臨床觀察數據產生,觀察者之間的測量變異性增加、觀察到和減少。下麵詳細描述了如何為每個案例生成數據。觀察數據集來自美國東南部Prisma衛生係統放射科進行的單點雙盲觀察性研究。該研究於2017年7月至2017年12月期間進行。放射科在一個學術健康中心運作,但不培訓放射科住院醫生。
收集觀測數據
數據來自13名經委員會認證的放射科醫生,他們定期閱讀肺部病變和肝轉移的CT檢查。從圖片存檔和通信係統(PACS)中隨機選擇5個肺部病變和5個肝轉移樣本,遵循兩個主要標準:(1)根據實體腫瘤反應評估標準(RECIST) 1.1指南,病變是否可測量;(2)病變是否在臨床實踐中常見。看到在線補充材料1,即所選圖像。這些CT圖像包含正常的頭部解剖和尾側病變感興趣。每個CT圖像集不包含任何關於測量的建議。13名放射科醫生獨立審查了相同的10組CT圖像,共進行了130次測量(13×10)。個別放射科醫生根據自己的喜好調整窗口水平,就像他們在臨床實踐中那樣。根據RECIST 1.1標準,隻收集腫瘤圖像的最長CT軸及其相應的測量值。
創建具有不同級別的觀察者間可變性的案例
原始觀測數據用於生成觀察者間測量變異性增加、觀察到的和減少的病例。被分類為增加、觀察到或減少的變異性的程度並不表示測量變異性的絕對水平;這些分類被用來表示不同的病例,具有相對較高或相對較低的觀察者間變異性。原始觀測數據作為代表有觀測到的觀察者間測量變異性的案例的數據。
通過將觀測數據中的每個測量值移離最近的對等測量值,我們生成了表示觀察者間可變性增加的情況的數據。具體來說,我們通過將每個測量值與相應中位數的偏差增加40%來誇大觀察者間的可變性,以創建一個明顯不可接受的測量可變性的案例。同樣,在觀察者間變異性降低的情況下,每個測量值與相應中位數的偏差降低了40%,圖1.每個測量值與相應中位數之間的百分比差異使用所有CT圖像集的散點圖進行可視化,圖2.每個案例的原始數據都可以在在線補充材料2.
所選比較措施的描述
我們選擇了基於ICC和Bland-Altman圖的評價指標,這些指標通常用於CT測量中觀察者內部和觀察者之間的變異性的評估。2 7 - 14雖然Bland-Altman圖是一種圖形方法而不是統計測量,但一些備受尊敬的研究使用該圖來跟蹤2SD一致性上限和下限(LOA)之外的許多離群值測量差異。2 14 26因此,我們使用一些超過上下LOA的數據點來量化Bland-Altman圖。繪圖同時比較了兩名放射科醫生;對於每個病例,我們對一組放射科醫生中所有可能的配對進行了Bland-Altman成對分析,並統計了所有配對中的異常值總數,在線補充材料3.如果Bland-Altman圖中的異常值數量對不同級別的觀察者間變異性敏感,則在觀察者間變異性增加的情況下,會觀察到更多的異常值(即更高比例的異常值測量差異)。
在臨床環境中,這種成對的方法探討了如何安全地將患者從一組放射科醫生轉移到另一組放射科醫生。如果兩名放射科醫生檢查了同一組CT病例,但建議的測量值彼此有很大差異,則可能與放射科醫生之間的患者轉移有關。同樣地,如果兩名放射科醫生複查了同一組CT病例,並建議了彼此相似的測量值,則與患者轉移相關的擔憂可能是微不足道的。有更多的對和更少的異常值測量差異可能意味著當一個病人由多個放射科醫生複查時,較少關注觀察者之間的變異性。
統計分析
我們比較了三種評價方法進行比較:(1)ICC, (2) Bland-Altman plot (LOA為2SD)和(3)Bland-Altman plot (LOA為20%)。對於ICC評分的估計,一個雙向隨機效應模型通過結合病變效應(目標效應)和放射科醫生效應(評分者效應)對模擬和觀察數據進行了評估,從而表征了絕對一致。2 19 27 28ICC評分基於每個病例的所有130項測量(增加、觀察和減少)進行估計。
Bland-Altman圖允許數據同時作為單位差異圖和百分比差異圖進行分析,16我們使用百分比差異圖,建議在以前的研究文獻。2 14 28通過計算上下LOA數據點的比例,將LOA為2SD的Bland-Altman圖量化為評分值。
將固定限為20%的Bland-Altman圖量化為評分值,與ICC和標準限為2SD的Bland-Altman圖進行比較。已經有一些臨床研究使用Bland-Altman圖,並通過相關領域知識證明了固定的一致性界限。29 30這基本上與其他使用臨床領域知識來定義異常值的研究一致。31-34我們將最大可接受LOA固定為臨床指南所證明的20%,以評估放射科醫生之間的測量互換性。癌症治療反應評估的主要指導方針,RECIST 1.1,在很大程度上取決於病變直徑的百分比差異,其進展定義為最長直徑之和增加20%。35 36在CT測量中,放射科醫生之間的絕對差異已經超過20%,當患者由不同的放射科醫生複查時,可能會幹擾指南中20%標準的應用。因此,將20%的測量差作為Bland-Altman圖的固定LOA。在放射測量中,這意味著兩個放射科醫生複查同一圖像時,測量差值超過20%,即為離群值測量差值。
Bland-Altman圖還允許識別兩個觀察者之間的任何係統差異(測量的平均差異)。對於每一種觀察者間變異的情況,對所有可能的對(n=78)計算測量的平均差值,並在熱圖中可視化,圖3.
患者和公眾參與
患者和/或公眾沒有參與本研究的設計、實施、報告或傳播計劃。
結果
研究納入的CT圖像集的特征
研究中包含的每個CT圖像集由多個CT切片組成,平均7.6張圖像,表1.肝轉移灶最小為1.68 cm ~ 2.21 cm,最大為5.32 cm ~ 6.72 cm。肺部病變最小值為1.27 ~ 1.68 cm,最大值為3.69 ~ 5.02 cm。在觀察到的數據中,肝轉移5的測量值差異最大,最小值和最大值之間相差33.1%。肺病變2的測量值差異最小,最小值和最大值之間的差異為14.5%。
具有不同程度的觀察者間變異的病例特征
每個病例的數據可視化圖表顯示了不同程度的觀察者之間的差異,圖2.原始觀測數據的可視化顯示,在淺藍色區域外的31個(23.8%)測量值表明,每個情況的平均測量值之間的間隔為正負10%。此外,在一些CT圖像集中觀察到相對較高的測量變化,病變對觀察者間變異性的影響。觀察者間可變性減少的情況的可視化顯示了閾值之外的少量測量,其中3次(2.3%)測量位於正負10%區間之外。隨著每個測量值與相應中位數的偏差的減小,所有測量值都向平均值移動,並更接近於演示的目的。另一方麵,在觀察者間可變性增加的情況下,閾值之外有相對大量的測量值,其中50個(38.5%)測量值位於正負10%區間之外。此外,還觀察到,所有測量值不僅偏離了中位數,而且按照預期彼此之間的距離也更遠了。
Bland-Altman分析的可視化
所有放射科醫生對平均百分比測量差異(固定偏置)的熱圖可視化顯示,所有對之間的差異水平不同,圖3.一些放射科醫生的平均差異比其他人低。在原始觀測數據的熱圖中,放射學家11和放射學家13對觀測到的測量係統差異最小;在回顧同一組CT圖像時,他們的測量值平均保持0.03%的差異。放射學家1和放射學家6的係統測量差異最大。當回顧同一組CT圖像時,他們測量的係統差異為13.6%。據觀察,一些放射科醫生比其他人更多地歸因於觀察者之間的變異性;放射科醫生1和10通常高估了病變的大小,而放射科醫生2和6通常低估了病變的大小。
從觀察者間變異性增加的病例中可視化的熱圖顯示,與其他病例相比,任何兩名放射科醫生之間的係統測量差異增加。類似地,從觀察者間可變性減少的情況下的熱圖可視化顯示,與其他情況相比,係統測量差異減少。總體而言,觀察者間變異性相對較高的病例往往表現出任何兩個放射科醫生之間係統測量差異的增加,以及在複查同一組CT圖像時,更多對放射科醫生的係統測量差異接近20%。
所選措施的比較
原始觀測數據的ICC得分為0.962。在觀察者間變異性增加和減少的情況下,ICC得分分別為0.990和0.912。每個測量值相對於相應中位數的偏差百分比增加與ICC評分(R2= 1.00),圖4.然而,關聯的強度極低;偏差增加10%與ICC評分下降0.01相關。結果,表示偏差增加百分比與相應的ICC分數之間關係的圖表呈現了幾乎平坦的斜率,這意味著分數對偏差的變化極不敏感。
原始觀測數據達到了0.937的Bland-Altman標準評分,即93.7%的數據點處於上下LOA範圍內,6.3%的數據點異常值。基於標準Bland-Altman的評分呈平坦斜率,無論觀察者間的變異程度如何,其評分都不變(標準Bland-Altman評分=0.937)。
提出的Bland-Altman評分與固定限度比其他措施更能響應情況的變化。在觀察者間可變性降低的情況下,在回顧相同的CT圖像集時,所有對的差異都被確定為小於20%(固定限製Bland-Altman評分=1.0)。原始觀測數據表明Bland-Altman評分的固定界限為0.923,所有可能的成對測量中92.3%的百分比差異小於20%。在觀察者間變異性增加的情況下,75.6%的測量值在回顧相同的CT圖像集時被確定具有小於20%的差異。增加病例數與觀測數據之間的Bland-Altman固定限值變化為0.167(0.756 ~ 0.923),增加病例數與觀測數據之間的Bland-Altman固定限值變化為0.077(0.923 ~ 1.000)。圖4.
討論
在CT掃描中一致測量癌症病變的重要性已經得到了充分的證明。10 35 36我們使用傳統的評估措施和不同的案例進行了廣泛的模擬研究,這些案例具有不同程度的觀察者之間的可變性。我們的研究調查了這些測量的精度,發現一些測量不夠敏感,無法檢測出放射測量中具有臨床理想和臨床不可接受的觀察者間變異性的病例之間的差異。
McErlean之前的研究等和趙等采用統計相關係數和標準Bland-Altman圖作為主要衡量標準,得出連續CT測量可以安全地由不同的放射科醫生進行。2 7我們的研究表明,基於相關性的測量可能無法作為觀察者間可變性的真實指標。當分析觀察到的數據時,我們研究中的放射科醫生取得了與以往研究相當的高ICC評分。2 13然而,如上所述,在放射測量的背景下,較高的ICC評分並不總是保證低的觀察者間變異性。我們的分析表明,無論放射科醫生之間的觀察者間變異程度如何,基於統計相關性的測量可能會產生高分。因此,在組內獲得較高ICC評分的放射科醫生可能無法保持臨床合理的測量一致性。例如,一組讀者的ICC得分為0.9,通常在許多其他領域都被認為是優秀的。36 37然而,在癌症治療反應評估的情況下,ICC評分為0.9可能會引起嚴重的患者安全問題,因為放射科醫生在審查相同的CT圖像集時,彼此之間的測量平均值總是至少有10%的差異。在觀察者間變異性增加的病例中,ICC評分為0.91仍不足以達到臨床可接受的CT測量觀察者間變異性,參與研究的放射科醫生證實了這一點。在線補充材料2.盡管在觀察者間變異性增加的情況下觀察到變異性的不切實際的高增加,但ICC評分未能提供足夠的警告。
另一項測量,來自標準Bland-Altman標繪的異常值計數,具有2SD上下LOA,對CT測量中不同水平的觀察者間變異性沒有響應。據觀察,其上限和下限隨測量變量成比例增加,圖5.我們的分析表明,沒有證據支持其用於評估CT測量可變性或異常值檢測。
雖然在不同的病例中,標準Bland-Altman和ICC評分變化不大,但在觀察者間變異性增加、觀察到和減少的病例中,采用20%固定限製的Bland-Altman評分迅速變化。由於其自我描述的性質,所呈現的分數也可以直觀地解釋;得分從0.923下降到0.756,意味著差異小於20%的成對測量的百分比從92.3%下降到75.6%。如文獻所述,癌症治療反應評估的主要指導方針將直徑增加20%定義為癌症進展的分界點。如果在同一CT圖像集上,多對測量值有20%或更高的測量值差異,當不同的放射科醫生複查患者時,這可能會幹擾指南中20%標準的應用。固定界限Bland-Altman評分在回顧同一圖像集時,有可能檢測到測量差異小於20%的對數減少,這可能更好地促進指南的應用。
Bland-Altman熱圖的兩兩係統差異提供了一些有用的見解,如何在介入研究中解決觀察者之間的可變性。可視化發現了與同行相比,放射科醫生在很大程度上測量不足或過度測量,這可能是幹預以減少可變性的潛在目標。當患者從一個放射科醫生轉到另一個放射科醫生或由不同的放射科醫生複查時,就會意識到與觀察者間變異性相關的風險。成對的方法可視化係統的差異,也可能是有用的,通過確定一對放射科醫生,他們的測量結果通常相差很大,以解決風險。
這是一項在單一學術健康中心進行的回顧性研究。未來的研究可能會將我們的方法擴展到更多的測量,使用來自多個機構的放射科醫生使用的各種反應評估標準。該研究的一個潛在限製可能來自圖像選擇過程。雖然圖像是從衛生係統PACS中隨機選擇的,但選擇標準的應用是由一位高級放射科醫生執行的。選擇標準是在日常臨床實踐中是否經常遇到圖像,這可能會導致圖像選擇的偏倚。另一個限製是測量是在高度控製的環境下收集的,放射科醫生在數據收集過程中很少被打斷。人們普遍認為,在現實世界的臨床實踐中,一個人的實際表現可能會受到繁重的工作量或各種類型的幹擾的負麵影響。最後,未來的研究有必要探索其他現有的評估方法。例如,雖然估計回歸線的可靠性取決於樣本量、差異分布的同方差和正態性,但對差異均值的回歸可以揭示不一致的範圍是否取決於兩個測量值的平均值。
結論
在評估放射科醫生之間不同水平的觀察者間變異時,常規措施可能產生弱檢測或不檢測。我們觀察到,基於領域知識的異常值計數對癌症病變CT測量中的觀察者間變異性敏感。我們的研究表明,在某些情況下,使用標準統計相關係數可能會產生誤導,並導致與測量一致性相關的虛假安全感。基於成對方法識別係統差異的可視化可以作為未來努力減少輻射測量中觀察者間可變性的有用和實用工具。
致謝
作者對Prisma醫療係統的放射科醫生表示感謝。我們也感謝克萊姆森大學公共衛生科學係的卡倫·愛德華茲女士在後勤和監管方麵的支持。
參考文獻
腳注
推特@amdevane
貢獻者MW設計了這項研究,分析了數據並編寫了手稿。MH對數據分析和關鍵修訂做出了重大貢獻。SCL和AMD擔任臨床調查員,為研究進展和臨床數據解釋做出了重大貢獻。RWG擔任聯合首席研究員,並監督研究的準備、進行和管理。所有作者開發、審閱並批準了手稿。
資金這項工作得到了健康科學中心的支持,Prisma健康,格林維爾,南卡羅來納州(資助號:Pro00065670)。
相互競爭的利益沒有宣布。
患者發表同意書不是必需的。
倫理批準機構審查委員會,Prisma健康係統,格林維爾,南卡羅來納州。
出處和同行評審不是委托;外部同行評審。
數據可用性聲明所有與研究相關的數據都包含在文章中或作為補充信息上傳。所有與研究相關的數據都包含在手稿中,並上傳在Supplementary Material 2中。
補充材料此內容由作者提供。它沒有經過BMJ出版集團有限公司(BMJ)的審查,也可能沒有經過同行評審。討論的任何意見或建議僅是作者的意見或建議,不被BMJ認可。BMJ不承擔因對內容的任何依賴而產生的所有責任和責任。如果內容包括任何翻譯材料,BMJ不保證翻譯的準確性和可靠性(包括但不限於當地法規、臨床指南、術語、藥品名稱和藥物劑量),並且對因翻譯和改編或其他原因引起的任何錯誤和/或遺漏不負責。