條文本

在醫療行為標記係統的係統回顧:我們知道他們的屬性,有效性和應用程序?
  1. 亞倫年代迪茨1,
  2. Peter J普羅諾弗斯特1,2,
  3. Kari N本森1,
  4. 佩德羅Alejandro Mendez-Tellez2,
  5. 辛西婭·德懷爾3,
  6. 朗達Wyskiel1,
  7. 邁克爾一個羅森1,2
  1. 1阿姆斯特朗病人安全和質量,研究所的約翰霍普金斯大學醫學院的,馬裏蘭州巴爾的摩市美國
  2. 2麻醉學和危重病醫學,約翰霍普金斯大學醫學院的,馬裏蘭州巴爾的摩市美國
  3. 3Surginal重症監護室,約翰霍普金斯醫院,馬裏蘭州巴爾的摩市美國
  1. 對應到研究所博士邁克爾羅森,阿姆斯特朗病人安全和質量,和麻醉學與危重病醫學部門,約翰霍普金斯大學醫學院的東普拉特街750號,15樓,巴爾的摩,馬裏蘭州21202年,美國;mrosen44在}{jhmi.edu

文摘

客觀的行為標記係統是提倡的方法提供精確的評估,指導反饋和決定團隊改進計劃的影響。本文報告他們周圍用在醫療質量和為未來的研究討論了這些研究結果的含義,發展和應用。在這一過程中,本文提供了一個實用的資源,可以選擇標記係統和評估基於自己的長處和局限性。

方法四個研究問題框架綜述:行為標記係統的屬性是什麼?信度和效度的證據存在什麼?需要什麼樣的技能和專業知識的使用?他們被應用於研究團隊合作和其他構造之間的關係?

結果行為標記係統通常為特定的工作領域或任務而設計的。他們經常和不一致的術語,涵蓋類似內容複雜化的比較研究成果在臨床領域。雖然有幾種方法被用來建立標記係統的可靠性和有效性,標記係統文學,作為一個整體,需要更健壯的信度和效度證據。評定等級的評定等級的訓練水平的影響是複雜的,但證據表明,隨著時間的推移能夠做一些改進。

結論團隊合作達成共識的定義構造必須達到確保測量行為背後的意義是了解跨學科,工作領域和任務類型。未來的開發工作應該關注成本效益和可行性的測量工具,包括時間培訓評級機構。此外,測試和報告標準必須建立心理證據。最後,圖書館應該生成的工具儀器是否措施一般或特定領域的行為。

  • 團隊合作
  • 定性研究
  • 性能的措施

來自Altmetric.com的統計

請求的權限

如果你想重用任何或所有本文的請使用下麵的鏈接,這將帶你到版權稅計算中心的RightsLink服務。你將能夠獲得快速的價格和即時允許重用內容在許多不同的方式。

從科學可靠的數據收集是區分莫名其妙的話,希望與現實(ref。1, p.175)。

介紹

故障已經認識到團隊合作作為一個傑出的貢獻者醫療錯誤和事件的病人傷害超過二十年。2 - 4因此,患者安全研究者和實踐者都尋求更好地理解有效的團隊流程和改進策略。5 - 8這些努力得出的結論的有效性和團隊合作的程度提高幹預的結果是取決於嚴謹、心理測量的測量實踐推動的。9

團隊合作在衛生保健主要依賴觀察或測量自我報告方法,每個都有固有的權衡。10行為標記係統是一種觀察測量方法廣泛應用於航空和其他高風險的行業。11行為標記是具體和可觀測的例子有效或無效的某些方麵的性能。有效的標記係統的開發和使用是至關重要的提供準確的評估,指導反饋和決定團隊改進計劃的影響。12沒有強大的信度和效度證據,成果團隊有效性和安全性和性能之間的聯係可能遇到問題或有誤導性。因此,結構的定義,測量項目和測量程序的內容需求仔細審查。13

本文的目的是雙重的。首先,本文係統地回顧了國家科學和實踐的周圍使用醫療行為標記係統通過回答四個問題:(1)行為標記係統的屬性是什麼?(2)信度和效度的證據存在什麼?(3)需要什麼樣的技能和專業知識的使用嗎?和(4)行為如何標記係統被應用到研究團隊合作和其他構造之間的關係?回答這些問題提供詳細信息的當前狀態標誌係統在醫療、證據支持他們的使用在決策或提供反饋,人力資本的投資水平(即評定等級的培訓)所需的有效使用和現在的應用程序標記係統。接下來,本文討論了這些研究結果的含義為未來的研究、發展和應用程序標記係統的醫療保健。在這一過程中,我們試圖提供一個理解周圍的質量行為標記係統的使用在醫療以及實用的資源可以選擇標記係統基於行為的背景與建立心理相關的測量和物流需求質量和培訓要求。所有測量的基礎理論上,我們首先回顧團隊和性能測量提供結構的科學審查。

背景

科學的團隊

一個健壯的多學科團隊作了廣泛的科學因素與團隊有效性。14,15這種文學以及現有文獻在醫療一直充斥著不一致的術語。16因此,本節簡要定義關鍵術語用於本文。一個團隊是指兩個或兩個以上的個體與特定的角色相互依存地工作和自適應地朝著一個共同的目標。17在可以將團隊的行為繁重的工作(即行為關係到個體的團隊成員如何開展各自的工作)團隊合作(即行為與團隊成員的互動)。18團隊績效繁重的工作和團隊合作活動的高潮(即什麼團隊實際上)和團隊績效有效性指的是團隊績效結果是否滿足性能目標和期望。19在醫療保健中,術語非技術技能也用來描述individual-related和團隊相關行為不相關技術方麵的臨床實踐。20.

團隊績效一般特征的輸入、介質和結果(IMO)。14這個國際海事組織框架采用醫療。21圖1的影響團隊輸入(例如,組成特征)對團隊輸出(如質量/數量的性能結果,安全結果)是由團隊過程(如通信)和緊急狀態(例如,態勢感知(SA)。類別的團隊過程包括行動(例如,任務執行),過渡(如計劃或準備)和人際關係(如衝突管理)。22,23

圖1

通用輸入、介質和結果(IMO)模型。

行為標記係統

行為標記“一個規定的行為的某些方麵的說明的性能(p.96 ref。11日)。評級從標記係統是用來推斷潛在的團隊技能和認知。例如,SA是一個認知構建,包括感知、理解和期待。24,25標記係統評估股價評級行為相關信息收集(如反複核對),識別和理解(例如,清晰度線索和它們的重要性),和期待(如行動來規避問題)。26

行為標記係統依靠訓練有素的評級機構評估公開的行為,使其特別適合捕捉團隊合作技能與增強客觀性。11標記係統也competency-driven並承擔標準化詞彙結構評估和反饋,因為他們的特異性。6,26,27例如,團隊可以彙報後性能集或改善行動有一個清晰的理解特定評級團隊能力到底意味著什麼。

雖然行為標記係統有很大的潛力評估團隊表現,理論和物流因素可能會限製廣泛采用和使用。首先,與結果一致表明語境和任務相關因素將決定哪些能力是重要的,28團隊合作評估策略不能保證歸納跨領域工作或研究。29日因為行為標記特定性能的描述,他們可能需要在應用它們適應新的情況。30.例如,多個情況下可能同時發生(如招生,逮捕管理)或在不同的時間發生。標記係統適應占獨特情境屬性可能需要大量的時間和資源。其次,員工的時間應觀察和評級機構必須可靠地訓練,以確保數據被收集。各種rater-training策略存在,但員工都需要投資時間。31日第三,團隊績效隻能評估期間的觀察;推論來自標記係統是製約任務被觀察或周期的觀察。這意味著標準變量還必須收集在同一數據收集的過程。說明,這將是十分不恰當的鏈接使用一個標記係統收集的數據來預測性能結果(例如,錯誤)依靠數據從病人安全報告係統;研究人員必須識別錯誤,因為它們發生在觀察。

方法

文獻檢索是故意廣泛的我們的方法。我們沒有限製我們的焦點隻包括廣泛使用係統為了充分報告主題有關質量狀態的整個醫療社區周圍的這些係統的使用(例如,信度和效度報告,培訓需求,等等)。說,引用為每一個標記係統提供的索引係統經常使用的對於一個給定的目的(見在線補充表S1)與信度和效度的證據和可能的後勤所需注意事項培訓評級機構(見在線補充表S2)。在這兩個表,係統是圍繞特定的測量目的。

布爾搜索組成的醫學主題詞(網)條款和其他關鍵字進行使用PubMed識別相關文章:(1)衛生專業人員/醫療、(2)團隊合作/非技術技能和(3)行為評估。圖2總結篩選過程,而一個更完整的搜索策略是提供在線補充文件1。編碼方案是迭代開發係統化捕獲目標相關的綜述文章內容,包括:屬性的標記係統(即行為、技術目標的測量),心理屬性和在醫療保健中的應用研究。關鍵變量的完整描述在線補充文件2中列出。文章是由一個個體編碼(廣告),和14%的文章綜述了(n = 5)由兩個程序員(廣告,KB)建立兩分的可靠性(κ= 0.743)。

圖2

方法論的方法。

質量的狀態

38文章描述20獨特的標記係統滿足入選標準(在審查過程中添加了一篇文章32)。發現我們的評審是組織在前麵描述的四個關鍵研究問題。

行為的屬性標記係統是什麼?

有效性無法建立全球對於一個給定的指標,隻有在某些條件下對於一個給定的目的。因此,我們解決團隊合作行為是如何被概念化,和用途,了解標記係統都有不同的內容和結構。這個問題也解決了技術用於評估,可為便於評定等級的培訓和generalisability產生影響的研究結果。定義一個合適的測量尺度範圍,例如,是一個重要的考慮對比觀察到的分數差異的相對大小。33在線輔助表S1總結的目的行為標記係統被識別(例如,臨床情況下,係統開發的人員類型)以及如何評估團隊合作行為(例如,得分格式)。

上下文的測量

大多數標記係統是為一個特定的臨床工作區域(n = 15;75%),手術(n = 7;35%)和複蘇(n = 6;30%)是最常見的。

測量的內容

係統綜述了使用各種各樣的分類結構不同程度的特異性或粒度。6係統集群行為的層次結構。說明,非技術技能的外科醫生(點點頭)係統包括四個行為類別每三個元素構成分類的非技術技能。27每個元素對應的是積極和消極行為指導評估的例子。其他係統開發相同的任務呈現不同的階乘結構34或不歸類行為個子維度。35類似的粒度差異發生在構造層麵,在即時小兒氣道提供者性能規模(JIT-PAPPS)36評估決策作為一維的構造,麻醉師的非技術技能(螞蟻)係統評估決策的產品(1)識別選項,(2)平衡和選擇選項和(3)重新評估。26,37

檢查什麼行為是針對測量,我們合並的行為(包括類別和元素)從每個標記係統。後一百零四獨特的行為仍然準確複製被移除。接下來,我們刪除了重複與名義相關性冗餘占在術語是描述相同的屬性(例如,協調,與他人協調)。七十九獨特的結構被保留這一定性數據減少。還有其他情況行為與離散結構(例如,領導力和團隊協作38;團隊精神和合作39)。的數量結構杜絕行為評估跨標記係統的一個有意義的比較。

結構的測量

標記係統不同的時間結構和決議,與大多數標記係統使用李克特量表(n = 14;70%)與行為錨定評估援助(n = 12;60%)。例如,觀察團隊評估手術(ota)評級覆蓋五行為,三個分隊(手術、麻醉、護理)和三個手術階段手術(術前,術中,術後)。35這導致45行為單一手術的評級。評級機構評估性能使用級李克特量表從零到六。35相比之下,《牛津非技術技能(NOTECHS)規模依賴於一個總結性得分的行為在整個觀察。34評級機構評估性能使用四點李克特規模從1到4。

作為一個替代李克特量表,三個標記係統依賴於清單和一個標記係統使用頻率計數。安徒生4022-item清單評估複蘇團隊開發的,但沒有時間序列當評級機構可以預期的行為發生。相反,JIT-PAPPS使用時態結構評估某些行為是否在氣道管理模擬完成,部分完成或不完成。具體行動與SA等能力,決策和團隊精神。行動也加權意味著提高特定技能的重要性。

信度和效度的證據存在什麼?

測量的目的和方法的理解,我們將合成的信度和效度證據因為推論來自測量必須考慮建立心理屬性的關係。測量的可靠性問題對重複測量的一致性和有效性地址的準確性和質量的推論,可以由一個特定的數據收集的過程。13建立的可靠性的措施是必要的,但不足以保證其有效性。41在線輔助表S2總結證據照亮的範圍優勢和現有的標記係統的局限性,同時也為未來的發展提供實踐指導和驗證工作。在線輔助表S3定義了類型的信度和效度證據報告供參考。Reliability evidence was reported for 15 marker systems (75%) and evidence of validity was reported for 14 marker systems (70%). Multiple sources of validity evidence were reported for 12 marker systems (60%). Many studies involved a multipronged approach to establish evidence. The Crossley42心理評估點點頭,包括應用generalisability (G)證明可靠性理論,探索性因素分析來驗證點點頭的內部結構和組間關聯和其他措施,檢查之間的關係獲得的分數點點頭,與外部變量。分析表明,一個行為是加載在兩個非技術技能維度。

驗證擦洗從業者的術中非技術技能係統的列表,米切爾43,44首先建立了測量工具的內容通過焦點小組,並遵循這一努力統計評估。評估標準關注可靠性(類內協議和內部一致性)、有效性(準確性、完整性、可觀察性)和可用性(可接受性和可用性)。每個技能類別類內協議是好的,但是三分之一的技巧元素沒有達到可接受的閾值(r工作組> 0.7)而且不同的場景。這些例子強調收集多種形式的信度和效度的重要性的證據證實標誌係統在多個指標的準確性。

需要哪些技能或培訓?

校準評定等級的分數是必要的,以確保結果可靠,通常通過評定等級的培訓。信息詳細評定等級的長度培訓報道在29%的文章(n = 11)。評定等級的訓練中指定的文章(n = 23)的61%,和所花費的時間培訓評級範圍從2 h45超過2天。46並列的評定等級培訓的長度和信度和效度證據公布在網上補充表S2提供簡要概述可能的資源需求需要完成相關的信度和效度水平。

總的來說,評定等級培訓的有效性評定等級的性能變化。評級之間的新手評級機構和專家指示物展示了良好的可靠性在4 - 6小時的訓練,37,44在其他的例子更耗時,持續了兩天。46拉斯46報道如何使用在線旅行社專家和新手評級之間的可靠性改進在每個階段的評定等級的訓練,學習曲線是取決於被測量的構造。評定等級的培訓涉及大約2 h的聲明信息表示隨後1 h(視頻練習。接下來,評級機構觀察10手術病例和接收即時反饋的評估報告postobservation期間(總共大約18 h)。高評定等級的校準立即建立了協調,所以改善由於天花板效應不顯著。相當大的改進了溝通、合作和領導在前七的觀察,而評定等級的穩步改進校準監控/ SA被證明在整個觀察期。此外,新手之間沒有顯著差異,具有不同專業背景的評級機構(即手術和心理學)。

評定等級的評定等級的訓練性能的影響是複雜的,然而。共度後點點頭,培訓課程,評級新手之間的非技術行為模式是一樣的專家隻有一半的時間。45此外,新手往往under-rate非技術性能與專家。45格雷厄姆47發現大量的專家和新手之間的差異評級螞蟻一天訓練後,分歧的主要來源是誤分類非技術技能;評級機構識別行為,但得分不同元素的團隊合作。最後,羊肉48學科之間的顯著差異在評級報告(ie,外科醫生和心理學家),盡管有顯著的改善,隨著越來越多的情況下被觀察到。

如何行為測量係統被應用在醫療研究?

15篇文章采用標記係統測試結構(n = 4)之間的關係,研究幹預的影響(n = 5)或描述團隊合作與任務事件(n = 7)。Westli49在創傷模擬研究團隊技能。積極的表現和能力之間的關係,如信息交流,協調,溝通和SA被報道。令人驚訝的是,立足於團隊少了支持行為。其他研究報告基於專業背景的團隊成績的差異50,51和多年的經驗。52

行為標記係統也被用來建立培訓幹預措施的有效性。36,53Frengley38基於仿真的訓練和案例學習的相對有效性評估氣道和心髒危機管理與團隊合作行為評定等級。作者的報道團隊合作技能顯著提高的幹預策略。反饋/彙報團隊合作技能在培訓中描述的四篇文章,但沒有描述的過程,反饋是如何或是否結構化。

對任務事件,西蒙斯54在線旅行社適應研究團隊合作技能切換。盡管建立足夠的兩分的可靠性和同時效度和另一個團隊規模,作者沒有觀察到顯著的相關性之間的團隊合作技能和完成交接內容,傳遞長度,中斷期間的傳遞或出席的傳遞。Sevdalis55觀察到通信事件很可能由外科醫生(80%)和被外科醫生(46% - -56%)或接受護士(38% - -40%)。此外,腹腔鏡手術往往會涉及更多的通信設備相關的事件和指令與開放手術相比。另一項研究發現,外科醫生的SA是負相關的技術錯誤。51

百分之四十的應用研究的文章沒有報告評定等級的可靠性或培訓的證據。

對研究和實踐的影響

本文回答四個問題的意義周圍的使用在醫療行為標記係統。研究意義和實踐總結表1。首先,本文確定行為的屬性標記係統。我們發現有數量驚人的獨特的技能是針對測量。很可能,標記係統覆蓋相似的內容,但不一致的術語和不同的粒度水平用來描述結構複雜行為的比較標記跨係統的內容。這一發現與之前一致審查的醫療團隊合作56以及評論標誌係統在其他領域。11

表1

在醫療行為研究需要標記係統

大多數標記係統是為一個特定的任務,然而係統相同的任務很大差異在內容和結構。兩個NOTECHS34和富裕27使用分層框架來描述團隊合作行為的手術,但每個框架的階乘結構不同(即維度和元素的數量),而在線旅行社35不檢查行為與層次結構框架。鑒於這種可變性,關鍵研究需求的實際影響包括調查哪些屬性標記係統產生最可靠和有效評級最低水平的“成本”的評定等級的訓練,以及可能會出現的任何差異在使用數據不同的目的(如反饋、評估、檢測隨時間變化)。例如,研究人員和從業人員可以選擇標記係統用最少的物流成本與實現有關。

時態結構或分辨率測量係統是一個關鍵屬性的影響為便於培訓和數據使用。大多數標記係統使用一個低分辨率的時間尺度的評估行為進行了一次整個評級期間(例如,一個團隊收到一個分數維度為整個觀察期)。低時間分辨率評級可能照亮什麼團隊精神缺陷存在,但不一定為什麼他們發生。57相反,係統水平較高的時間分辨率識別階段的性能或多個時間塊在一個觀察。例如,在線旅行社團隊精神維度在三個階段的手術率和JIT-PAPPS測量(EBAT)使用了一個基於事件的方法。36EBAT工具率團隊合作能力和技能相對於刺激的事件。6,58-60這種方法是最有用的培訓,照本宣科的場景事件為學員提供機會展示團隊合作技能。12這些係統可提供明確的反饋過程,解釋為什麼團隊合作可能存在不足。此外,這種方法可能會降低認知負荷太多給評級機構應該是評估和什麼;評級機構檢測事件的存在與否的觀察清單後暫時構造可增強客觀性。11EBAT的主要缺點是,generalisability僅限於上下文和任務訓練。例如,刺激事件表明團隊合作技能對於複蘇的任務將是完全不同的切換。

其次,本文檢驗了信度和效度的證據。沒有這個證據,研究人員不能確定幹預措施是否實際上是影響團隊流程,安全結果或性能的結果。最廣泛引用的可靠性指數校準評級機構之間的分數,然而兩分的隻能估計一個測量誤差來源:可靠性評定等級。在現實中,誤差方差和係統性偏差評級可以來自其他來源,如觀察的時候,參與者被觀察和觀測的背景下。與傳統的可靠性測試方法不同,G研究方差同時為多個來源進行分類61年,62年確定替代的設計將在未來的應用減少測量誤差。63年盡管G理論可靠性測試的典範,隻是進行一個研究42,為研究人員提供了一個未來的機會明確定義和測量誤差的來源。

有效性的證據應該來自各種來源,如工具的內容,是否可以觀察能力,工具的內部結構與其他結構和收斂和歧視的關係隻有少數的名字。33顯然,大量的證據是需要建立一個標記係統的有效性,但多個來源的證據隻有12個標記係統的報道。而異常存在(見在線補充表S2),標記係統文學研究需要進一步驗證。這一發現與先前的評論是一致的在醫療保健性能度量。64年

第三,本文尋求所需的專業知識充分的理解判斷性能。準確的判斷行為直接影響推理的有效性來自測量和評級機構都容易受到偏見,無論他們的專業背景。這使得評級機構評定等級的訓練必要沉浸在標記的內容體係,其觀察和適當使用限製的可能性,評定等級的偏見體現在評估。11最佳實踐行為評估呼籲複發性評定等級的培訓和可靠性測試,以確保評定等級的分數是校準和準確。12評定等級的評定等級的訓練水平的影響是複雜的,36,44,45但有證據表明,隨著時間的推移能夠做一些改進。46此外,許多校準評級機構的技術已經被開發出來,但並不是所有已應用在這種情況下。31日未來的研究應該檢查哪些方法來評定等級的校準最成本有效。

本文的最終目的是檢查應用程序的行為標誌係統在醫療研究。焦的缺點中確定我們的審查缺陷評定等級的培訓和可靠性報告。僅僅因為一個信度和效度的測量表明證據之前的研究並不意味著它必然會取得成功在一個新的環境。29日評級機構還必須被訓練使用的測量係統和可靠性測試報告,確保結論的準確性。

最後,本文有幾個自己的局限性。首先,研究設計的質量和報告的證據沒有審查。第二,我們隻檢查行為標記係統的特點,並不是所有的團隊績效測量方法。雖然標記係統是最適合量化背後團隊的能力和技能的過程,其他技術可能更適合捕捉隱性知識和態度組件不易觀察到的團隊合作(例如,集體效能,共享心理模型)。12,65年最後,我們隻使用一個數據庫(PubMED)來識別相關的文章。而進一步web查詢可能會產生額外的研究為本文考慮,預計報告樣本足夠代表行為標記在醫療研究。

結論

準確和有意義的數據是一個重要的資產,因為它們形狀推斷和決策。66年發現從我們審查建議幾個影響醫療,包括需要:(1)達成一致的概念和術語來描述團隊結構,(2)生成一個圖書館的工具來測量周圍的團隊績效測量的目的(例如,有針對性的工作領域,通用和特定領域的行為)和(3)建立標準心理測試和報告的證據。協調努力通過共識會議和資助機構支持推進領域相關研究流提供了一個機會。

引用

補充材料

腳注

  • 貢獻者所有作者的概念作出了獨特的貢獻,起草和修改的手稿。每個人都為這項工作提供了最後批準,同意出版信息完整性負責。

  • 資金這項工作是由戈登和貝蒂·摩爾基金會的資助(批準號3186.01)。本文的觀點是作者的,不一定反映約翰霍普金斯大學,約翰霍普金斯醫院,或戈登和貝蒂·摩爾基金會。

  • 相互競爭的利益一個也沒有。

  • 出處和同行評議不是委托;外部同行評議。

  • 作者注參考67 - 87中提到的在線補充表。