條文本
摘要
目標我們研究了與個人臨床試驗數據共享相關的主要問題,並使用廣泛的跨學科方法,就提供來自臨床試驗的個人參與者數據的訪問製定了一份共識文件。
設計和方法這是一個多利益相關方工作組成員之間建立共識的過程,涉及廣泛的專家(研究人員、患者代表、方法學家、信息技術專家以及來自資助者、基礎設施和標準開發組織的代表)。一個獨立的推動者使用名義分組技術支持該過程。這一共識是在為期一年多的三次係列講習班上達成的,並在需要時在重點分組內交換文件和舉行電話會議。這項工作是在Horizon 2020資助的項目CORBEL(建立持久生命科學服務的協調研究基礎設施)中進行的,由歐洲臨床研究基礎設施網絡協調。因此,重點是非商業試驗和視角主要是歐洲。
結果我們製定了關於如何共享臨床試驗數據的原則和實用建議。
結果工作組就10項原則和50項建議達成了共識,代表了用於共享臨床試驗數據的任何框架的基本要求。該文件涵蓋了以下主要領域:使數據共享成為現實(如文化變革、學術激勵、資助)、數據共享的同意、試驗參與者的保護(如去識別)、數據標準、權利、訪問類型和管理(如數據請求和訪問模型)、數據管理和存儲庫、可發現性和元數據。
結論采用本文件中的建議將有助於促進和支持研究人員之間的數據共享和重用,充分告知試驗參與者並保護他們的權利,並為準備、存儲和訪問數據提供有效和高效的係統。這些建議現在需要在實踐中得到實施和檢驗。需要做進一步的工作,將這些建議與來自其他地理區域和其他學術領域的建議結合起來。
- 臨床試驗
- 個人參與者的數據
- 數據共享
- 共識會議
這是一篇根據創作共用署名非商業性(CC BY-NC 4.0)許可發布的開放獲取文章,該許可允許其他人以非商業性的方式發布、混編、改編、構建本作品,並以不同的條款許可其衍生作品,前提是原始作品被正確引用且使用是非商業性的。看到的:http://creativecommons.org/licenses/by-nc/4.0/
來自Altmetric.com的統計
本研究的優勢和局限性
在大量經驗豐富的研究人員和參與臨床試驗的其他人之間建立有效和正式的共識過程。
獨特的視角:全歐洲範圍,非商業,關注研究人員的特殊需求。
大量的實際建議違背了一個原則性的總體框架。
這些建議現在需要在實踐中實施和測試,並應探索其可行性和可用性。
這項工作在很大程度上是基於經驗和意見,而且工作隊的成員可能不能完全代表研究界。
簡介
背景
近年來,包括經濟合作與發展組織在內的幾個主要組織都呼籲加強共享由公共資助的研究產生的數據,2歐盟委員會(European Commission),3.美國國立衛生研究院(NIH4以及八國集團科學部長。5這一趨勢反映了人們日益認識到“公共資助的研究數據是一種公共產品,是為了公共利益而產生的,應該以及時和負責任的方式在盡可能少的限製下公開提供”。6
來自臨床研究的數據也不能免除這一要求,盡管對參與者隱私的擔憂意味著這些數據在共享之前通常需要特別準備(例如,去識別)。鑒於臨床試驗在確定循證醫學和循證公共衛生政策方麵發揮的關鍵證據作用,分享這類數據被視為特別重要。事實上,一直有人認為,臨床試驗數據應該被共享,並被視為一種公共產品,不管它是由公共資助的研究還是由商業研究創造的。7
從科學、經濟和倫理的角度來看,共享臨床研究數據是合理的。8從科學上講,共享使比較或組合來自不同研究的數據成為可能,並更容易地聚合數據進行元分析。它允許對結論進行重新檢查和驗證,或者偶爾進行更正,它還允許對新的假設進行檢驗。因此,共享可以提高數據的有效性,但它也從原始研究投資中榨取了更多的價值,並有助於避免不必要的重複研究。數據重用的經濟優勢是政府和政府間機構以及主要的研究資助方(如蓋茨基金會)為什麼要重視數據重用的經濟優勢之一9以及維康信托基金10),支持數據共享。
從倫理上講,數據共享提供了一種更好的方式來表彰臨床試驗參與者的慷慨,因為它增加了他們提供的數據的效用,從而提高了他們貢獻的價值。還有人認為,如果獲得保健和保健服務是一項基本人權,那麼獲得可改善健康的數據也是一項基本權利,11而那些參與研究及其管理和資助的人,對他們的同胞有義務尊重和促進這項權利。12
的迅速接受的想法2016年,Vickers總結了共享臨床試驗數據的重要性,13在過去10年裏,誰能夠宣稱“態度發生了結構性轉變”。將數據共享的想法變為現實,使其成為“無可置疑的規範”(借用維克斯的話),當然需要態度的轉變,但還需要適當的政策環境、充足的資源、對不同利益攸關方的角色和責任的明確、衡量進展的具體目標和指標,以及可用的數字基礎設施。
本文件來源
該文件是在歐盟(EU) CORBEL(協調研究基礎設施建設持久生命科學服務)項目的具體工作任務背景下編寫的(www.corbel-project.eu).CORBEL旨在在11個參與的歐洲、歐洲研究基礎設施戰略論壇(ESFRI)生物和醫學研究基礎設施之間建立一個協作和可持續的共享服務框架,以更好地支持歐洲的生物醫學研究,並加快其向醫療保健的轉化。
這項工作任務的目標之一是製定程序,根據要求向科學界提供來自以往臨床試驗的個體參與者數據(IPD),用於再分析、二次分析和薈萃分析。該活動由歐洲臨床研究基礎設施網絡(ECRIN-ERIC)領導,這是一個ESFRI研究基礎設施,以非營利的方式為跨國臨床試驗提供指導、谘詢和運營管理(www.ecrin.org).ECRIN已經要求它支持的研究人員承諾應科學界的要求提供匿名IPD數據集。
需要說明的是,在整個文檔中我們使用IPD來指代所有從試驗中獲得的參與者數據,而不僅僅是支持特定發表論文結論的數據。因此,在采取適當的去識別和假名化或匿名化措施後,這些數據通常是用於各種分析的數據集。我們的目標是開發一個框架,在這個框架中,最終所有來自任何試驗的參與者級別的數據都可以提供給那些能夠證明他們可以適當利用這些數據的人。
近年來,許多其他組織也處理了這一任務,並製定了實施數據共享的一般原則和實際建議。通常,這些文件是嵌入在地理/國家背景下的(例如,美國醫學研究所的報告,14北歐國家透明度和登記問題試驗聯盟工作組,15分享來自英國醫學研究委員會(MRC)、英國臨床研究聯盟(UKCRC)、英國癌症研究中心(CRUK)和英國惠康基金會(Wellcome)的公共資助試驗的IPD的良好實踐原則,16日17或者為澳大利亞發布和共享敏感數據的指南18).
其他研究小組在更廣泛的背景下研究了臨床研究數據共享,如BioMed Bridges開發的歐洲研究基礎設施中的數據管理和共享原則。19相反,其他行動則集中在特定的利益相關者群體,如製藥業(例如,由美國製藥研究和製造商(PHRMA)和歐洲製藥工業和協會聯合會(EFPIA)製定的負責任的臨床試驗數據共享原則)。20.)或臨床試驗數據的特定子集(例如,2016年國際醫學期刊編輯委員會(ICMJE)的提案聚焦於單個期刊文章中提出的結果的基礎數據21).
這些文件和其他文件在我們的協商一致中得到了考慮,因此在本報告中也得到了考慮。盡管如此,我們相信在這份報告中,我們能夠帶來更廣泛的關於臨床試驗數據共享的國際視角,反映出我們專家組的專業和地域多樣性。我們還試圖檢查數據共享“生命周期”的所有階段,包括以下內容:
支持試驗人員,例如在規劃數據共享和準備數據方麵。
建議數據和元數據存儲的最佳策略和實踐。
推動數據發現和討論數據訪問機製和協議。
目的是用廣泛的多學科方法審查與分享知識發展和審判文件有關的所有主要問題。然而,不可避免地,有人強調某些觀點,如下文所述。
本文檔的透視圖
試驗或研究?
工作組的職責是查看來自臨床試驗的數據共享,而不是一般的臨床研究(後者包括試驗和非介入研究,包括前瞻性和回顧性研究,包括流行病學和注冊研究-見網上的正式定義術語表補充2).盡管我們在很大程度上遵守了這一限製,但應該承認,許多,可能是大多數,原則和建議與一般的臨床研究相關。當使用“研究”而不是“試驗”時,這一點有時會反映在文本中,但需要強調的是,本文件的正式範圍仍然是臨床試驗。
補充文件2
非商業試驗
該項目的重點是分享來自非商業試驗的數據,部分原因是大多數專家組成員都有非商業研究的背景。此外,許多現有的非商業IPD分享倡議被認為範圍有限,例如隻涉及特定的協作試驗小組或針對疾病的活動。因此,工作隊迫切希望製訂更普遍適用的政策和指導方針。與製藥公司合作開發的解決方案(例如,耶魯大學開放數據訪問(YODA))22和臨床研究數據請求(CSDR23))可能適用於學術界,但到目前為止還沒有經過測試。CORBEL希望為整個科學界開發程序和工具,同時保持對現有計劃的補充。我們相信,這裏提出的大部分(如果不是全部)建議也適用於商業部門產生的IPD。值得注意的是,非商業臨床試驗約占歐洲進行的試驗的40%。24日25日
一個歐洲的起源
CORBEL項目由歐盟資助,具有明確的歐洲視角。盡管我們工作小組的幾名成員代表來自非歐洲國家的機構(美國、加拿大、澳大利亞和來自日本的觀察員),我們強烈認為大多數建議具有全球範圍,但我們的討論確實經常參考歐洲背景,例如在討論個人數據保護立法時。由於目前許多關於數據共享的倡議都以美國為基地(例如,醫學研究所,16多地區臨床試驗中心(哈佛大學)(MRCT)中心Vivli項目,26和ICMJE的大多數成員),可以認為歐洲的觀點是必要的,特別是考慮到與數據共享相關的法律框架的潛在差異。考慮到歐盟委員會正在大力推動科學信息的開放獲取,包括支持新的歐洲開放科學雲(EOSC)的開發,主要投資來自歐洲地平線2020研究計劃。27預計來自臨床試驗的敏感數據將構成該計劃中的一個主要用例。如果成功實施,EOSC因此可以提供一個合適的基礎設施來托管和共享臨床試驗數據和文件。
研究者的視角
整個研究的重點一直放在臨床研究人員的角度上,他們被視為數據生成器和數據請求者/(再)用戶。
需要明確的是,所謂的“數據生成器”,我們指的是試驗人員和其他研究人員,他們構思研究,然後計劃、管理、監測、分析和發布研究結果。這需要一套複雜的智力和組織技能,我們不希望將試驗簡化為僅僅的“數據生成”,或“數據生成”一詞在任何方麵都帶有貶義。簡單地說,在這種情況下,這個術語有效地強調了作為數據生成階段的試驗的作用,以及作為數據集的設計者和最初創造者的試驗人員的作用。
其他參與者(資助者、出版商、基礎設施提供者)當然都非常重要,但本文檔的主要目標群體是研究人員本身。我們希望本文件將提高數據生成器之間對IPD共享的認識,並展示如何通過適當的政策和工具,減少對數據共享的擔憂。
由於出版物和引用在學術界是最重要的,該項目還旨在促進數據作為合法的、可引用的研究產品,並確保提供用於共享的數據得到認可和獎勵。我們還試圖檢查那些搜索數據和試驗文件的人的需求,強調可發現性的重要性,以及要求和獲得訪問的透明但相對簡單的機製的必要性。
本文件的目的是幫助臨床研究數據的共享,特別是臨床試驗數據的共享,從一種期望轉變為可接受的實踐。為此,它首先提出了一套我們認為應該指導數據共享實踐的總體原則,然後審查了與每個原則相關的政策和實際問題,並提出了一係列建議。
方法
在12個月的時間裏(2016年3月和10月,2017年3月),通過交換文件和在需要時在重點分組內舉行電話會議的方式,開展了一係列三次講習班。報告的連續草稿在每次講習班之前分發,最後定稿在第三次講習班之後分發,以征求意見、建議和達成協議。所采用的方法以名義小組法為基礎,以確保所有與會者都有機會擬訂和提出他們的意見,並對提案進行表決。
名義群法28 29是一個嚴格、正式的程序,以促進創新和創造力,同時仍能達成共識。它包括以下步驟:
核心小組提出的文本提案。
每個小組成員的評論。
版主的評論集合。
類似注釋的崩潰。
討論要點的優先次序。
討論所有的評論。
對每個討論點進行投票。
核心小組根據投票結果重寫文本。
重新開始第(1)步修訂新文本,直至達成一致意見。
步驟(9)的迭代過程是通過在每個研討會上開始一個新的修訂文本版本來實現的。
ECRIN設立了一個核心小組,負責管理協商一致意見的行使和編寫協商一致意見文件。該小組包括多國臨床試驗、試驗方法和透明度、試驗管理服務、信息技術(IT)工具和法律問題方麵的專家。核心小組的職責是建立多利益攸關方工作隊,起草這份報告的中間版本,組織和管理協商一致講習班,協調各子小組,並發布報告的最終版本。
鑒於臨床試驗數據的共享和重用問題的複雜性,任何製定原則和程序的嚐試都需要廣泛的利益攸關方的參與,以代表產生、管理和使用IPD的不同群體。同樣重要的是要確保有一係列科學、技術和法律專門知識在場,並確保不同地理區域的代表參加討論。因此組建了一個多利益相關方工作組,包括研究人員、患者代表、方法學家、信息技術(IT)專家和來自資助者、基礎設施和標準開發組織的代表,以及核心小組成員,以形成本文件中報告的共識。
在一名獨立調解人的支持下,工作隊之間建立了協商一致意見,他共同主持了會議,並就協商一致意見過程以及如何處理和報告關於報告中間版本的書麵反饋提供了指導。在線補充附錄1列出了核心組和多方利益相關者工作組的全部成員。
在第一次講習班期間,工作隊商定設立兩個小組,為協商一致工作提供見解。第一個小組負責術語,根據法律定義、條例和標準澄清項目中使用的主要術語。這個子組的輸出是在線報告的標準化術語和定義術語表補充附錄2.第二個小組對現有的數據共享儲存庫和與共享知識資源有關的其他倡議進行了環境掃描,以說明目前的規定和突出可能缺失的特點或功能。這個小組的產出將在另一份出版物中報告。
結果
在達成共識的過程中產生了十項原則,代表了工作組認為的任何臨床試驗數據共享和重用框架的基本要求。它們列在盒子.
臨床試驗數據共享原則(P,原則)
P1:個人參與者數據的提供應該得到促進、激勵和資源,使其成為臨床研究的規範。數據共享計劃應該前瞻性地描述,並從最初階段成為研究發展的一部分。
P2:個人參與者的數據共享應該建立在實驗參與者(或如果適用的話,他們的法律代表)明確的廣泛同意為科學目的共享和重用他們的數據的基礎上。
P3:應為此目的準備可供共享的個人參與者數據,並對數據集進行去識別,以盡量減少重新識別的風險。應記錄所采用的去識別步驟。
P4:為了促進互操作性並在解釋和分析中保留意義,共享數據應盡可能使用廣泛認可的數據和元數據標準進行結構化、描述和格式化。
P5:對參與者個人數據和試驗文件的訪問應盡可能開放,必要時應盡可能封閉,以保護參與者的隱私,減少數據濫用的風險。
P6:在管理訪問的背景下,任何公民或團體,如果有合理的科學問題和回答該問題的專業知識,都應該能夠請求訪問個別參與者的數據和試驗文件。
P7:處理查閱資料要求應明確、可重複和透明,但應盡量減少有關各方的額外官僚負擔。
P8:除了單個參與者數據集,其他臨床試驗數據對象(如協議、臨床研究報告、統計分析計劃、空白同意書)也應可供共享,以充分理解任何數據集。
P9:可供共享的數據和試驗文檔應轉移到合適的數據存儲庫,以幫助確保數據對象得到適當的準備、長期可用、安全存儲並受嚴格的治理。
P10:任何可供共享的數據集或文檔都應該與簡潔的、公開的、結構一致的發現元數據相關聯,不僅描述數據對象本身,還描述如何訪問數據對象。這是為了讓人類和機器都能最大限度地發現它。
工作隊還商定了50項更詳細的建議,它們圍繞7個主要主題分組,每個主題與一個或多個原則有關,見圖1.
這七個主題被用來構建下麵的推薦列表。每節還包括原則和建議的解釋性文本。
讓數據共享成為現實
P1: IPD的提供應該得到促進、激勵和資源,使其成為臨床研究的規範。數據共享計劃應該前瞻性地描述,並從最初階段成為研究發展的一部分。
現在人們普遍接受了更多共享IPD的需要,但這方麵的大部分壓力都是“自上而下”的——它來自資助組織、專業團體和期刊編輯(盡管也存在一些“自下而上”的共享活動,例如在合作研究小組內部)。一些研究人員仍然存有疑慮,例如,支持數據準備所需的資源,他們的數據可能會被誤解,或者他們自己能夠從數據中生成的論文數量可能會減少。需要認識到這些擔憂,並通過適當的資源、政策和係統,包括改變對研究活動的認識和獎勵方式,來緩解這些擔憂。如果IPD和相關的研究材料被視為臨床研究的一個正常的、不可分割的部分,並被研究者自己所接受,這些發展是必要的。
為了幫助實現這一點,研究人員將需要支持,以確保從研究計劃的一開始就考慮到數據共享。試圖回溯性地組織安全有效的數據共享,特別是在沒有獲得適當的同意和資源的情況下,通常是困難、複雜和昂貴的,許多非商業研究人員將很難證明所需的額外投入是合理的。因此,將未來數據共享作為研究設計的標準組成部分至關重要。
參與臨床研究的所有利益攸關方(如資助者、患者團體、研究人員、學術界、專業團體、產業界、編輯以及監管和倫理當局)都應支持將IPD和研究文件共享作為良好實踐的正常組成部分。
臨床研究的大多數主要利益相關者確實認識到共享IPD和試驗文件的重要性,許多人已經就此發表了公開聲明。但這些態度的轉變必須轉化為切實可行的支持措施。沒有一個單獨的團體可以被認為是數據共享的主要驅動者,責任(和資源)需要被共享——因此每個利益相關者團體將不得不在這個發展中的領域中發展自己的角色。
例如,歐洲藥品管理局在歐洲采取的行動,30.美國國會通過了《21世紀治愈法案31以及世衛組織在突發公共衛生事件的背景下32代表國家和國際兩級數據共享方麵的政策變化,但這種變化的全部影響往往需要澄清。公共資助機構(如美國的NIH)和資助慈善機構(如Wellcome Trust, Bill and Melinda Gates Foundation)越來越多地要求其資助的研究包括數據管理和共享策略,但需要探索資助方對數據共享的財政支持的實際限製。以ICMJE為例,生物醫學期刊正在製定數據共享政策,要求作者將支持其發現的整理數據和元數據公開,14盡管這種可用性的時機是爭論的話題。在臨床研究中考慮倫理的國際組織,例如世界醫學協會,也發表了關於數據重用的聲明,33利益相關者需要對這些原則做出一致的解釋。
因此,促進數據共享和重用的文化將需要所有各方在鼓勵和監測數據共享的努力的同時,不斷進行對話。諸如CORBEL這樣的短期項目可以在促進這種對話方麵發揮重要作用,但更長期的基礎設施組織,如ECRIN、生物銀行和生物分子資源研究基礎設施(BBMRI)和歐洲衛生數據創新研究所(i~HD),很可能在組織這種長期討論方麵發揮關鍵作用。
任何數據共享模型都應該基於數據“管理”而不是數據“所有權”的概念。
在臨床研究活動的背景下產生的數據應該被視為一種公共利益——也就是說,對整個人類來說是共同的。我們相信,這是正確認識數據價值和提供數據的研究參與者的慷慨的唯一方法。盡管生成數據的研究人員在使用這些數據時可能擁有最大的利益,但他們不應該將其視為自己的“私有財產”。事實上(盡管我們在本文中討論了各種各樣的實際問題),他們有責任確保數據可以被其他人發現,並伴有足夠的元數據,以便易於發現、在上下文中理解和適當使用。通常,“研究數據的管理”這個術語被用來總結這種方法,它包括提供有用的可訪問性、注釋、管理和保存數據。34
我們認識到,目前對數據的“管理”和“所有權”還沒有被普遍接受的正式定義。這兩個術語都有特定的用法,與關於(例如)合同、版權和知識產權的辯論有關,但在協商一致的會議中,我們希望避開這些更多的法律和技術問題。相反,我們希望強調的是,正如上麵所描述的,管理的概念應該是IPD共享的默認假設,在製定政策框架時使用,在考慮自己的數據共享策略時由單個研究人員使用。
應該實施對數據共享的學術和社會獎勵,使數據可用於數據共享被研究人員視為一個機會。這種激勵可能包括在評估學術生涯或撥款提案時予以承認。
對研究人員來說,計劃、執行和分析一項臨床試驗是一項困難、資源密集和漫長的工作。在學術界,聲譽和職業生涯主要建立在科學報告和研究成果的發表上。從社會或倫理的角度來看,數據共享可能是非常可取的,但到目前為止,數據生成器的學術利益一直是有限的,盡管一些分析報告稱,當數據公開時,出版物的引用率會更高。35
為了幫助說服數據生成器分享他們的數據,更強有力的激勵措施是必要的。在評估學術生涯,包括晉升時,應重視研究人員生成的數據集的重用,作為對試驗人員專業工作更全麵評價的一部分。因此,共享數據集需要成為一個可接受的學術新詞。在學術生涯評估中納入數據共享的商定機製尚未到位,但已經提出了各種詳細的建議,需要在實踐中進行檢驗。36 37對供資申請的評價還應考慮到申請人過去提供供分享的知識產權發展數據的記錄,以及該數據的後續重用程度。
臨床試驗數據集應該被認為是合法的、可引用的研究產品。為了支持可引用性,它們每個都必須有一個持久的、全球可識別的標識符。
持久標識符,例如已經廣泛使用的數字對象標識符(DOI),應該應用於數據集,以提高可發現性並允許正確引用。數據引用的問題目前正在被集中解決,37-40希望在不久的將來,廣泛接受的數據引用程序將得到發展。例如,Force11數據引用綜合小組發表了一份數據引用原則聯合聲明,41它得到了94個資料庫、出版商和學術組織的認可,包括DataCite、數據委員會(隸屬於國際科學理事會)(CODATA)和自然出版集團。42此外,一些組織和出版商已經引入了數據引用的韻律工具。43 44標識符、引文和引文度量方案是數據共享被廣泛接受和實施的必要前提。
分配標識符的一個潛在問題是,數據集和文檔的版本可能不同。例如,試驗協議經常被修改並因此分配不同的版本號,或者一個長期的研究可能產生額外的後續數據。即使同時生成的數據也可能以不同的形式存在,例如試驗分析數據與(e) crf上最初收集的相同的、部分未編碼的數據集相比。版本控製是許多類型的數據存儲的共同問題,已經提出了各種技術方法——最簡單的方法是不同版本的不同doi,但是版本之間的鏈接顯式地保留在其他元數據元素中。我們在這裏提出的要點是,在為試驗數據集和文檔分配標識符的任何總體方法中,普遍應用的版本控製方案都是必要的一部分。
參與臨床研究的利益相關者需要為數據共享開發公平和可持續的財務模型,以確保數據準備和存儲以及請求和共享過程的長期資源。
為二次使用準備數據、隨後在存儲庫中維護數據以及請求和訪問過程的費用都需要足夠的資金。在資助申請中列入初始準備費用可能是最明顯的選擇,但需要探索為數據共享提供可持續資助的不同機製。我們認為,應盡可能避免對數據訪問收費,因為這可能阻礙訪問申請,特別是來自學術研究人員和低收入或中等收入國家的申請。然而,我們承認,在某些情況下(如遺留試驗),為共享準備數據的一些成本可能需要由次要用戶來承擔,否則將很難使數據可用。無論采用何種業務模型,最終目標都必須是鼓勵數據共享和重用。
長期儲存和存取成本不易預測,因此不易與初始資金掛鉤。
可能的支持來源包括核心/結構資金、主辦組織或私人承包、數據沉積費、訪問費或研發(R&D)項目資金。45關於數據基礎設施的可持續業務模型的討論正在進行中,很難確定一個首選的模型。一個特別的問題是,雖然許多已建立的國家和國際資料庫有來自研究供資者的核心收入來源,但這些收入來源通常是短期的,可能容易受到優先次序或責任變化的影響。經濟合作與發展組織(oecd)全球科學論壇正與合作夥伴就兩個與科學開放數據相關的項目展開合作,一個是關於數據倉庫的可持續商業模式,另一個是關於數據基礎設施的國際協調。46
為了確保更有效和更廣泛地共享IPD和其他數據對象,應鼓勵組織修改其政策,以允許更廣泛的數據重用。
有時,由研究機構和大學執行的地方政策可能會限製數據生成器共享數據的可能性。這些政策可能源於各種各樣的曆史信念,包括對數據重用的普遍不信任、可能有負麵的經驗、對學術競爭的擔憂以及對所有權和版權問題的關注。47但是,這種信念與全球對數據共享和重用的新態度是不相容的,應該審查機構政策,以努力確保消除這種障礙。
數據共享應前瞻性規劃,在試驗方案的指定章節中進行描述,並在試驗注冊記錄的相關章節中進行總結。
為了確保從試驗一開始就考慮數據共享,應將其納入試驗方案。這也是其他倡議所建議的,例如參考文獻17,並在“傳播政策”下的標準方案項目:介入試驗建議(SPIRIT)指南中作為介入試驗方案的標準項目提到:
該方案應說明試驗方案、完整的研究報告、匿名的參與者級別數據集以及生成結果的統計代碼是否將向公眾公開;如果是,請描述訪問的時間框架和任何其他條件。48
因此,關於IPD將如何變為可訪問性的描述應遠遠超過一份含糊的意圖聲明。將這些信息包括在試驗的注冊條目中也是有用的。世衛組織采用的注冊,如ClinicalTrials.gov和國際標準隨機對照試驗編號(試驗注冊)(ISRCTN),已開始包括有關IPD的出版和傳播計劃以及可獲得性的基本信息。在2017年國際臨床試驗注冊平台(ICTRP)注冊網絡會議之後,預計更多的注冊中心將及時收集新的數據元素,並通過世衛組織門戶網站進行展示。
所有的試驗文件(如參與者的信息傳單、合同、同意書、倫理提交文件)都應考慮到計劃的數據共享策略。
作為從試驗開始就計劃數據共享的結果,可以編寫其他文檔來考慮數據共享。參與者信息傳單應概述數據共享計劃,包括使用外部存儲庫,而同意書應包括有關的同意請求(見以下關於同意的部分)。數據管理計劃以及提交給監管和倫理審查的其他文件應參考計劃的數據共享策略和相關行動。倫理批準還不是取決於計劃的數據共享,但我們建議,數據共享計劃應該接受倫理審查。倫理委員會可以在促進負責任的數據共享方麵發揮重要作用,例如,通過評估計劃和確保使用適當的信息和同意表格。49
為了幫助支持在試驗規劃中實施數據共享,應提供提供支持和存儲示例文檔的服務。
作為一項相對較新的活動,規劃數據共享對許多研究人員來說可能是困難的。因此,擁有示例文件和模板(例如,同意書和議定書章節)可能是促進數據共享作為正常試驗活動的一個有用的實際步驟。提供谘詢服務以提供這種材料也可能是有用的。沒有人建議每個機構都應發展自己的服務,但一個在國家或超國家一級采取行動的組織可以有效地收集和傳播良好做法的例子。
使IPD數據和文件可供重用的時間各不相同,但應對時間進行監測和調查,以確定合理的期望並使其正常化。
很難對完整IPD數據集的“發布”時間進行過於規範的說明。其他一些舉措也試圖確定時間表:例如,美國醫學研究所的報告建議,不屬於監管申請的臨床試驗數據應在研究完成後的18個月內共享。15ICMJE最初建議在期刊論文發表後不超過6個月分享其結果的基礎數據,21盡管最近,也許考慮到我們在本文中討論的一些實際問題,他們提供了更靈活的指導。50
我們認為,目標應該是及時提供試驗數據和文件。但是,確切的時間將取決於——例如——主要調查人員發表論文的可能性和時間、研究和任何相關子研究的複雜性、文件或數據的性質、數據可能需要的分析和準備工作量以及計劃在何種製度下提供數據。
預計大多數試驗文件(描述綜合結果的文件除外,如臨床研究報告)可以也應該在數據收集結束後不久發布。然而,對於IPD數據集,我們認為研究人員應該有信心,在使整個IPD數據集可用之前,他們已經完成了自己計劃的作者活動。然而,我們認為合理的做法是,期望去識別的數據能夠相對較快地支持一篇特定的已發表論文,通常在該論文發表的一年內。此外,盡管來自試驗的數據集的不同部分可能會在不同的時間發布,我們相信(與ICMJE一起)50),要求調查人員應明確指出他們預計所有數據將於何時公布。換句話說,數據共享計劃應該包括一個時間限製,在研究開始時可用於檢查,在研究結束後可用於比較,實際數據發布。
未來重要的是監測何時提供IPD以及所使用的訪問機製,並將現實情況與最初提議的數據共享計劃進行比較。這種監測將不可避免地需要研究基礎設施的支持和資金,但不僅需要確定數據重用的數量、性質和時間,而且需要確定可能阻礙它的技術、態度和財政障礙。這將促進有針對性的投入,以盡量減少這些障礙,並導致對數據發布時間的合理預期有更好的共同理解。
同意分享資料
P2: IPD共享應建立在試驗參與者(或如果適用的話,他們的法定代表)明確廣泛同意為科學目的共享和重用他們的數據的基礎上。
告知試驗參與者可能共享他們的數據,然後獲得他們明確的同意,這個過程是至關重要的,通常是共享假名數據的先決條件(即,已去識別的數據,但仍然可以使用額外但單獨存儲的材料鏈接回個人)補充附錄2為進一步的細節)。
數據共享活動是試驗的一個組成部分(例如,合作組之間的數據傳輸),可以在提供給參與者的信息中預測和描述,因此可以包括在參與試驗的知情同意中。但在試驗結束後可能發生的IPD共享的性質、目的和目的地是無法預測的。因此,根據定義,任何對這種數據的二次使用的同意都不能完全“知情”。相反,應該從參與者那裏獲得的是對他們的數據被共享的“廣泛”同意,並警告說,這些數據隻能用於科學目的。
值得注意的是,歐洲通用數據保護條例(GDPR)1要求數據主體在收集數據時充分了解數據處理的目的,這在科學研究中就不那麼嚴格了。例如,GDPR的第33條指出:
在數據收集時,通常不可能完全確定為科學研究目的處理個人數據的目的。因此,在符合公認的科學研究倫理標準的情況下,應該允許數據主體對某些科學研究領域表示同意。[…]
歐盟臨床試驗條例536/2014也提到了將臨床試驗數據用於未來的科學研究,強調了在臨床試驗協議之外使用數據的同意的重要性,隨時撤回該同意的權利,以及審查二次分析是否適當和合乎道德的機製(序言第29段)。51
仍應在切實可行的情況下提供盡可能多的信息,以獲得廣泛的同意,例如關於數據共享的原因(一般而言,與他們自己的數據無關),以及在共享數據之前對數據進行的任何準備的性質(例如聲明數據將被刪除)。就像所有的同意一樣,它必須在沒有強迫的情況下才有意義,不管這種強迫可能是無意的。特別是,該同意應明確並明確地與任何其他同意區分開來。這不能通過同意參加試驗來暗示,因為這是一個單獨的活動,不是試驗的一部分(盡管在討論部分中已經探討過,我們接受不是每個人都持這種觀點)。同意數據共享也不能作為試驗的納入標準,因為這意味著脅迫。
有人認為,如果參與者需要為數據共享提供單獨的同意,那麼任何共享的數據集都有可能與原始分析中使用的數據集不同,也就是說,不同意共享數據的參與者與同意共享數據的參與者在係統上是不同的,從而在被研究人群中產生偏見。因此,有人認為,除非行使了“退出”選項,否則應假定同意共享數據。“選擇退出”方法的一個困難在於,在許多歐盟國家,這不是一個有效的概念,但更根本的問題是,它不是一種明確的同意形式。事實上,這隻會產生一個隱含的同意,我們認為,這將在法律和道德上構成一個不充分的基礎,為以後的數據共享行動。
獲得二次使用數據的許可應該成為一種標準程序,以提供在臨床試驗期間收集的數據的合法共享。
這一建議是上述原則的一個明顯結果。獲得明確的廣泛同意是避免在不存在這種同意的情況下共享數據的法律複雜性的唯一簡單方法。盡管在一些司法管轄區,對二次使用完全匿名臨床試驗數據的明確同意在法律上可能沒有必要,但“完全匿名”在實踐中可能意味著什麼存在問題。此外,法律背景也在不斷演變,例如隨著GDPR的引入1以及該法規未來的國家修訂和司法解釋,而且很難預測在未經同意的情況下,數據使用可能受到的限製。除了獲得同意的這一務實要求之外,在可能使用其數據的問題上,還必須向參與者開放和透明,這應該使尋求明確的數據共享同意成為強製性要求。
通常情況下,數據共享的明確同意應與參與臨床試驗的知情同意同時提供。
雖然是分開的,但IPD共享的同意通常應與參與試驗的同意同時獲得。這使得整個過程更實際,對調查者和參與者來說負擔更小。在某些情況下,這是很困難的(例如,緊急護理情況),因此,同意二次使用數據可能需要單獨的同意事件。
對二次使用IPD的同意應盡可能廣泛。
得到的廣泛同意應該允許數據的未來科學使用。例如,應避免將未來的二次使用限製為特定疾病領域或研究類型的研究,因為不可能預測數據訪問請求的來源以及它們可能如何分類。廣泛同意的概念來自生物標本和生物庫領域,在這些領域,普遍從倫理角度接受這一概念,特別是在對未來的研究活動有一個監督和批準的過程時。52因此,我們建議對“為科學目的共享數據”進行廣泛的同意,這明確排除了任何其他目的,例如保險或法醫目的。
二次使用資料的適當同意程序應確保下列事項:
詢問數據共享的原因,以及在臨床研究中數據共享的一般好處,已經向試驗參與者清楚地說明了。
盡管設想大多數試驗參與者將願意同意數據共享,但仍然重要的是,要讓潛在試驗參與者了解這種共享對科學和醫療實踐的一般好處。這些信息可能是患者信息表的一部分。
數據準備、存儲和訪問的性質已向試驗參與者解釋,在製作患者文件時他們已經知道。
還必須從廣義上說明數據將如何存儲以及存儲在何處,以及如何保持機密性(例如通過取消身份識別措施)。由於無法預測試驗結束後可能發生的數據共享的性質、目的和目的地,因此無法完全告知是否同意共享數據,但仍應努力描述將用於保護參與者隱私的措施、將考慮的請求類型和將接受的審查等等。換句話說,應該盡可能地告知同意。顯然,這至少需要在試驗開始時就製定出數據共享策略的大綱。
所提供的信息應清晰、簡明,並使用試驗參與者(或如適用其法律代表)能理解的詞彙。需要進一步的研究來確定向參與者展示這些信息的適當方式,並且需要定義和實施良好的實踐。
對數據共享的明確同意應體現在同意表格的布局中。
對二次使用數據的同意請求必須與知情同意文件中的任何其他事項明確區分開來。然而,這並不意味著需要單獨的同意表格或文檔來處理數據共享—不同的簽名部分可以集成到一個文檔中,通常這樣做會更容易。
雖然數據參與者有權撤回他們對數據共享的同意,但實施這一點的實際困難應該是清楚的。
毫無疑問,撤銷對數據共享的同意的權利必須得到尊重。在法律術語中,同意的需要通常伴隨著撤銷同意的相應權利,這一點在GDPR(第7.3條)中得到了承認。50隻要存儲的數據仍然是假名的(即,參與者的數據可以被識別),參與者的數據從數據集中刪除的請求就可以得到尊重。這可能涉及向存儲庫提供數據集的新版本,並通過在數據使用協議中包含關於管理撤回的同意的條款予以支持。53然而,正如歐盟臨床試驗法規536/2014所指出的,撤回知情同意“不應影響已經開展的活動的結果,如在撤回前根據知情同意獲得的數據的存儲和使用”(序言第76段)。51
修改已經交付到單獨存儲庫的數據的實際困難和相關成本不應被低估,因此,一旦數據已經存入,就很難提供提取選項。在與輔助用戶共享數據之後,提取數據的難度就更大了——事實上,這在實際應用中可能是不可能的。關鍵的一點是,撤回數據共享同意的任何限製都應該在患者信息表的任何解釋性材料中明確說明。
數據準備:試驗參與者的保護
P3:應為此目的準備可供共享的IPD,並對數據集進行去識別,以盡量減少重新識別的風險。應記錄所采用的去識別步驟。
來自用於進一步科學研究的臨床試驗的共享IPD應該總是去標識,或者假名或匿名(參見在線詞彙表)補充附錄2).這三個概念都很重要,但隻有最後兩個在歐盟法律中使用。任何數據準備方麵的考慮都需要對這些術語有一個共同的理解,因此在下麵討論它們。
去身份識別在GDPR中沒有定義,但在美國有定義,例如在健康保險可攜帶性和問責法案(HIPAA)條例中。54這意味著刪除或重新編碼標識符,刪除或逐字修訂自由文本中的術語,並經常刪除對日期的明確引用。參與者的識別碼號碼將被替換為新的隨機碼號碼,從而去識別參與者的識別碼號碼。它在本文檔中用於表示標識符已從數據記錄中刪除,但並不一定意味著數據記錄滿足GPDR規定的假名或匿名的要求。
假名化是指在處理個人數據時,在不使用附加信息(例如,將試驗標識符與已識別或可識別的人員連接起來的數據集)的情況下,數據不再屬於特定的數據主體,但條件是這些附加信息必須單獨保存,並在受控訪問下進行,以防止數據單獨可識別。雖然理論上這些信息可以用來與臨床試驗數據集進行匹配並識別個體,但這在實踐中非常困難,隻有在出現重大安全漏洞的情況下才會發生。
匿名化是一種應用於個人數據的技術,在實踐中使其無法識別。完全(完全或不可逆)匿名化包括去識別而且通過假名摧毀與已確認或可識別的人的任何鏈接。有效的匿名化可以應用於特定的數據集,方法是去標識和刪除到假名的鏈接,同時使用個人的新標識符。這些新的內部標識符與其他可能存在的標識符之間沒有任何聯係,例如在另一個假名化數據集(例如發起人的假名化數據集)中。
因此,如果一個去識別的數據集是假名的,那麼其中的參與者隻能由那些擁有相關“附加信息”的人來識別。如果去識別的數據集是完全匿名的,參與者不能被任何人識別(撇開與原始臨床數據匹配的理論可能性)。如果一個去標識的數據集是有效匿名的,那麼如果數據集是可訪問的(它不應該是可訪問的),但不能保證匹配,特別是當參與者共享許多相同的數據值時,則隻有非常小的可能性將數據與相應的偽匿名數據集進行匹配。
在共享數據之前,應該對數據進行去識別,刪除可能的標識符,以將重新識別的風險降至最低。
充分的去認同是成功保護研究參與者免受再認同的關鍵決定因素之一。假名化和匿名化數據所需的去標識級別是相同的。在所有情況下,它都應該提供一個高度的保證,即數據內容本身不能用於識別數據集中的個人。其他政策和程序(例如使用數據使用協定)也提供防止重新識別的保護,但取消識別是必要的先決條件,應適用於可供二次使用的所有數據。
共享數據應保持匿名,除非相關立法不允許。可能允許重新識別的附加信息應該安全存儲,而不是共享。
建議共享匿名數據,這應該是正常的期望。臨床試驗數據在收集時是假名的,或者通過對數據集的處理和對識別數據點的分離,很容易在研究單位內轉化為假名數據。試驗數據完全匿名是很罕見的,或者至少在數據收集多年之後才會發生。讚助者有法律義務將收集的匿名數據集保存多年,具體時間取決於國家法規。此外,最初的調查人員或他們的機構可能想要使用假名密鑰,以防他們希望返回到相同的參與者進行進一步的調查(假設他們獲得了倫理批準和/或明確同意這樣做)。
因此,共享數據的主要選項是:(1)共享假名數據集,但不共享假名代碼;或者(2)在共享數據集之前有效地匿名化數據集,將試驗中使用的標識符替換為另一個獨立集,並且不保留兩者之間的任何鏈接信息。
共享假名數據的好處是,如果二級用戶發現有很好的理由澄清、擴展或匹配某些數據,甚至對某些源人群進行進一步調查,他們可以聯係假名數據的持有者,並討論是否以及如何實現這一點,因為個體參與者仍然(間接)可識別。這並不意味著可識別或標識信息將被轉移到次要用戶,除非得到參與者的明確同意(盡管這似乎不太可能得到)。這隻是意味著,如果有理由確定數據集中的個人,那麼至少有可能討論這樣做的可能性,包括可能返回有關個人要求額外的同意。
無論何時,都應采用取消身份的標準程序和技術,並充分記錄以確保透明度和可重複性。
去鑒別應符合官方機構和科學組織提供的現行標準、指導方針和政策。55 - 62健康數據去識別的技術和準則已經存在,並且在研究中越來越普遍(如參考文獻63).去標識的記錄應該被存儲,最有用的是與去標識的數據集一起作為另一個元數據。為了更容易地審查已經發生的去標識,我們需要一種標準化的、理想的機器可讀的方式來描述那些去標識操作。
應當對重新識別非識別數據集中的參與者的殘餘風險進行評估。
根據GPDR,至少在歐洲,數據控製者有義務進行數據保護影響評估(dbia),在處理個人數據之前“評估……對自然人權利和自由的風險的起源、性質、特殊性和嚴重性”。影響評估“應該包括為減輕已確定風險而設想的措施、保障措施和機製”。這意味著,數據的最初注銷,例如在存入存儲庫之前,應同時進行這種影響評估,最好列入建議17所述的注銷記錄內。
此外,至少在受管理的訪問環境中,當數據被請求用於二次使用時,應該對重新識別風險進行評估,因為全麵的風險評估將對計劃使用的特定上下文非常敏感,特別是任何數據使用協議。如果數據已經被充分地去識別,這種風險評估可能相對較輕,並且在某些情況下,可能委托給存儲庫管理人員。
可提供關於管理去識別和評估相關風險的實際指導。例如,醫學研究所關於數據共享的論文附錄B,14“去識別臨床試驗數據的概念和方法”提供了風險評估和降低風險的策略的有用概述,關注但不限於美國環境。在歐洲,第29條數據保護工作組製定了關於dppa及其應如何應用的詳細指南。64但應該指出的是,在這一點上,還不清楚不同的國家司法管轄區如何在臨床研究數據共享的特定背景下解釋影響評估的要求。試驗發起人作為數據控製者的法律責任,以及是否和如何將其委托給其他人,仍有待澄清。
應當始終禁止重新識別數據主體。
任何正式的數據使用協議都應明確禁止試圖重新識別數據主體。即使沒有具有約束力的協議,試圖重新確認身份也很可能是非法的,無論如何都應受到製裁。可能實施的製裁可能是組織性的(如嚴重不當行為)、財務上的(如失去獲得進一步資金的機會)以及法律上的(如違反合同)。
在沒有從試驗參與者那裏獲得數據共享的明確同意的情況下,如果以符合法律的方式準備數據和處理數據請求,數據共享仍然是可能的。
在國家或其他法規允許對數據共享的正常限製有例外的情況下,如獲得同意對研究人員來說太不現實或對參與者來說負擔太大,且風險被評估為較低的情況下,仍可以共享沒有明確同意數據共享的數據(從許多過去和目前的試驗來看)。在這種情況下,預計擬議的分享要求和數據使用可能需要倫理委員會或其他審查委員會的參與,視國家係統而定。此外,數據可能被要求進行更高級別的去識別,數據使用協議可能對數據訪問施加更大的限製。
有效的匿名化也可能是一種選擇,盡管必須有一種機製來同意匿名化已經真正實現。如果是這種情況,數據保護條例就不再適用了。匿名數據本身通常被視為數據處理,因此受數據保護法規的保護。因此,匿名化必須由被授權處理數據的人來完成。
難點在於,在未經明確同意的情況下二次使用數據的許多問題尚未得到澄清,需要(在歐洲)國家當局在臨床研究數據的具體背景下,對GDPR所代表的要求進行進一步解釋。未來試驗的重點應該是通過迅速和廣泛地引入數據共享的明確同意程序來完全避免這個問題。
應當建立支助數據集去查驗身份的服務,其範圍從簡單的指導、谘詢到執行和記錄去查驗身份的過程。
為了確保這方麵的良好做法,最好確定現有的專門知識中心和/或發展能夠提供強有力的去身份查驗做法、文件和/或審查的中央服務。這些服務可以利用現有的指導方針和良好做法,例如加拿大科學院理事會的指導方針和良好做法,61並在臨床試驗數據的特定背景下進一步發展它們。這種良好做法可以及時傳播給各研究單位,以便它們能夠執行自己的去身份查驗措施。
數據準備:數據標準
P4:為了促進互操作性並在解釋和分析中保留意義,共享數據應盡可能使用廣泛認可的數據和元數據標準進行結構化、描述和格式化。
更多地使用數據標準對數據共享的成功至關重要。如果沒有這樣的標準,任何共享的數據都很難有信心地解釋,聚合起來也要花費更多的時間和成本。標準可以應用於數據項定義和代碼、用於類別的受控詞彙表,甚至數據的結構和交換方式。用於存儲和傳輸數據的文件格式也應該標準化,以使數據處理更容易。
公認的是,臨床研究的性質是對新的幹預措施進行測試,這意味著有時可能有必要為試驗中使用的一些數據項創建新的定義和代碼。然而,目標應該是盡可能利用廣泛認可的數據標準(例如來自CDISC的標準)。在需要新的定義的地方,為了支持新的科學,可以而且應該通過擴展現有的標準方案來得到這些定義。數據標準的廣泛使用在降低成本和最大限度地利用數據共享方麵具有關鍵作用。
數據和編碼標準應該從試驗一開始就前瞻性地構建到任何試驗的數據設計中。
在試驗數據庫設計好並收集好數據之後,嚐試和應用標準和數據定義是非常困難的,或者嚐試和更改數據結構是非常困難的,除非試驗從一開始就在腦中設計了這些數據結構(例如,將數據映射到臨床數據交換標準聯盟-研究數據製表模型(CDISC SDTM),這是美國食品和藥物管理局(FDA)使用的製表數據格式,如果數據是通過臨床數據交換標準聯盟-臨床數據采集標準協調(CDISC cash)數據項目收集的)。當結合先前試驗的數據有價值時,可以進行遺留數據轉換,但這是資源密集型的,可能會損害數據完整性。追溯“標準化”所需的時間和成本將使這種工作超出許多非商業單位的資源。相反,從一開始就設計標準是很重要的,關於編碼和使用的其他係統的決定是試驗設計過程的一部分。
在各種可用的數據標準中,應該認為來自CDISC的標準為以一致的方式定義和編碼數據和元數據提供了目前可用的最佳起點。
在一個穩步發展的標準環境中,推薦任何特定的標準顯然都有風險。盡管如此,近20年來,CDISC在製定臨床數據項目和數據結構標準方麵所做的工作已經產生了一套與臨床試驗數據特別相關的有用和協調的數據標準。65我們將鼓勵研究人員檢查這些標準中的一個或多個,這些標準已在全球廣泛采用,作為在他們的試驗數據中引入更多標準化的工具。當然,使用其他建議和標準——例如,COMET收集的核心結果集,66《監管事務醫學詞典》對不良事件進行編碼67翻譯研究的eTRIKS標準68-還可以增加數據之間的互操作性,補充CDISC標準。
同樣重要的是進一步製定標準,以便它們能夠適用於來自臨床實踐的更大比例的數據,包括努力使醫療保健數據標準趨於成熟,以便與研究標準協同使用。
非商業臨床研究基礎設施應該積極支持數據標準的前瞻性使用,例如利用現有的培訓、材料和支持服務,並根據需要擴展這些。
到目前為止,在非商業研究中使用數據標準相對有限,因此有必要提高對可用的不同標準及其用途的認識,並開發可以幫助研究人員在實踐中應用它們的工具和服務。基礎設施組織,如ECRIN和各種國家網絡,與標準開發組織合作,可以在這方麵發揮關鍵作用。支助可能包括從提高認識講習班和編製信息材料到策劃數據收集工具的圖書館。對於CDISC標準,有SHARE(共享健康和研究電子圖書館),這是一個工具,提供對CDISC標準和術語的機器可讀版本的訪問。69
非商業臨床研究基礎設施應積極參與標準製定過程,根據需要進一步擴展標準。
需要更多的非商業研究組織和基礎設施參與到數據標準的開發中來。在過去,標準的製定通常是由提交給監管當局的要求驅動的,盡管最近,這一過程已擴大到包括適用於公共衛生和疾病暴發、營養研究和觀察性研究的標準。
重要的是要繼續這些發展,以確保標準對商業和非商業研究部門同樣有用,同樣適用。我們認識到,增加非商業研究機構與數據標準的接觸必然是一個漸進和長期的過程,但潛在的科學利益太大,這種接觸不可能發生。這一過程的關鍵是學術認可和對標準開發投入的獎勵。
臨床試驗數據集應該始終與描述每個數據項的特征(如類型、代碼、名稱、可能的本體引用)的元數據以及試驗的計劃和設計相關聯。
至少應該提供基本的數據字典和學習計劃,例如電子表格或(CDISC)操作數據模型(ODM) XML文件。然而,理想情況下,元數據應該包括單個數據項的含義(例如,澄清不同類型的血壓測量,或“臨床意義”的含義),可以通過提供簡要描述或引用已發表的本體。xml元數據係統提供了一種以這種方式消除歧義的機製。數據集元數據變得越統一,構建能夠自動搜索、比較和聚合數據集的工具就越可行,這可能會降低數據重用的成本。
數據集應以一種或多種標準化文件格式共享,這些格式可被各種不同的係統讀取。
應避免使用專有和統計軟件格式。使用相對簡單且通常可互換的文件格式(有時稱為傳輸標準),可以使用各種文件操作工具進行訪問,這是使盡可能多的潛在用戶訪問共享數據的一個重要方麵。
但是,任何格式都應該允許顯式地保存數據中的結構,包括父子關係。因此,基於XML模式的結構化文本是一種特別有用且普遍適用的格式。ODM XML的優點是支持審計跟蹤,以確保數據的可追溯性和來源。
訪問權限、類型和管理
P5:對IPD和試驗文件的訪問應盡可能開放,必要時應盡可能封閉,以保護參與者的隱私和減少數據濫用的風險。
期望並鼓勵對共享數據和文檔的一係列訪問類型,包括不同形式的受控訪問。
我們鼓勵的指導原則是IPD和相關文件應盡可能公開獲取。盡管我們認為大多數試驗文件應該不受限製地公開獲取,但我們承認IPD可能會給數據控製者(發起人)帶來擔憂——在保護參與者隱私方麵——和數據生成者(調查者)——例如,數據可能被曲解。鑒於目前缺乏關於IPD共享的既定標準,我們認為對數據集的一係列訪問模型將不可避免。但是,我們建議,對於IPD,次要用戶至少應該表明自己的身份,並同意使用數據的一些基本條件(見建議29)。
根據幾個因素(例如,獲得的同意的性質、重新識別的風險、對汙名化的擔憂、信息濫用、不正確的分析等),訪問模型可能包括從公開可訪問的基於web的係統(具有下載數據集的可能性)到各種類型的請求/審查機製(可能允許也可能不允許數據下載)。訪問粒度還可以應用於相同數據集的不同部分,因為有些信息可能比其他信息更敏感或更難處理。
我們承認,誰負責選擇一種訪問模型而不是另一種的問題尚未解決。數據生成器通常最熟悉數據的潛在價值,以及與數據誤用有關的風險,因此應該在訪問方案的定義中發揮作用。如果數據控製器已將訪問控製的部分或所有方麵委托給數據存儲庫,則數據存儲庫也可以在此過程中發揮作用。然而,最終目標仍應是數據價值的最大化。因此,應建立監測數據存取製度的機製,並在必要時查明和幫助修改任何過度保護的計劃。
在獲得IPD的同時,應始終附上一份遵守旨在促進公平分享數據的基本規則的聲明。
我們認為所有二級數據用戶都應該承認並同意數據使用的一些基本規則。例如,他們應該表明自己的身份(包括使用回調和確認過程驗證自己的電子郵件地址),而不是試圖重新確定參與者的身份,公開任何二次分析的結果,並在任何已發表的工作中正確引用數據源。數據共享國際標準實踐的定義將有助於澄清這些基本規則,並有助於減輕研究人員對可能出現的問題的擔憂。在最簡單的情況下,通過完成一個基於web的表單就可以表明對重用基本規則的遵守。在某些情況下可能需要更詳細的證明或正式協議,例如,如果第二次使用的原始同意提到可能的限製、數據敏感性高或數據產生者擔心曲解。
我們承認,目前一些數據存儲庫托管去標識的臨床試驗數據集,可立即閱讀或下載,沒有任何類型的限製或注冊。70 71雖然這顯然是可能的,但我們重申,二級用戶通常應被要求遵守一些核心原則,以保持數據共享係統的透明度,並使所有利益相關方更容易接受數據共享。
可以建立監督數據共享過程的委員會,理想情況下是在數據存儲庫級別。這些委員會可就數據共享中可能出現的倫理和法律問題提供谘詢意見,對於有控製的訪問,可負責管理數據訪問請求。
廣泛提倡設立一個委員會監督整個數據共享過程,並在適用時評估數據訪問請求。這些委員會的作用和責任可能有所不同。作為第一步,我們設想建立專家委員會(“訪問谘詢委員會”或其他類似術語),他們可以為數據生成器和存儲庫提供建議和支持。理想情況下,這些董事會應該由存儲庫或存儲庫組建立。
同樣的方式,鼓勵數據生成器使用合適的存儲庫進行存儲,並出於提供長期數據管理連續性的相同原因,我們鼓勵將訪問管理委托給存儲庫及其董事會。當受控訪問模型應用和數據請求應用程序的正式評估存在時,我們鼓勵一個過程,由獨立的數據訪問委員會對所提議的二次分析的科學價值、潛在影響和適當性進行評估。這些委員會還可以評估並確保數據生成器得到充分引用和認可,盡管這隻有在跟蹤引用和在沒有得到認可時突出顯示的機製到位的情況下才會起作用。
不論委派給這些委員會的任務是什麼,其任務、程序、組成和專門知識的透明度是必不可少的。
無論任何一個委員會的確切任務是什麼,重要的是它的工作是透明的,它的成員是眾所周知的。重要的是,任何委員會都應包括廣泛的專業知識,包括公民和患者團體的代表。任何可能的利益衝突(包括非金融利益衝突)都應予以申報和管理。評估標準和過程應該是公開的,關於接受和拒絕特定請求的原因的聚合度量也應該是公開的。這將確保決定過程的透明度,並有助於未來的申請者。
P6:在管理訪問的情況下,任何有合理科學問題和回答該問題的專業知識的公民或團體都應能夠請求訪問IPD和審判文件。
要求查閱數據的權利不應局限於特定的職業或角色。
作為一般原則,對數據的訪問不應局限於特定類型的請求者或專業配置文件。在訪問模型包括對數據訪問應用程序的正式評估、要處理的科學問題以及請求者回答該問題的能力的情況下,與請求者當前的工作角色相比,這些問題與數據請求的評估更相關。例如,學生和科學記者以及活躍的研究人員或審稿人都可以尋找數據。然而,請求者或他們的團隊通常需要展示從數據中得出科學結論的能力。
如果對訪問進行正式管理,數據請求者可能需要提供研究協議和分析計劃,包括關於數據管理、數據存儲和再分析結果發表計劃的信息。請求者還應提供關於他/她(或團隊)專業知識的信息,可能使用持久的數字標識係統(例如,開放的研究人員和貢獻者ID (ORCID))。
原則上,對訪問請求的考慮不應受到擬議的二次重用是否在短期或長期內直接或間接地與潛在商業利益有關的影響。在任何情況下,通常很難清楚地區分“純”與“應用”,或“商業”與“非商業”研究。
數據提供者和輔助數據用戶之間的協作可以增加數據共享的價值。然而,它不應該是數據共享的先決條件。
數據生成器參與數據重用可以帶來一些好處。最初的調查者可以與次要用戶分享關於研究、數據和分析的關鍵見解,減少對數據的誤解的可能性。因此,這種合作可能大大提高二次數據使用的質量,並使其更有效。
然而,在本文件設想的數據共享模型中,沒有必要讓數據生成器參與進來(就像過去在研究合作中共享數據時經常發生的情況一樣),而且在受控的訪問環境中,這種參與是否有計劃不應影響數據訪問決策。如果原始數據提供者積極參與,那麼根據已建立的作者關係規則,重用所產生的發布的共同作者關係通常是合適的。40
即使沒有直接參與到二次使用中,數據生成器(假設他們沒有使數據訪問完全開放)也應該可以被告知誰正在訪問數據,或請求訪問,以及何時訪問。如果總要求二級用戶表明身份(見建議29),這將成為可能,並且可以成為數據生成器和存儲庫之間正式協議的一部分(見建議42)。
數據和文件進一步分析的結果和方法本身應該公開,並存放在適當的存儲庫中,無論它們是否與已發表的論文有關。
數據用戶應同意不僅通過科學出版物(可能準備或不準備,如果準備,可能接受或不接受發表)公開其二次分析的方法和結果,而且通過將其存入存儲庫並使其可被發現。這對於提供有效數據共享的進一步例子並使他人能夠審查從二次使用中得出的任何結論非常重要。
P7:處理查閱資料要求應明確、可重複和透明,但應盡量減少有關各方的額外官僚負擔。
在正式控製的數據訪問係統中,即需要明確的請求和對該請求的評估的係統中,訪問數據的過程應該是清晰的、可重複的和透明的。應避免不一致的決策,標準應明確。
為了簡化請求過程,應該鼓勵存儲庫使向二級用戶呈現的界麵盡可能一致。
在不同的存儲庫之間,流程、信息需求和形式表單應該相同或非常相似,以簡化所有相關人員的工作,特別是輔助數據用戶。甚至有可能開發一個通用的“訪問請求管道”,特別是對於較小的存儲庫,這樣相關的成本可以被分擔,即使每個存儲庫保留單獨批準或拒絕請求的權利。
在這個階段更進一步,跨存儲庫共享板也應該是可能的。現有的CSDR方案提供了類似的方法,數據由不同的商業公司生成和存儲,但由威康信托組織協調整個過程,並支持一個共同的獨立審查小組。23在非商業領域如何為這一計劃提供資金,以及如何使許多不同的用戶能夠接受共同審查委員會的成員資格,都存在一些問題。然而,盡管存在這些問題,這種方法可以為二級用戶提供相當大的簡化,並減少存儲庫的官僚負擔。
鼓勵推行標準使用條款協議,即“數據使用協議”,訂明查閱和重複使用數據的條件。
這樣的協議不應該成為數據共享的障礙——相反,它應該通過確保各方的權利、角色和責任得到明確定義,為數據共享提供便利。
可以開發數據使用協議模板(以及對所請求信息的解釋),公開並由幾個存儲庫共享,以簡化訪問請求過程。
適當的數據使用協議至少應包括以下方麵:
合作夥伴和相關機構。
明確當事人及其作用和責任。
定義。
如果存在任何實際或潛在的歧義,則應定義術語。
請求的目的和可能的限製。
對預期的、商定的用途的說明以及對該用途的任何限製(例如,限於某一疾病領域的研究)。本節還應包括數據不適當使用的定義,以及對如何使用數據的任何限製(例如,將數據分發給第三方,試圖重新識別)。
承認並給予原始數據生成器信用的協議。
公眾傳播再分析結果。
提供結果公開存儲的協議,通常但不一定是在與源數據相同的存儲庫中。
同意的問題。
如何管理對知識產權發展共享的同意,例如,對用於證明數據共享的同意的說明(或在沒有明確同意的情況下,對進行共享的規章以及如何遵守這些規章的說明)。
在請求機構內部控製數據的條款和條件。
假設數據下載,數據將如何在請求者的組織中進行管理和存儲,以及為確保適當的訪問和安全性而采取的措施。
協議的條款和終止。
確定協議的有效期限。指明在履行合同義務之前可以終止協議的條件(例如,違反數據共享行為守則等)。一旦協議終止,數據將如何管理(例如,數據將返回給提供者還是銷毀?)
為了盡可能開放數據共享,應避免因知識產權問題、專利和許可證而造成的不必要限製。數據和對象應存放在最大限度支持數據共享的許可下的存儲庫中,例如,使用創作共用(Creative Commons),允許他人在法律上使用“作品”並從中製作“衍生作品”。
應該開發工具來支持跨不同數據共享平台和存儲庫的公共度量的實現,並在公共門戶下發布這些度量。
示例包括請求和批準數據的數量和類型,以及不提供訪問的原因,以及由於數據和文檔重用而產生的已發表論文的摘要數據(包括鏈接)。這是在整個數據共享過程中保持透明度的一個重要方麵。
收集和顯示用戶關於訪問數據或數據共享過程的反饋的機製應由存儲庫本身或第三方開發和實現。
這種反饋可以是對建議38所述數據的有益補充,有助於提高透明度和增加用戶參與,並向資料庫提供直接反饋。可以通過單獨的存儲庫或外部服務實現,也可以通過兩者的某種組合實現。
數據管理和存儲庫
P8:除了IPD數據集,其他臨床試驗數據對象(如協議、臨床研究報告、統計分析計劃、空白同意書)也應供共享,以充分理解任何數據集。
在任何關於數據共享的討論中,重點自然是數據集本身。但是要完全理解這些數據,就需要清楚數據收集的上下文、目的和時間,以及最初對這些數據進行的處理和分析。這進而要求協議、分析計劃、研究報告、病例報告表格等也可用於共享,並需要作為可用的“數據對象”進行管理——最好是在指定的存儲庫中進行管理(如下原則9所示)。如果不這樣做,孤立地考慮數據就有可能被誤解。因此,對於數據生成器和輔助用戶來說,需要存儲和管理並可能共享的材料包括所有相關文檔和數據集是很重要的。
P9:可供共享的數據和試驗文檔應轉移到合適的數據存儲庫,以幫助確保數據對象得到適當的準備、長期可用、安全存儲並受嚴格的治理。
“提供數據供共享”的風險可能被理解為最初的研究團隊隻是同意在特殊的基礎上考慮數據請求。然而,我們認為與此相關的有幾個問題,而另一種選擇——將數據傳輸到指定的數據存儲庫——是更好的選擇。原因包括:
原來的研究團隊(或合作)將改變其組成,甚至可能停止存在,然後可能很難或不可能管理數據和適當考慮請求。
將數據傳輸到第三方存儲庫可以更容易地準備共享數據(例如,去標識、提供元數據),並有助於確保數據和相關文檔得到適當的描述。
計劃轉移到存儲庫有助於在試驗的早期階段明確地確定數據準備和共享成本。
它有助於使數據和試驗文檔更容易被發現。
它可以減輕原來的研究團隊/發起人審查請求的需要,甚至(取決於與存儲庫所做的安排)作出同意此類請求的決定的需要。
在這種情況下,“指定數據存儲庫”可以是專門存儲全球或區域級別的臨床研究數據和文件的數據存儲庫、通用科學存儲庫或專門存儲與特定疾病領域相關的數據對象的數據存儲庫。它可能是研究人員自己的機構為“他們的”研究建立的存儲庫。我們不建議存儲庫的最佳範圍—隻建議它所使用的過程。
臨床數據和數據對象的存儲庫應符合已定義的質量標準。
任何存儲庫提供的服務都應符合規定的質量標準,以使其用戶相信,他們的數據和文檔將按照他們商定的具體數據傳輸協議安全存儲。一些可信賴數字存儲庫的通用標準和標準已經開發出來並正在應用中(例如,數據批準印章,72國際科學世界數據係統理事會,73DIN 3164474)和若幹核證資料庫的工具已實施。72 73 75 76
這些不同的活動有必要進行協作和協調,77最近提出了一套關於可信賴數據倉庫的統一核心需求的建議(國際科學理事會/世界數據係統(ICCSU/WDS),數據批準章(DAS)。78).需要檢查可信任數據倉庫的可用標準、要求和認證工具,並檢查其對臨床研究數據對象的適用性。如有必要,應提供擴展或改編。
還需要開發或適應可持續的係統,根據這些標準評估臨床數據和數據對象的存儲庫。這些工作還有待完成,但考慮到研究人員可能會獲得各種各樣的存儲庫,我們認為它是任何可接受的數據共享環境的必要組成部分。研究基礎設施組織可以在製定和傳播標準和評估係統方麵發揮關鍵作用。
關於保存臨床研究對象的不同存儲庫的信息應該向數據生成器開放,以便在當地政策允許的情況下,他們能夠做出知情的選擇。
這些信息應該包括成本以及可用的功能和訪問選項,以及針對上述質量標準的任何評估。其目的隻是幫助數據生成器決定在哪裏存儲數據對象,並鼓勵存儲庫之間進行一些健康的競爭。我們設想了一個中央服務,提供可用存儲庫的信息和聯係細節,類似於現在re3data為一般存儲庫提供的數據(我們相信當前的re3dataset需要大量修改,以支持臨床研究人員選擇存儲庫的需求)。理想情況下,存儲庫本身會發現在這樣一個係統中保存盡可能最新的記錄是有益的。
將任何數據對象轉移到存儲庫(包括在同一機構內的數據對象)都應服從正式協議,該協議規定了數據生成器和存儲庫管理人員的角色、權利和責任。
我們期望數據傳輸協議適用於將數據和文檔傳輸到存儲庫。換句話說,轉讓應該是一個正式的安排,明確規定各方的責任,而不是非正式的上傳。特別重要的方麵包括商定的數據訪問機製、製定未來數據共享決策的機製以及數據控製器角色的分配。
應當進一步評價實現“分析環境”的機製,這種機製允許對數據集進行就地分析,但防止下載。這樣的分析環境應該允許臨時組合來自不同主機存儲庫的不同數據集
這將是一個專門的存儲設施,在許多方麵類似於“手套箱”或分析環境,現在可用來檢查一些製藥研究數據。這一過程將包括:
獲取從不同存儲庫臨時“借用”數據集到分析環境的權限。
設置包含必要分析工具的臨時IT係統(虛擬機或容器)。
按照約定導入數據集。
進行並記錄分析。
收集結果。
破壞臨時IT係統和它包含的數據,通常是直接的,但在任何情況下,根據事先的協議。
的優點:
它使存儲庫/數據生成器對訪問控製有更大的控製,因此可能鼓勵更廣泛和/或更早地共享數據。
它允許聚合來自廣泛不同來源的數據,比通過多個應用程序下載文件要快得多。
的缺點:
與基於簡單下載的係統相比,它需要更複雜、更昂貴的技術基礎設施,包括對每個數據聚合的更大程度的人工輸入。
它需要存儲庫/數據生成器和提供設施的組織之間的信任,例如關於安全和訪問控製的信任。
如果要大規模使用這種設備,還需要克服一些重要的挑戰:
需要開發穩定的應用程序編程接口(api),允許跨多個存儲庫進行數據檢索和訪問。
需要應用允許檢索數據互操作性的數據標準。
雲環境需要用適當的安全性、審計和帳戶管理來構建。
將需要跨機構(其中一些也可能是跨國的)成本分攤和會計模式。
這些都是其他科學領域正在解決的問題,然而,在臨床研究中它們不應該是不可克服的。
可發現性和元數據
P10:任何可供共享的數據集或文檔都應該與簡潔的、公開的、結構一致的發現元數據相關聯,不僅描述數據對象本身,還描述如何訪問數據對象。這是為了讓人類和機器都能最大限度地發現它。
我們相信,將會有許多不同的存儲庫用於臨床研究數據對象,以補充現有的係統,用於索引同行評議的論文和包含試驗本身細節的注冊表。因此,我們需要一些機製來支持這些資源的可發現性。審查員和研究人員需要能夠識別與試驗相關的數據和文件,並發現如何以有效和一致的方式訪問它們,以及使用限製。每個單獨數據對象的元數據描述是實現這一需求的關鍵,因為它提供了一種方法,軟件代理可以通過這種方法查詢不同的存儲庫並聚合它們的“內容列表”,從而形成單一的信息源。
需要開發和實施一種適合於描述與臨床試驗相關的所有存儲庫數據對象的元數據模式,得到主要利益相關者和存儲庫管理人員的同意,並廣泛傳播。
這樣的模式應該包括對源試驗(或多個試驗)和應用的訪問安排的明確標識,以及對數據對象本身的描述。在CORBEL項目中,已經提出了基於廣泛使用的DataCite標準的建議,79但是任何這樣的模式都需要存儲庫管理人員和其他人進行進一步的討論,目的是達成一個共同的標準。
具有臨床研究數據對象的存儲庫應該對這些對象使用這種通用模式,或者可以輕鬆映射到這些對象的模式,這樣描述不同存儲庫內容的元數據就可以聚合。
這是一個雄心勃勃的目標,因為需要全球規模(要真正有用,需要包括所有數據對象的來源),但如果不使用通用模式,很難看出如何使任何可發現機製長期可持續。替代方案將需要針對不同類型的元數據使用一係列聚合/協調技術,和/或需要使用“數據挖掘”技術鏈接記錄。這可能是遺留試驗的一個選擇,但從長遠來看價值有限,因為它可能太困難,容易出錯,而且成本高,而不是在試點或研究項目中。因此,我們需要廣泛使用建議44中描述的模式,以實現自動和可靠的元數據聚合。
通用元數據方案將需要包括臨床研究數據對象的通用標識符方案。推薦使用DOI作為這種標識符的最佳候選。應該開發一種機製,使為所有數據集和文檔分配唯一標識符變得容易,這些數據集和文檔可用於數據共享。
任何元數據模式的核心都需要一種為所描述的對象分配全局惟一持久標識符的方法。對於這一點,DOI似乎是最合適的標識符,尤其是因為許多現有的數據對象和已發表的論文都使用相同的機製。分配doi的成本必須盡可能低,需要探索各種機製,也許使用一些大學現有的能力來分配doi,或者讓基礎設施組織作為doi的來源,以確定最有效的方法。需要解決的一個相關問題(盡管它超出了CORBEL項目的範圍)是為試驗分配唯一持久標識符,盡管目前有各種“變通方法”,例如,使用注冊表id。
應該開發工具,以幫助數據生成器盡可能高效地完成上述通用方案的元數據字段。
人們可以設想一個基於網絡的係統,它提供必要的字段和提示,並可以提供給數據生成器。重要的是,盡可能由數據生成器創建元數據,因為隻有他們對所需的材料有充分的了解(盡管在數據對象即將被傳輸到存儲庫之前,他們可能不會提供元數據)。基於web的數據收集的優點是,它還可以同時聚合不同存儲庫的數據,因為數據將存儲在相同的“後端”數據庫係統中。這將使通過單個門戶訪問數據變得更加容易。
應該開發工具,以實現從存儲庫中定期收集元數據,將這些元數據導入臨床研究數據對象的“元數據存儲庫”集合中。
如上所述,這是將元數據聚合為有用集合的關鍵組件。非集中生成的數據需要定期導入,例如使用api以定期(如每天)“獲取”元數據。元數據越多樣化,任務就越困難,最初可能需要一係列這樣的工具。隨著時間的推移,如果元數據像上麵描述的那樣變得更加一致,那麼軟件係統本身的維護就會變得更簡單、更便宜。
應該開發、維持和連接元數據存儲庫,以支持對底層元數據的基於web的公共訪問門戶,為用戶提供單一入口點以及相關的搜索工具。
元數據存儲庫的範圍越廣,對用戶就越有用。這裏的概念是一個全局元數據存儲庫(MDR)門戶,即網站,連接到由不同涉眾維護的一係列單個元數據存儲。如果所使用的元數據具有跨各種係統的一致模式,那麼整個數據聚合就可以作為單個資源進行搜索。
應在認識到這種服務對數據共享的重要性的基礎上,發展維持元數據儲存庫和與它們長期相連的門戶/搜索係統的機製。
本節中描述的發現機製除非能夠永久地維持下去,否則用處不大。應該建立試點的元數據存儲庫(現有的計劃,如OpenTrials,80支持),以便更清楚地確定運行此類服務的成本和問題。然後,研究界和政府需要就資助機製和基礎設施(例如,在發展中的EOSC內)達成一致,以支持更長期的發現性。
討論
近年來,關於臨床研究中IPD的共享和重用的爭論迅速擴大,反映了一個事實,即現在有廣泛的共識,即IPD將有利於研究,從而最終有利於醫療保健。但是,關於原則和實踐的許多問題仍有待解決。例如,如何最好地促進和支持研究人員之間的數據共享和重用,如何充分告知試驗參與者並保護他們的權利,以及應該如何、在何處以及以何種格式存儲、查找和訪問數據。
本文使用基於數據共享“生命周期”的方法討論了其中的一些問題。它闡明了由國際專家組成的多利益攸關方小組在正式協商一致後製定的10項原則,代表了IPD共享和重用的總體框架。該框架已進一步發展為50個更詳細的建議,為如何更好地實現數據共享提供了我們認為明確的實用指導。
方法
為了解決來自臨床試驗的IPD共享這樣一個複雜和多方麵的問題,我們首先建立了一個國際專家小組,涵蓋來自不同領域的廣泛專業知識和經驗(試驗方法和注冊、研究透明度和倫理、元分析、科學出版商、監管機構、患者組織、數據保護和IT專家、標準化機構和IT服務提供商)。
其次,我們采用了一種標準的方法進行協商一致,即在獨立的協調人的支持下進行名義上的小組過程。在一年多的時間裏,小組參加了三次麵對麵的會議,參與率很高,討論時間很長,決策過程也很有條理。名義上的小組程序使工作隊的所有成員都有機會確定問題,然後讓整個小組就這些問題進行辯論和表決。
從這項協商一致意見工作一開始,一個主要問題就很明顯。關於數據共享的術語是令人困惑的,而且通常,不同的利益相關方或在不同的上下文中(或國家)使用相同的術語來指向不同的概念。例如,對“匿名化”、“假名化”、“去身份化”或“元數據”等術語的不同理解有時會影響討論。出於這個原因,小組開發並同意了一個術語表(在線補充附錄2),以供討論時使用,希望可作為一般參考資料。
有爭議的問題
共識並不總是意味著一致。該小組相對容易地就一般性原則達成了共識,而正如所料,一些詳細的建議引起了更多的討論。不過,隻有少數幾個工作隊成員持有明顯不同的立場。
一個問題是是否需要將數據共享的同意與參與試驗的同意區分開來。人們認識到,法律通常需要單獨的同意,特別是在歐洲,但將數據共享作為臨床試驗過程中不可分割的一部分的概念,促使小組中相當多的少數成員提出了一種單一的同意機製:參與試驗而且共享匿名的個人數據。這一立場背後的理由是,數據共享和重用的最終目的是幫助改善所有人的健康,如果包括所有試驗參與者,數據共享的效用就會增加。爭論的核心是,人們對個人自主權、隱私和安全的重視程度不同,對提高數據共享的便利性和有效性給社會帶來的潛在收益的重視程度不同。然而,工作組中的大多數人認為,完全同意是這是必要的,而且無論如何,在目前的立法框架內很難實施單一的同意程序,至少對於假名數據是這樣(見建議12和14)。然而,這一問題顯然引起了大量熱烈的辯論,值得醫學倫理和法律專家、研究人員、試驗參與者和公民進行更詳細的研究和討論。
一個相關的問題是,一般來說,共享的數據應該是匿名的還是匿名的。正如建議16所解釋的那樣,工作隊傾向於前者,盡管在沒有獲得分享數據的明確同意的情況下,數據的匿名化是必要的(見建議20)。有人認為,共享匿名數據應該成為規範,因為這可能會使數據共享更切實可行和更快建立起來。在數據共享的最初幾年,可能需要更多地使用匿名數據,直到明確同意重用變得更加普遍為止。問題是,這是否會影響數據的科學效用,主要是在後續工作的潛力方麵(去識別的程度對於匿名和假名數據應該是相同的)。這需要進一步的實證研究。
我們的研究結果
近年來,其他幾個組織和項目製定了IPD分享的原則和建議,總結於表1.
因此,我們協商一致工作的成果符合先前在特定國家或地理背景下提出的倡議,或專門針對特定利益攸關方的倡議。我們認為,通過提供對IPD共享和重用問題的泛歐洲視角,以及通過觀察數據共享“生命周期”的所有方麵,當前文件是對該領域之前工作的有益補充,補充了以美國、英國或北歐國家為中心的報告。
雖然闡述基本原則和一般性建議很重要,但我們在本文檔中試圖超越那些似乎可以做到的事情,並提出更具體、更實用的建議——例如關於同意結構、為重用適當準備數據所需的方法或數據使用協議的內容。我們還確定了需要進行更多探索和準備工作的領域,例如為保存臨床研究數據的數據倉庫製定質量標準,或者需要建立元數據係統和基礎設施來支持對象發現。未來討論的一個優先問題必須是如何確保長期的可持續發展和對IPD共享基礎設施的財政支持,因為在現階段還不可能確定一個明確的答案或模式。
我們試圖確保研究人員的視角和關注,無論是作為試驗者還是作為輔助數據用戶生成數據,都已納入建議。因此,我們強調需要發展適當的支助係統,以便規劃數據共享和準備數據,以及以尊重生成器和次級用戶關切的方式尋找和訪問數據。
存儲庫的未來角色
未來的幾個問題與數據存儲庫有關。這些已經被認為是允許在其他科學領域共享數據的有用工具,我們敦促它們進一步開發(見原則9),但到目前為止,它們很少用於臨床試驗數據。在這個項目的背景下執行的環境掃描顯示,已經有幾個可用的存儲庫(如B2SHARE, EASY, Zenodo, Dryad, Figshare),其中至少包括一些臨床試驗數據集,還有幾個正在開發中(如MRCT的Vivli)。然而,現有存儲庫的起源、範圍、策略和功能是非常不同的,而且它們的業務模型如何保證其長期可持續性,或者什麼將成為最合適的組織模型,這並不總是清楚的。
例如,研究團體應該致力於更少、更大的對所有類型的臨床試驗數據開放的存儲庫,還是由更少的專業數據存儲庫(也許由生成數據的研究團體管理)更好地服務?如果存儲庫的多樣性是不可避免的,因為越來越多的個人機構(也許是國家)建立了自己的數據存儲庫,那麼我們如何使它們之間的程序和流程更加一致,以及聯合內容(至少在元數據級別)使試圖發現內容的人更容易(和更便宜)?
門戶支持識別存儲在存儲庫中的試驗數據,並提供關於訪問該數據的信息,這將使這些信息更容易發現,並可能增加數據的重用。現有的描述存儲庫的方法(如re3data)應該探索其在臨床研究領域的適用性,並可能進行調整或擴展。最後,應該如何評估存儲庫(無論其大小)是否符合良好實踐標準,如何為評估過程提供財政支持,以及如何將評估結果傳回給數據生成器和用戶?
實證研究的需要
到目前為止,關於數據共享的實證研究數量相對較少。可獲得的數據數量有限,涉及數據共享的個別方麵(例如,關於態度和經驗的調查,81 82關於數據請求和共享數據的統計,83 84以及數據準備成本的研究85).鑒於我們的文件(以及類似報告)中的原則和建議在很大程度上是基於共識的,進一步收集證據應該是優先事項。需要調查或持續監測的主題包括:
知識產權發展和文件共享的級別,包括何時、如何和為什麼提供數據供共享,以及計劃的和實際的數據共享活動之間的差異。
未來IPD和文件查閱要求的級別,以及這些要求的原因。
準備共享數據所涉及的成本和時間,以及減少這些成本和時間的方法。
不同利益攸關方(研究人員、資助者、患者、出版商、公眾和其他人)對IPD共享和重用的態度,包括一些人沒有及時提供數據的原因。
任何信息濫用或不正確的二次分析的發生率和性質,尤其是因為這是不願共享數據的一個原因。
IPD再利用所產生的研究成果的類型和質量,以突出數據共享的價值。
從成本、可訪問性、使用、用戶反饋等方麵比較不同的訪問機製(例如,開放、免費平台vs受控訪問)。
比較不同數據類型的效用,特別是匿名和假名數據。
不同存儲庫係統的比較,包括成本、數據內容和標準遵從性。
這項工作的大部分將通過傳統的資助和發表的研究,研究IPD重用的特定方麵。有些可能會研究特定共享倡議的影響,例如,2016年SPRINT數據分析挑戰由新英格蘭醫學雜誌.86 87但在某些情況下(例如,監視重用產生的輸出,或整理有關可用存儲庫和它們提供的服務的數據),構建持續的監視和報告機製會更有用。這方麵的一些工作已經在進行中,例如IMPACT(改善臨床試驗數據獲取)觀測站,88但是,需要發展籌資機製,以便隨著數據共享的增長,它可以得到擴展。
向患者群體及其代表提供這些經驗數據也至關重要,這樣他們就可以繼續充分參與未來關於數據共享的辯論,並繼續就數據重用提出自己的觀點。89
對標準和全球視角的需要
當前文件中反複出現的主題之一是需要標準和標準化的過程:例如,數據和元數據、存儲庫、去識別數據的方法、處理請求應用程序和數據使用協議。標準的使用被認為是降低成本和增加對所使用係統和數據的信心的關鍵,因此,重要的是,非商業研究人員必須參與所有類型標準的持續發展。同樣重要的是,標準和標準過程要盡可能地全球化。
從本質上講,數據共享就像科學一樣,是一項具有全球範圍的活動。因此,全球視角是製定高效和有效的標準、流程和係統的最佳途徑。我們認識到,這說起來容易,但執行起來往往非常困難,特別是因為在全球範圍內提供的資金在聯合國機構以外非常少。然而,另一種選擇,即製定國家或區域解決辦法,然後試圖將它們聯合起來,從長遠來看可能會導致更多的困難和成本。
我們認為,本報告概述的10項原則適用於全球,但我們也承認,如果不加以調整,其中一些建議可能並不完全適用於其他情況(或國家)。這些建議主要是基於非商業的歐洲視角,重點關注臨床試驗。重要的是要嚐試和進一步探討歐洲以外國家的規章或研究製度的差異如何影響這些建議的適用性。
例如,在美國,最近的指南表明,從臨床試驗中共享去識別的IPD不需要獲得試驗參與者的單獨同意,假設術語“去識別的數據”是指在第三方手中不構成可識別的私人信息的數據。在某些情況下,這一裁決也適用於使用代碼發布的數據(即假名數據)。90這與歐洲的立場相反。
另一個困難是,許多地方的立法和監管環境正在迅速變化。歐洲就是這樣,頒布了新的《一般數據保護和臨床試驗條例》,日本也(例如)於2017年3月和4月製定了《個人信息保護法》、《臨床研究法》和《下一代醫療基地法》。這些行為描述了如何處理數據共享的IPD,以及如何處理知情同意法規(K Takenouchi和D Nakatani,個人溝通,2017年)。我們必須建立機製來監測和解釋不斷變化的立法和監管框架,並圍繞這些框架設計適當的製度。
我們相信,國際工作組已經為臨床試驗中的數據共享構建了一個全麵的政策和程序框架。下一步將是傳播該框架下的原則和建議,讓不同社區和國家參與進來,在區域和全球層麵與該領域的其他主要舉措保持聯係,並討論如何為我們所需的數據共享基礎設施的各個組成部分提供資金和實施。
補充文件1
致謝
核心團隊感謝Cochrane IPD Meta-analysis Methods Groups為我們提供了關於共識文件的有用見解和反饋。
參考文獻
- 1.↵
- 2.↵
- 3.↵
- 4.↵
- 5.↵
- 6.↵
- 7.↵
- 8.↵
- 9.↵
- 10.↵
- 11.↵
- 12.↵
- 13.↵
- 14.↵
- 15.↵
- 16.↵
- 17.↵
- 18.↵
- 19.↵
- 20.↵
- 21.↵
- 22.↵
- 23.↵
- 24.↵
- 25.↵
- 26.↵
- 27.↵
- 28.↵
- 29.↵
- 30.↵
- 31.↵
- 32.↵
- 33.↵
- 34.↵
- 35.↵
- 36.↵
- 37.↵
- 38.↵
- 39.↵
- 40.↵
- 41.↵
- 42.↵
- 43.↵
- 44.↵
- 45.↵
- 46.↵
- 47.↵
- 48.↵
- 49.↵
- 50.↵
- 51.↵
- 52.↵
- 53.↵
- 54.↵
- 55.↵
- 56.↵
- 57.↵
- 58.↵
- 59.↵
- 60.↵
- 61.↵
- 62.↵
- 63.↵
- 64.↵
- 65.↵
- 66.↵
- 67.↵
- 68.↵
- 69.↵
- 70.↵
- 71.↵
- 72.↵
- 73.↵
- 74.↵
- 75.↵
- 76.↵
- 77.↵
- 78.↵
- 79.↵
- 80.↵
- 81.↵
- 82.↵
- 83.↵
- 84.↵
- 85.↵
- 86.↵
- 87.↵
- 88.↵
- 89.↵
- 90.↵
- 91.
腳注
貢獻者CO、RB、SC、SeB、MM為核心組成員。核心小組的職責是建立多方利益相關方特別工作組,起草這份報告的中間版本,組織和管理協商一致講習班,協調子小組,並發布報告和文件的最終版本。HS作為協商一致過程的獨立推動者,與CO一起主持麵對麵的會議,並負責論文的方法部分。CA、LB、BB、SaB、LC、MD、CD、HF、MF、JG、DG、CG、TG、PH、GK、DK、RLK、KK-J、CK、WK、RK、AL、PSM、AN、JO、PR、IS、DaS、HS、DyS、CT-S、PvR、E-BvV、GRV、JW是多利益相關者工作組的成員,參加了至少一次協商一致會議,在協商一致過程中對起草稿進行書麵反饋,並批準了最終稿。JD-M參加了所有的共識會議,負責將工作與H2020-CORBEL項目進行協調,並批準了最終手稿。
資金該項目已獲得歐盟“地平線2020”研究和創新計劃(CORBEL,資助協議編號654248)的資助。
免責聲明MD在這篇文章中表達的觀點是作者的個人觀點,不能被理解或引用為代表或反映歐洲藥品管理局或其委員會或工作組的立場。
相互競爭的利益TG主編beplay体育官方手机版該雜誌發表了這篇文章。在論文評估過程中,她回避了同行評議和決策過程。BB報告各種不受限製的禮物(見)支持旅行和努力;勞拉和約翰·阿諾德基金會和格林沃爾基金會在研究期間的資助;以及來自Vivli的非經濟支持,在提交的作品之外。RK報告說,在提交的工作開發期間,她是CDISC的創始人和總裁。在達成共識的過程中,BioMed Central使用DaS。
來源和同行評審不是委托;外部同行評議。
數據共享聲明沒有可共享的進一步數據。