條文本

原始研究
生物標誌物發現患者分層研究使用機器學習的組學數據的分析:一個範圍
  1. 恩裏科Glaab1,
  2. 阿明羅森伯格1,
  3. 麗塔Banzi2,
  4. 於傑拉爾迪拉2,
  5. 葆拉·加西亞3,
  6. 雅克降級3
  7. 允許組
  1. 1盧森堡係統生物醫學中心,盧森堡大學,Esch-sur-Alzette、盧森堡
  2. 2健康中心的監管政策,史di Ricerche Farmacologiche馬裏奧·內格裏IRCCS,米蘭、意大利
  3. 3歐洲臨床研究基礎設施網絡,ECRIN,巴黎、法國
  1. 對應到恩裏科博士Glaab;enrico.glaab在{}uni.lu

文摘

客觀的生物標誌物發現研究使用病人組學數據分層導致臨床驗證fda測試或實驗室測試,以確定共同的特點和獲得對未來的生物標誌物項目的建議。

設計確定審核範圍。

方法我們搜索PubMed、EMBASE和網絡科學獲得一個全麵的文章列表從2000年1月至2021年7月發表的生物醫學文獻,描述患者分層生物標誌物臨床驗證簽名,通過統計學習的方法。所有文檔篩選僅保留同行評議的研究文章、評論文章或觀點文章,包括監督和非監督機器學習應用omics-based患者分層。兩個評論家獨立消息來源的證實資格。分歧解決了共識。我們最終的分析集中在omics-based生物標記,實現最高水平的驗證,也就是說,臨床開發的分子簽名批準,作為實驗室測試或開發FDA批準測試。

結果總的來說,352篇文章滿足合格標準。分析驗證生物標誌物特征識別多個常見方法和實用的功能,可以解釋成功的測試開發和指導未來的生物標誌物項目。這些包括研究設計的選擇,以確保足夠的統計能力模型構建和外部測試,適合非目標和有針對性的組合測量技術,集成生物知識之前,嚴格篩選和包含/排除標準,統計和機器學習方法的充分性,發現和驗證。

結論雖然大多數臨床驗證生物標誌物模型來源於組學數據為腫瘤個性化開發,首次應用非癌疾病顯示多元組學的潛在生物標誌物設計為其他複雜的疾病。等獨特的特點,成功的故事之前,早期的過濾和健壯的發現方法,不斷改進實驗設計和實驗測量技術,和嚴格的multicohort驗證方法,使推導未來的研究的具體建議。

  • 生物標記物
  • 範圍審查
  • 組學
  • 機器學習
  • 分層

數據可用性聲明

研究協議Zenodo發表在在線平台。19搜索和數據提取表的副本將公開了Zenodo作為數據庫收集所有範圍的一部分評論進行許可證的項目。

http://creativecommons.org/licenses/by-nc/4.0/

這是一個開放的分布式條依照創作共用署名非商業性(4.0 CC通過數控)許可證,允許別人分發,混音,適應,建立這個工作非商業化,和許可他們的衍生產品在不同的協議,提供了最初的工作是正確地引用,給出合適的信用,任何更改表示,非商業使用。看到的:http://creativecommons.org/licenses/by-nc/4.0/

來自Altmetric.com的統計

請求的權限

如果你想重用任何或所有本文的請使用下麵的鏈接,這將帶你到版權稅計算中心的RightsLink服務。你將能夠獲得快速的價格和即時允許重用內容在許多不同的方式。

本研究的優點和局限性

  • 這個範圍審查概述了生物標誌物的發現研究使用機器學習的組學數據的分析導致了臨床診斷和預後工具進行驗證。

  • 審查討論了共享的特點,成功的生物標誌物的研究作為研究設計的指導,發現和驗證方法選擇未來的項目。

  • 數據提取和分析方法重點推導建議優化設計的前瞻性研究和改進分析工作流進行回顧性研究。

  • 審查申請最低合格標準樣本和統計驗證,但沒有評估納入研究的質量。

介紹

個人化藥物在醫療研究和實踐是一個快速發展的領域,旨在提供更有效和更安全的治療為病人量身定做個體化治療,利用科目的分子,臨床和環境數據來源(箱1)。

箱1

個人化藥物是什麼?

根據歐洲理事會結論個人化藥物的患者,個性化醫學的醫療模式使用描述個體的表型和基因型(如分子分析、醫學成像、生活方式數據)為調整正確的治療策略,正確的人在正確的時間,和/或確定疾病的易感性和/或交付及時、有針對性的預防。116年

許可證的項目,我們應用以下常見的個性化醫學研究的操作性定義:一組綜合方法(方法、統計、驗證技術)應用在不同階段發展的個性化的治療方法,診斷,預後和風險預測。理想情況下,強大的和可再生的方法應該覆蓋所有的步驟生成之間的假設(例如,給定地層可以更好地應對治療的患者),驗證和臨床發展,和它的價值的定義在臨床設置。19

集中工具在個人化藥物,本研究的重點是機器學習(ML)分析組學分析數據獲得的分子生物標誌物特征對疾病或藥物患者分層。1ML-based組學生物學發展的主要目標是開發更可靠和健壯的測試藥物響應預測,未來的早期診斷、鑒別診斷或預後臨床疾病。2Omics-derived生物標誌物特征可能有助於指導治療決策,和治療關注正確的人口以防止過度治療,提高成功率,降低成本。3作為研究和信息工具,他們可以使一個更好的監測疾病進展和治療成功,和指導新藥開發和發現。4與經典的單分子生物標記方法相比,組學簽名有潛力提供更敏感,特定的變異和健壯的預測結果。5

然而,盡管生物標誌物發現項目利用組學數據已經成功開發了臨床診斷和預後測試驗證,6 - 15許多生物標誌物研究在早期發展階段或失敗後停止在以後的臨床驗證階段。專門的統計和ML的組學方法生物標誌物的發現和驗證已經出版,以及對研究設計的建議,實施和報告。16日17的特色和方法描述之前成功將組學研究成果轉化為臨床驗證測試,然而,沒有詳細調查。為了指導未來的項目選擇合適的方法,需要專門的研究以前轉化成功的關鍵因素ML-based組學生物標誌物的發展。

作為歐盟項目的一部分“個人化藥物試驗”(許可證18),資助H2020框架內,我們因此調查當前個性化醫學方法論的實踐,涵蓋毫升omics-based患者分層方法作為重點區域。而建立了一個更廣泛的一係列問題和整體範圍回顧檢查,19對於這個手稿,我們發現我們的分析集中在生物標誌物研究導致成功,臨床驗證fda (LDTs)測試或實驗室測試,以確定他們的共同和獨特的特征與研究沒有臨床翻譯。特別是,我們旨在解決以下具體的研究問題:

  • 這omics-derived生物標誌物發現患者分層研究導致臨床驗證測試(LDTs或fda不測試)?

  • 共享成功的組學的關鍵特征是什麼生物標誌物研究和區分他們從先前發表的生物標誌物研究尚未導致臨床驗證測試?

  • 哪些類型的模型建立和驗證方法已經用於開發生物標誌物臨床驗證簽名,經驗教訓和推薦工作流程是什麼?

  • 提出了的建議和指導方針來應對共同挑戰生物標記發展利用組學數據?

這些問題有助於範圍審查,因為omics-derived生物標誌物的發展仍然是一個不斷發展的領域,並初步評估潛在的可用的生物醫學文獻的範圍和大小這些主題作為第一步需要進一步隨訪研究。因此,本研究的目的是解決上述問題的文獻檢索和分析當前生物標誌物的發現和驗證研究利用組學數據和ML的方法。而關注文章描述發現和驗證方法涵蓋臨床翻譯相關方麵,我們指出,其他的平移和監管方麵,如評估biomarker-associated臨床療效的治療決策,成本效益的評估和研究倫理,不解決在目前的審查,但一直在討論之前專門的文章。至24我們範圍審查也不旨在提供一個量化指標評價不同毫升的方法,但相關研究曾提出監督毫升,25無監督聚類26和生存的預測27在多個組學數據類型。

方法

我們進行了一項範圍審查後提出的方法論框架喬安娜·布裏格斯學院。28這個框架由六個階段組成:(1)確定研究問題,(2)識別的相關研究,(3)選擇研究,(4)圖表數據,(5)整理、總結和報告結果,(6)谘詢。

範圍評估方法被認為是最合適的應對廣泛的範圍和領域的自然進化。與係統評價旨在回答特定的問題,範圍審查證據的概述與主題和新興趨勢是有用的檢查,明確關鍵概念和識別差距。29 30在進行審查之前,協議在網絡平台上發表一項研究Zenodo。19由於範圍的迭代性質評論,偏離預計協議和正式報告時發生。我們使用首選項報告係統評價和薈萃分析擴展範圍審查清單報告我們的結果31日(在線補充文件1)。

研究鑒定

可行性研究和有關文件,平衡搜索的廣度和全麵性。我們搜索PubMed、EMBASE和網絡科學(最後搜索日期:2021年7月27日)文章描述監督或無監督ML生物標誌物發現或個性化醫學分析,包括發現和驗證方法。搜索的相關性方法確保了通過使用一個嚴格的多級過濾,隻考慮文章包括至少一個從四類關鍵字的相關搜索詞/類別(“個性化醫學/生物標誌物”,“組學”,“機器學習”和“驗證”,覆蓋這兩個條款和同義詞密切相關的關鍵詞,看圖1,說明關鍵字搜索策略,在線補充文件2詳細的搜索查詢),隨後預濾器檢索到的文章手動排除研究不涉及omics-based生物標誌物研究或缺乏毫升的描述和驗證分析(見部分合格標準和研究選擇)。隻覆蓋相關的科學內容,範圍僅限於期刊出版物和會議摘要從國際會議和研討會,並沒有包括其他灰色文獻。我們限製包含從2000年1月至2021年7月公布的報告(包括在線第一的文章與官方在未來出版日期)在英語、法語、西班牙語、意大利語和德語語言。由於我們所知,第一臨床驗證fda omics-derived生物標誌物簽名於2002年出版,32隻有一些初步探索研究將大大早於2002年,發生了我們,因此,沒有搜索範圍進一步向後時間比2000年1月。

圖1

基於關鍵字的搜索範圍戰略審查。四類關鍵字的定義,從生物醫學文獻檢索相關文章機器學習個性化醫學組學數據的分析,其中包括驗證研究中心(突出顯示的彩色框)。確定每個類別相關的關鍵詞,包括受控詞彙表術語從醫學主題詞(網)同義詞典由美國國立醫學圖書館(上部和下部框與幀彩色根據對應的類別)。顯示的關鍵字”和“中心,連接詞搜索,也就是說,每一個檢索文章必須包含至少一個從每個類別關鍵字。這種策略被用於搜索其他數據庫。

合格標準

我們包含了同行評議方法文章、評論文章、觀點文章在監督和非監督毫升組學疾病預測和分層和相關統計方法交叉驗證(CV)和multicohort驗證方法(解決精度、魯棒性和臨床意義)。綜述了隻在現實世界的生物醫學方法測試組學數據,同時研究純粹依靠模擬數據被排除在外。我們也排除論文沒有證明生物醫學應用生物標誌物的方法,和樣本量不足(即刪除研究覆蓋不到50每組樣本研究的主要條件,除非提出了一種專用功率計算)或統計驗證(例如,缺乏明確的簡曆或外部測試方法的描述,性能指標和測試統計數據)。這些排除標準沒有規定通用評估協議,但他們同意在作者前篩選過程。

覆蓋數據從原始研究論文和係統評價之前,我們從三個主要提取信息文章類型:(1)應用研究論文,(2)方法論的文章展示了應用程序和方法(3)評論文章,應用程序和驗證方法。

除了這些納入和排除標準,最終結果報告,統計調查涵蓋所有選定的文章,而詳細的研究特點的討論集中在研究導致臨床驗證生物標誌物簽名測試多個軍團大樣本大小(例如,研究使用功率計算證明選擇適當的樣本大小,或覆蓋數百或數以千計的樣品每研究主題組)。

研究選擇

我們出口的引用Rayyan從搜索到在線檢索工具。33重複使用引用管理器自動刪除尾注V。X9(美國費城Clarivate分析)和手動的評論家。一位評論家檢索記錄加載到在線Rayyan篩查工具,33和兩個評論者獨立確認資格覆蓋所有記錄篩查和文章的全文回顧預選的篩選。分歧解決了共識。

圖表的數據和合成的結果

我們設計了一個使用Excel數據提取形式(在線補充文件3)。一般研究特征提取了作者名稱、標題、引用,類型的出版物(如期刊論文、會議摘要),研究人口和樣本大小(如果適用)、方法論、研究設計和結果的措施(如適用)。特定項目相關的主題範圍審查包括研究類型(例如,病例對照研究,鑒別診斷研究中,預後研究中,評審方法,審核申請,review-validation);文章類型(雜誌或會議文章),通用毫升域(例如,監督/無監督);的名字和具體方法的結果預測和驗證。此外,捕捉重要發現相關的審查問題,從每個審閱文章提取相關的句子,如果需要,輔以簡要說明的話,寫出縮寫用於原始文本。

評審人員駕駛數據提取表單使用五個記錄檢索到的文章收集。兩個評論家(如AR)獨立工作包括文章的數據提取出來。在分歧的情況下,得到的共識討論。

最後全文回顧階段,預選的文章被主題分組,並將文章分類應用和方法論的研究,監督與非監督分析和算法類型標識符分配給每一篇文章(評論文章和論文驗證方法被認為是作為單獨的類別沒有特定的算法類型賦值)。文章的全文審查和分類成不同的出版類型是通過獨立的手動檢查兩個審稿人。

而信息樣本大小和驗證方法是記錄的數據提取(在線補充文件4電子表格版本已經可用Zenodo在線平台34),它不是這個範圍的職權範圍內審查評估個人研究的方法學質量包括在分析中。

諮詢

允許財團的成員、相關合作夥伴和許可證項目科學顧問委員會討論範圍評估的初步結果在2小時在線研討會。

病人和公眾參與

歐洲病人的論壇是允許項目的成員。雖然沒有直接參與的傳導範圍審查,他們收到審查協議草案收集意見和反饋。

結果

研究報告的選擇和一般特征

我們從文獻檢索1563摘要搜索。刪除重複後,我們篩選了1475年餘下時間的抽象的資格。共有619條記錄被排除在外,而856摘要全文評估保留。最後,我們包括352篇文章,通過數據提取和分析所有過濾標準(見流程圖圖2在線補充文件4為每個選定的文章,提供參考,以及這項研究的信息類型和方法,結果措施,驗證類型,和代表句子從每一篇文章的主要研究結果和主要結論;這個表的表格版本已經可用Zenodo在線平台34)。

圖2

研究選擇流程圖。流程圖的過程範圍評論文章識別、篩選、資格評估和最終包容,根據棱鏡(首選項報告係統評價和薈萃分析)計劃。31日原因包括全文並不互相排斥。

全文文章審查顯示,許多研究不符合預定義的入選標準:371篇(43%),因為樣本量不足,和105年進一步文章(12%)被排除在外,因為他們提供了足夠的細節(見驗證結果或方法圖2)。這表明招募足夠的挑戰每個研究小組的參與者數量或進行足夠的組學分析實驗健壯的模型構建和驗證不符合大部分的組學生物標誌物的研究。此外,許多研究缺乏足夠的研究設計和驗證文檔。

所選文章的封麵在組學主要研究生物標誌物的研究中,絕大多數(78%)完全依賴內部驗證涉及的數據隻有一個隊列,而研究使用外部驗證一個獨立隊列仍然未被充分代表的(隻有12%的文章描述了一個內部的簡曆和外部群組驗證,和一個額外的10%包括外部驗證,但不報告內部簡曆結果)。然而,當比較的數量在不同時期發表的研究在過去的20年裏,研究包括外部驗證的相對比例增加了近年來(見圖3),這表明越來越多的人意識到獨立的重要性,multicohort驗證。

圖3

驗證方法在組學生物標誌物的研究。堆積條形圖範圍檢索的文章數量的評估為不同類別的潛在生物標記中使用的驗證方法的研究(包括時期從2000年到2021年)。大多數的研究隻使用內部群組驗證方法,如簡曆、培訓/測試集分割驗證、重采樣/ bootstrapping-based驗證、out-of-bag驗證(樹型分類器),簡曆和組合和測試集驗證在同一隊列。與外部驗證一個獨立的病人隊列研究(有或沒有額外的內部簡曆)仍未被充分代表的,即使是在最近的時間。所有過濾全文文章來源於範圍評估除了評論文章都包括在分析中。

接下來,我們調查了國家原產地為選定的文章,顯示美國貢獻驗證生物標誌物研究的最大比例(28%),其次是中國(18%)、加拿大(5%)、德國(4%)和英國和印度(3%;另請參閱圖4,提供地圖可視化的統計數據)。這些國家表示顯示相關性與人口規模有限,可能在很大程度上反映了全球變化相對生物醫學研究生產力了先前的研究。35以來最高產的國家在分子診斷學的發展已經建立了政策法規omics-based和ML-based體外診斷和醫療設備(例如,看到基於人工智能的生命周期管理和ML-based軟件設備在美國36),他們也可以為國家仍然提供榜樣的過程中建立類似的監管框架。

圖4

地圖表示的國家統計數據為選定的文章。文章的數量來自不同國家的研究在全文中選擇審查呈現在世界地圖表示使用顏色梯度從藍色(1條)紅色(98篇文章=貢獻最大的一個國家;利用對數顏色梯度範圍內突出的分歧值範圍)。

當檢查的代表性研究設計類型過濾文章收集,絕大多數的文檔描述診斷研究(67%)、預後和生存預測研究是覆蓋著8%的文章,和研究治療或藥物反應(見7%圖5)。除此之外,13%的文章評論方法和應用領域,和5%的文章描述其他罕見的研究類型(例如,tissue-of-origin預測研究或不同的學習類型的組合)。

圖5

表征的研究類型中所選的文章。文章描述病例對照研究,治療的比例/藥物響應研究,鑒別診斷研究,預後和生存預測研究,以及回顧研究和其他研究類型表示為餅圖。

自的詳細討論所有過濾文章不是目前的審查範圍內的,在下麵,我們專注於評估代表組學生物標誌物研究的驗證級別最高,即臨床批準開發的分子簽名作為LDT或FDA批準測試(見研究的概述表1美國食品藥品監督管理局網站37)。我們研究這些成功的共享特性研究,研究如何解決常見的不足和缺失其他綜述研究的特點,並總結了經驗教訓。

表1

臨床批準omics-derived診斷或預後測試設計的例子應用於個性化醫學(同義詞相同的測試由“/”符號)

OMICs-based生物標誌物特征發展的成功故事

癌症批準omics-derived診斷測試(9個研究)

第一個同時也是最著名的omics-derived分子測試獲得FDA的批準MammaPrint,預後簽名使用70個基因的RNA表達活動估計的風險遙遠的早期乳腺癌患者的腫瘤轉移和複發。6 32 38-41這個測試是在荷蘭癌症研究所開發的,使用DNA微陣列分析調查117例乳腺腫瘤。監督ML被應用到生成的數據,以確定一個高度預測基因簽名短間隔遠處轉移的淋巴結陰性患者。32

這背後的開發方法的一個獨特的特性簽名相比其他綜述研究中使用的多級過濾和簡曆戰略最初的發現研究中,這可以解釋反複確認後簽名的驗證研究。6 38-41從25 k基因在DNA微陣列,隻有那些顯著監管超過3 78個零星的淋巴結陰性患者中腫瘤預選,並進一步過濾,隻保留最小絕對與疾病相關的基因結果0.3。231個基因的結果列表,rank-ordered絕對的相關性,研究了通過按順序添加下一個前五名基因從列表中候選人毫升分類器通過分析簡曆和評價其性能。這個過程被重複隻要分類器的估計精度提高,提供70個基因的最終候選人簽名。最後的簽名驗證在多個獨立的測試集,包括一組19外部樣本在最初的研究中,和幾個額外驗證獨立軍團在後續研究。6 38-41

MammaPrint簽名的後續發展提供了榜樣結腸癌預後測試類似,ColoPrint42-47這個測試的目的是檢測大約。20%的II期結腸癌患者將經曆複發和遠處轉移。它使用一個18-gene表達式簽名,由分析DNA微陣列數據以類似的方式MammaPrint的方法。診斷方法已經商業化作為LDT協助醫生對結腸癌病人選擇治療方案。類似於MammaPrint,簽名發展的特點是廣泛的發現和驗證研究,涉及多個統計重現性、穩定性和精度分析獨立,大規模的患者群。48

另一個廣泛使用的癌症相關的LDT,收到間隙由美國食品和藥物管理局(FDA)在2013年,是Prosigna乳腺癌預後的基因簽名鑒定,以前叫PAM50測試。調查這個試驗評估58基因的mRNA表達的簽名(50目標基因+ 8內生控製基因)來預測之間遙遠的激素受體陽性乳腺癌的複發的風險診斷後5到10年(先決條件是患者已經接受激素治療和手術,和I期或II期淋巴結陰性,或者在II期有1至3個積極的節點)。測試開發始於一個微陣列發現研究和涉及多級過濾,使用連續的應用統計檢驗和簡曆提出候選基因標記的一個子集。54作者比較了再現性分類這些標記三centroid-based預測方法得到的分數,以確保方法的魯棒性。通過進一步發展成一個更敏感的方法pcr測試,後來到一個化驗使用NanoString nCounter Dx分析係統逐步的方式,提高了預測性能。最初的發現研究的特點是顯著增大樣本量比大多數的回顧了生物標誌物的研究中,189個樣本的訓練集,測試組761例患者評估預後和133例病理完全緩解的預測評估與紫杉烷和蒽環黴素治療。這些研究設計特性結合多級過濾和驗證方法,和改進測量技術在研究過程中,可以解釋的成功進展PAM50測試FDA批準。測試的隻有三個基因共同之處MammaPrint方法(KNTC2,MELK,ORC6L),這也可能被解釋成不同的技術和分析方法,但之前的比較評估得出的結論是,測試為女性提供大致相當於風險信息與雌激素受體(ER)陽性乳腺癌。55

在LDTs乳腺癌預後,Oncotype DX進一步測試常用的在臨床實踐中。8 56-59潛在的基因簽名由16個癌症相關的基因和五個參考基因,因此通常也稱為“已”。它的主要應用是預測在雌激素受體陽性腫瘤複發的風險。這種治療預後的工具選擇的相關性可能解釋為複發評分提供了強有力的協會的積極治療化療反應的概率。60Oncotype DX是使用連續細化過程開發的,從逆轉錄-聚合酶鏈反應(rt - pcr), 250年評估候選基因在447名患者從三個不同的研究來識別多個過濾步驟後的已簽名。複發評分算法使用簽名作為輸入在668個獨立的患者臨床驗證。61年16個癌症相關基因的選擇包括在分析涉及得分在所有三個候選人的性能特性研究和底漆/探針性能的一致性分析。62年因此,開發過程的特定優勢本LDT包括考慮技術的魯棒性和統計分析的魯棒性不同的軍團。的Oncotype DX簽名的股票一個基因MammaPrint(SCUBE2),9個基因與Prosigna PAM50測試(BIRC5、CCNB1 MYBL2, MMP11、GRB7 ESR1, prg, BCL BAG1)。然而,一個獨立的臨床驗證Oncotype DX和PAM50簽名估計遠處複發的可能性在雌激素受體陽性,淋巴結陰性,患者絕經後乳腺癌內分泌治療建議PAM50簽名提供了更多的預後信息Oncotype DX63年

當第一個簽名驗證組學生物標誌物為乳腺癌,開發類似的診斷和預後的工具對其他癌症類型。其中之一是破譯前列腺癌測試,64 - 68年9不同於其他omics-derived診斷工具一起被提供一個軟件平台和數據庫,破譯基因組資源信息數據庫(網格),捕獲140萬表達標記每個病人,促進個性化護理。測試本身使用22預選的rna來預測臨床轉移和癌症特異性死亡率發生了根治性前列腺切除術的病人。最初的發現研究(美國明尼蘇達州羅徹斯特梅奧診所研究一群545個這樣的患者,分成一個培訓(n = 359)和驗證隊列(n = 186)。類似於其他LDTs,發現了一個全基因組分析和統計和ML分析用於過濾。首先,t應用(從1.4 mil.減少到18 902差異表達rna),然後,主旨邏輯回歸(減少43候選標記),最後一個隨機與森林有關的特征選擇(還原最後一組22 rna)。除了測試簽名驗證組,進一步在後續研究中進行外部驗證。64 - 68年9總的來說,獨特的使用方法的優點包括改善了測試結果的可解釋性通過支持在網格平台上分析,發現和驗證方法的魯棒性,涉及大樣本大小和幾個補充統計和ML的評估。

雖然大多數腫瘤的診斷測試為特定的癌症類型,設計一個專用LDT還被應用於癌症的未知或不確定的診斷。癌症類型ID測試bioTheranostics區分50種不同腫瘤類型使用一個92 - rt - pcr基因表達測量簽名。15 69 - 71這個簽名是來自分析微陣列數據采集覆蓋446冷凍腫瘤樣本和112 formalin-fixed,石蠟包埋(FFPE)原發性和轉移性腫瘤的樣本。建模步驟再鄰居聚類和分類,遺傳算法的搜索空間探索可能的特征子集的選擇。簡曆(84%的準確率)和外部驗證成功之後(82%的準確率112獨立FFPE樣本),芯片簽名進一步開發利用rt - pcr測量更加敏感。測試新方法對一組獨立的驗證提供了一個增加精度(87%)。獨特的開發過程的特點,可能是導致積極的驗證包括搜索空間的有效和廣泛的探索可能的基因子集選擇通過遺傳算法,用於發現和驗證的大樣本大小,和轉讓從微陣列分析rt - pcr平台更加敏感。

第一omics-derived生物標誌物簽名隻處理最常見的癌症類型,但是最近應用於腫瘤學關注不常見惡性腫瘤的診斷,如甲狀腺癌。一般來說,判斷一個甲狀腺結節是良性或惡性可能通過細針吸活組織檢查(FNA),不需要更複雜的測量或分析。然而,盡管直接FNA-based診斷是可行的在大多數情況下,不確定的結果會出現。72年為相應的防止不必要的手術病人,分子簽名和LDT稱為Afirma基因表達分類器(GEC)了區別良性甲狀腺結節癌變。72 - 77GEC簽名背後的原始研究發現使用mRNA表達分析315年甲狀腺結節,覆蓋178年回顧手術組織和137年前瞻性收集FNA標本。分別兩毫升分類器訓練外科組織和FNA), 48個獨立評估測試集性能,潛在FNA標本(50%的不確定的細胞病理學)。區別的特點選擇使用一個線性建模方法實現在軟件Limma,和一個線性支持向量機申請通過30倍CV模型構建和性能評估。成功的簡曆結果證實在多個不同的軍團。72 75 - 78雖然最初的研究中使用的內部驗證不能解決cohort-specific偏見,建立了特征選擇和建模方法的結合使用,以及隨後外部驗證跨多個人群大樣本大小可能占這個簽名的成功翻譯。

大多數omics-based診斷測試確認在我們的研究中純粹依賴基因表達分析數據。然而,最近,首先multiomics簽名用於診斷目的開發。第一個LDTs綜合信息從RNA和DNA測序FoundationOne血紅素測定。14日79 - 81本試驗旨在檢測惡性腫瘤血液疾病過程、肉瘤、兒科惡性腫瘤或固體腫瘤(包括其他白血病、骨髓增生異常綜合征、骨髓增殖性腫瘤、淋巴瘤,多發性骨髓瘤,尤因肉瘤、平滑肌肉瘤和兒科腫瘤)。測試確定了四種類型的基因改變(基地替換、插入和刪除,拷貝數變化,重組)和報告微衛星不穩定和腫瘤突變負擔促進臨床決策。這種方法最初開發和評估使用的參考樣品池細胞係為了模型確定測試精度的主要特點,包括突變等位基因頻率、indel長度和複製變化的振幅。79年第一次使用249個獨立驗證FFPE癌症樣本,先前已經是化驗,確認測試的準確性。外部驗證研究獨立軍團證實的效用試驗為進一步診斷應用程序。82年14研究結果強調整合多樣化的潛在生物數據源為了獲得更健壯和可靠的預測,這一策略可能會承諾為複雜的疾病,特別是涉及不同的表型。

常見的基因診斷檢測的分析方法的局限性在於,大多數集中專業實驗室進行分析,這限製了更廣泛的使用,導致長時間等待。為克服此缺點,埃利奧•組織完成試驗,體外診斷測試了2020年由美國食品及藥物管理局評估腫瘤突變體細胞突變和負擔(三甲)固體腫瘤,被開發為一個集成的DNA-to-report使分散的評價方法在所有診斷實驗室與下一代測序(上天)技術。83年的分析性能測試是評估通過比較它與FoundationOne測試(見上圖)使用一致性分析147年腫瘤標本。它提供了一個積極的百分比協議(PPA) 95%以上單核苷酸變異(SNVs)和插入/刪除,和80% - -83% PPA拷貝數變化和基因易位。83年測試最近也被應用於研究應對免疫抑製劑檢查站在轉移性腎細胞癌(艾多酷),使用一個回顧性評價SNVs,三甲,微衛星地位和基因組基因抗原呈遞的地位。84年雖然沒有治療反應之間的相關性和觀察三甲,三分之一的進行性疾病患者ICI治療後顯示主要組織相容性複合體類的雜合性丟失我的基因與疾病控製患者的6%,表明抗原的損失表示可能會限製ICI響應。84年總而言之,艾裏奧組織完整的分析提供了一個示例如何整合門店與生物信息學分析結合DNA-to-report方法可以幫助擴大獲得基因診斷的臨床和研究應用。

安寧批準omics-derived診斷測試(四個研究)

雖然大多數臨床批準omics-derived診斷測試已經開發領域的腫瘤,第一個LDTs收到FDA批準的非癌疾病AlloMap心髒測試。13 85 - 87它使用11個目標基因的基因表達特征和9控製基因在外圍血液從心髒移植受者評估細胞移植物急性排斥的風險。白細胞的發展過程統計分析微陣列分析數據從285年樣本,和隨後的rt - pcr驗證和生物信息學後處理。13先驗知識從數據庫和文獻挖掘被映射的數據包含在分析已知的同種免疫的途徑。這使得研究人員252年來縮小候選標記基因。145年rt - pcr驗證樣品確認68個候選基因,即靜止的傑出拒絕樣本根據樣本t檢驗(p < 0.01)。六個基因消除由於顯著的基因表達的變化與樣品處理時間。接下來,調查人員平均相關基因表達水平創建健壯的元級別的功能,稱為“metagenes”,添加20這些特性的新變量。線性判別分析應用,提供一個預測模型使用四個單個基因和三個metagenes,來自11個原始基因的聚合信息。最後,引導驗證過程和外部進行確認測試集驗證這個簽名的準確性。總的來說,獨特的方麵的開發方法AlloMap簽名包括以知識為基礎的基因發現、全麵rt - pcr驗證候選基因,健壯的引導和外部驗證分析。

第一個臨床驗證LDT心血管症狀源自組學數據Corus冠狀動脈疾病(CAD)測試,識別CAD發展穩定的非糖尿病患者。11 88 - 91相比其他大多數omics-based測試,Corus CAD不是一個純粹的分子簽名測試,但考慮了協變量的臨床性別和年齡。使用的最初的發現研究回顧微陣列分析血液樣本195名糖尿病患者和非糖尿病患者從杜克大學CATHGEN注冊表。後排名研究的基因群體差異和之前的統計顯著性生物疾病相關知識,88個基因被選為rt - pcr驗證。因為糖尿病臨床協變量顯著地位與觀察到的基因表達改變有關,和確定CAD-associated基因之間沒有重疊糖尿病和非糖尿病患者,作者決定後續工作限製在非糖尿病患者。在未來的臨床試驗,微陣列分析是進行血液樣本198名患者,和頂級基因進一步驗證使用rt - pcr對640份血液樣本。多個過濾步驟後,考慮到t的統計學意義,生物相關性基因相關性聚類和程控分析,最後一個簽名的23個基因推導,由20 CAD-associated基因和3參考基因。92年預測性能最大化,最終預測算法優化調整差異與年齡和性別有關。相比其他大多數綜述研究中,脫穎而出的Corus CAD方法考慮臨床共在最後的預測模型,包括一個中間關鍵審查和調整的入選標準(限製焦點非糖尿病的病人),和整合互補的過濾和驗證分析大樣本大小。

炎性疾病,第一omics-derived簽名最近獲得批準用於測量類風濕性關節炎(RA)炎性疾病活動,威達DA multibiomarker測試。93 - 97它使用血清樣本和multispot 96 -免疫測定板來評估12個蛋白生物標誌物的血清濃度與RA的病理學。原威達DA分數,這些測量相結合成一個介於1和綜合得分為100分,評估通過多元回歸和展示了高預測能力評估標準的風濕性關節炎評分,28關節疾病活動評分使用C反應蛋白水平(DAS28-CRP),在這兩個血清反應陽性的(接受者操作特征曲線下麵積(AUC): 0.77, p < 0.001)和血清反應陰性的(AUC: 0.70, p < 0.001)。97年這一點後來調整了年齡、性別和肥胖(基於瘦素濃度),和驗證在兩個群體對DAS28-CRP作為影像學進展預後測試在明年。結果表明,新的調整分是最準確的獨立預測指標的進展,進展的速度增加小於2%的低1至29調整分種類的16%高45 - 100類別。95年總的來說,威達DA方法說明了omics-based生物標誌物的效用簽名在炎性疾病預後的應用程序,並進一步強調的好處將組學特征與臨床協變量的信息。

對神經退行性疾病,臨床診斷和預後omics-derived批準測試仍然缺乏。然而,最近,螺旋基因健康風險應用晚發性阿爾茨海默病(AD)是通過FDA非處方使用。它檢測到臨床相關的變異在人類唾液的個體基因組DNA分離≥18年為了報告和解釋基因健康風險,並評估建立了全基因組的變異顯著關聯的信息廣告。當99人的唾液樣本,測試精度為100% 95%置信區間的較低96.3%。98年整個方法使用外顯子組測序(韋斯)組成的裝置,螺旋實驗室平台,99 - 101為體外診斷方法包括定性測量約20 k基因。螺旋實驗室平台已經收到FDA批準通過一個新的監管途徑建立了FDA批準為韋斯設備(監管21 CFR 866.6000)。由於韋斯的通用適用性分析測定所使用的這個平台,稱為外顯子組+試驗也被應用於發現統計學意義基於基因關聯其他表型的大規模隊列研究99年和確定運營商以人群為基礎的基因篩查的常染色體顯性遺傳疾病。101年因此,螺旋實驗室平台提供了一個新審批途徑的第一個例子omics-based診斷測試,在臨床上通過基因測試設備不了與一個單一的診斷應用程序或一個特定的疾病類型。相反,市場授權獲得診斷測試與設備分開,促進和加速的事先批準組成測量裝置。omics-derived未來發展的生物標誌物特征,這可能讓研究人員專注於展示的臨床效用的新簽名,而分析底層測試設備的有效性已經被建立。

討論

聲明的主要發現

範圍審查文章的共同限製患者分層利用組學數據顯示在許多發表的生物標誌物的研究設計開發項目,如不足和不平衡樣本大小每個學習小組和不充分的驗證方法,但是還發現了多個研究導致診斷和預後測試進行驗證。這些成功故事詳細研究了識別共同特征設計的研究中,發現和驗證方法,這可能支持臨床翻譯的初步結果。圖6概述關鍵共享方麵可能的決定因素的研究成功,將有助於指導今後的生物標誌物的調查。特別是,它們覆蓋以下主要特點:

  1. 樣本容量選擇、學習小組和複製毫升設計提供足夠的統計能力分析。

  2. 健壯的應用統計篩選和評估方案(包括多層統計和ML-based特征選擇,結合統計和生物過濾器,健壯的驗證方案,包括多個簡曆,引導和外部驗證分析,使用多個合適的和補充的性能指標,並提供信息統計性能變異和置信區間估計,明白了圖7推薦的通用步驟的概述健壯的模型構建和評價)。

  3. 清晰的研究範圍和目標(包括明確的納入和排除標準,主要和次要的結果,和決策過程進行必要的調整由於在項目過程中獲得新知識,如調整入選標準Corus CAD研究和發展從一道微陣列技術靈敏度高的rt - pcr Prosigna測試和癌症類型ID測試)。

  4. 完整性和再現性研究的文檔(包括細節使用儀器、參數和設置,可再生的方法描述和信息數據出處)。

  5. 建立預測模型的可解釋性和生物合理性(包括可辯解的和合理的預測,human-interpretable模型描述,和生物合理的模型,同意當前機械的理解學習障礙)。

  6. 前生物知識的集成預測特征選擇,模型構建和驗證過程(例如,使用公共數據變異的分子途徑和網絡;補充臨床和真實的數據和相關multiomics數據)。

圖6

成功omics-based研究的特點。六個主要類別的設計和實現方麵描述成功omics-based生物標記發展研究確定了(從中心開始了圖和繼續順時針):(1)適當的研究設計和樣本選擇;(2)嚴格性和魯棒性的統計評估;(3)清晰的範圍和目標;(4)研究文檔的完整性和再現性;(5)可解釋性和生物創造了預測模型的合理性;(6)集成前的生物知識轉化為模型構建和驗證過程。

圖7

推薦的通用工作流生物標記發展使用機器學習的組學數據的分析。組學數據的機器學習分析生物標誌物的發現和驗證應該涉及到專門的質量控製和預處理分析,使用無監督降維特征選擇(如方差過濾)或數據轉換方法(例如,使用主成分分析),交叉驗證,發現隊列和外部驗證在不同的驗證隊列。

優勢和局限性

大多數的方法論的建議來自研究與早期生物標誌物的發現項目計劃和研究設計,包括考慮與研究小組的選擇有關,抽樣和屏蔽設計,測量技術,輸入和輸出變量。16日17因此,這些建議主要適用於前瞻性研究。回顧生物標誌物的調查已經收集的數據,建議來自審查僅限於指導提高分析工作流程,例如,篩選和評價分析,從multiomics數據先驗知識的集成和公共注釋數據庫,和健壯和解釋的建模方法的選擇對的生成生物可信的和可再生的預測模型。而回顧研究的焦點已經導致驗證生物標記模型,滿足最低要求樣本量和統計模型評估有助於確保所選文章的質量,不需要進行進一步的質量評價。讀者還應該注意通用毫升方法可以影響所有生物標誌物研究的局限性:其中包括代表覆蓋的必要性相關結果的培訓和驗證組,一個足夠全麵和敏感信息的報道預測變量的數據感興趣的結果,這可能不會實現的組學數據組織和體液疾病相關性或有限的測量靈敏度,和足夠的數據質量方麵的係統性偏差和噪音的影響。此外,multiomics生物標誌物分析,除了適當的預處理和ML的方法,適當的策略和方法也需要多樣化的組學數據的集成。這些multiomics數據集成策略並不是目前的審查範圍內,但在之前的出版物了。102 - 104最後,最近的方法論的發展毫升和簡曆組學數據的分析,比如元學習105年和支持的簡曆,106年隻有有限的報道文章中通過了合格標準,因此將需要進一步的專門研究的未來。

討論重要的差異的結果

先前的評論ML患者分層方法利用組學數據都集中在特定領域的分析為特定類型的疾病,或特定類型的ML方法。107 - 115相比之下,這個範圍審查關注disease-agnostic工作流與通用適用性在人類複雜疾病涉及多因子的分子變化。統計和ML的覆蓋方法分層不旨在提供詳細討論的具體算法,統計方法或評分指標,而是在識別關鍵的成功因素一般分析和驗證工作流在生物醫學分層研究。因此,結果描述通用工作流特征組學與臨床生物標誌物研究翻譯區別於其他的研究,和求職disease-agnostic建議未來的研究有關,而方法建議針對特定疾病類型或ML分析類型是覆蓋在特定領域的評論。107 - 115

研究的意義:對臨床醫生和決策者的影響

前麵omics-based生物標誌物的臨床翻譯成功開發了在這項研究中,大多是腫瘤學領域的實現,強調潛在的發展類似的生物標誌物特征進一步疾病跡象。與傳統統計生物標誌物的發現方法,專注於識別單分子標記,係統性的分析,使用多元毫升組學數據的方法可以識別多因子的簽名是健壯的針對單個基因或蛋白質測量噪聲,通過反射疾病有關的細胞和生物的過程更全麵的方式改變。

這個範圍審查確定共同特征的組學研究已導致臨床診斷和預後測試進行驗證。因此,在樣本量選擇推薦實踐結論,生物數據過濾和ML,和足夠的驗證方案的實施可以幫助指導臨床研究人員研究設計的選擇和分析方法的選擇。另外,範圍檢查的結果可以幫助提高認識常見的陷阱,如問題與批處理相關的影響,偏見,混雜因素,缺乏統計力量和多重假設檢驗,從而有助於防止這些生物標記發展的失敗原因。決策者和融資機構,發現翻譯研究與成功的臨床生物標誌物的獨特的特點,例如,有關具體要求健壯的簡曆和外部結果驗證方法,可以提供相關的信息設計的公共和私人資金計劃用於生物醫學研究。資助的研究項目中風險可能解決前期通過適當的指導方針和法規的研究設計和驗證(例如,建議功率計算和特定的驗證和文檔需求)。範圍評估結果可以指導臨床醫生參與生物標誌物發現如何更好地利用可用的公共知識和數據來源,例如,細胞通路和分子間相互作用的數據庫,這可能讓他們有效地利用先驗知識,並創建更健壯和解釋的生物模型。

懸而未決的問題和未來的研究

自的建議和指導方針確定了文章大多來自建立了生物標誌物的發現和驗證方法,新方法和即將到來的趨勢隻能覆蓋在一定程度上,可能會導致改變未來的建議。特別是,在回顧患者分層研究中,最近的一些介紹毫升概念(如轉移學習、距離度量學習semisupervised學習,結構化ML,元學習,多視圖學習和生成模型),數據處理技術(如新的降維方法,離群值去除方法,數據增強技術)和模型驗證方法(例如,引導或支持的簡曆,不確定性量化),研究中還未被充分代表的資格審查,為後續研究提供合適的話題。

整體,而現有文獻驗證分層生物標誌物常見的陷阱已經提供了足夠的信息,並建立實踐,被廣泛接受的標準的指導方針的發展對組學方法生物標誌物發現利益相關者之間需要進一步的知識交流和思考。特別是集成特定領域的專業知識的討論涉及臨床醫生、科學家實驗和數據,需要監管和法律專家作為後續努力獲得全麵的方法論的指導方針為未來生物標誌物的發展。

數據可用性聲明

研究協議Zenodo發表在在線平台。19搜索和數據提取表的副本將公開了Zenodo作為數據庫收集所有範圍的一部分評論進行許可證的項目。

倫理語句

病人同意出版

倫理批準

這個研究是完全基於範圍審查發表的相關文獻,不需要一個倫理批準。

確認

作者感謝Vanna Pistotti援助與搜索策略開發和傳導。

引用

補充材料

腳注

  • 調整通知本文首次出版以來一直糾正它。作者署名部分已經更新。

  • 合作者允許組:1。安東尼奧·l·安德魯2。佛羅倫薩Bietrix 3。Florie布布維耶4。蒙特塞拉特卡羅德裏格斯5。Maria del Mar Polo-de桑托斯6。Maddalena全片7。Rainer Girgenrath 8。亞曆山大Grundmann 9。10約瑟瑪麗亞哈羅德。 Frank Hulstaert 11. Iñaki Imaz-Iglesia 12. Setefilla Luengo Matos 13. Emmet McCormack 14. Albert Sanchez Niubo 15. Emanuela Oldoni 16. Raphael Porcher 17. Vibeke Fosse 18. Luis M. Sánchez-Gómez 19. Lorena San Miguel 20. Cecilia Superchi 21. Teresa Torres 22. Anna Monistrol Mula

  • 貢獻者研究和設計概念:例如,基於“增大化現實”技術。方法:CG和RB。數據收集和分析:如和AR。草稿準備:。審查和編輯:基於“增大化現實”技術,如PG, CG, JD和RB。工程監理:PG。資金收購:JD。負責整個內容作為擔保人:如。所有作者已閱讀及修訂後的手稿和批準了最終版本。允許組的成員參與的準備或修訂的共同協議的四個範圍審查許可證係列,出席了聯合車間(谘詢運動)和合作者許可證係列的其他範圍的評論。

  • 地圖免責聲明包含任何地圖(包括其中任何邊界的描述),或任何地理區位參考,並不意味著任何意見的表達的BMJ關於任何國家的法律地位,領土,管轄區域或部門。任何這樣的表達式仍然是完全相關源和不了BMJ的支持。地圖提供了沒有任何類型的保證,明示或暗示。

  • 相互競爭的利益沒有宣布

  • 出處和同行評議不是委托;外部同行評議。

  • 補充材料此內容已由作者(年代)。尚未審查由BMJ出版集團有限公司(BMJ)和可能沒有被同行評議。任何意見或建議討論僅代表作者(年代)和不了BMJ的支持。和責任起源於BMJ概不負責任何依賴的內容。內容包括任何翻譯材料,BMJ並不保證翻譯的準確性和可靠性(包括但不限於當地法規、臨床指南,術語,藥物名稱和藥物劑量),和不負責任何錯誤或遺漏引起的翻譯和改編或否則。