條文本

群簡介
隊列概況:來自加拿大老齡化縱向研究(CLSA)的26622個人的基因組數據
  1. Vincenzo Forgetta1,
  2. 瑞李2,3.,
  3. 科琳Darmond-Zwaig2,3.,
  4. 亞曆山大Belisle2,3.,
  5. 辛西婭Balion4,
  6. Delnaz Roshandel5,
  7. 克裏斯蒂娜·沃爾夫森6,
  8. Guillaume口中的7,
  9. Guillaume削減4,
  10. 安德魯·D·帕特森5,8,
  11. 勞倫·E·格裏菲斯9,
  12. 克裏斯Verschoor9,
  13. 馬克·萊斯羅普2,3.,
  14. 蘇珊·柯克蘭10,
  15. Parminder蕾娜9,
  16. J布倫特理查茲1,6,11,
  17. Jiannis Ragoussis2,3.,12
  1. 1戴維斯夫人研究所臨床流行病學中心,猶太總醫院,蒙特利爾,質量控製、加拿大
  2. 2麥吉爾人類基因係基因組中心,麥吉爾大學,蒙特利爾,質量控製、加拿大
  3. 3.人類遺傳學係,麥吉爾大學,蒙特利爾,質量控製、加拿大
  4. 4漢密爾頓地區實驗室醫學計劃,麥克馬斯特大學聖約瑟夫醫院聖路加院,漢密爾頓,、加拿大
  5. 5遺傳學與基因組生物學,病童醫院研究所,病童醫院,多倫多,、加拿大
  6. 6醫學、流行病學、生物統計和職業健康學係,麥吉爾大學,蒙特利爾,質量控製、加拿大
  7. 7Montréal心髒研究所和Université de Montréal,蒙特利爾,質量控製、加拿大
  8. 8達拉拉納公共衛生學院,多倫多大學,多倫多,、加拿大
  9. 9衛生研究方法、證據和影響部,麥克馬斯特大學,漢密爾頓,、加拿大
  10. 10老年醫學部社區衛生與流行病學研究室,達爾豪斯大學,哈利法克斯,NS、加拿大
  11. 11雙胞胎研究與遺傳流行病學學係“,,倫敦國王學院,倫敦、英國
  12. 12生物工程學係,麥吉爾大學,蒙特利爾,質量控製、加拿大
  1. 對應到博士Jiannis Ragoussis;ioannis.ragoussis在{}mcgill.ca

摘要

目的加拿大老齡化縱向研究(裏昂證券)綜合隊列的建立為研究遺傳和環境對人類疾病以及老齡化過程的影響提供了獨特的機會。這份報告的目的是描述包含在裏昂證券的基因組數據。

參與者2010年至2015年間,裏昂證券(CLSA)從45-85歲的男性和女性綜合隊列中招募了26622人,對從血液中收集的DNA樣本進行了全基因組基因分型。分別測定了遺傳標記和樣品的綜合質量控製指標。將基因型計算到TOPMed參考麵板中。性染色體異常采用拷貝數譜分析。經典的人白細胞抗原基因單倍型在兩場(四位數)進行歸算。

發現到目前為止在26 622名基因型參與者中,24 655人(92.6%)被鑒定為歐洲血統。這些基因組數據與裏昂證券縱向收集的身體、生活方式、醫療、經濟、環境和心理社會因素有關。包括裏昂證券基因組數據在內的聯合分析,發現了100多個與青光眼關鍵參數相關的新位點。裏昂證券基因組數據集驗證了多基因風險評分對篩選高骨折風險個體的貢獻。它也是直接識別與複雜性狀相關條件相關的常見遺傳變異的寶貴資源。利用裏昂證券收集的全麵訪談和身體信息,該基因組數據集已與社會心理因素聯係起來,以調查對心血管疾病的獨立和交互影響。

未來的計劃裏昂證券的整體研究仍在繼續。後續數據將繼續從當前基因組亞隊列的參與者中收集,包括DNA甲基化和代謝組學數據。目前的研究重點是闡明遺傳因素在認知能力下降和心血管疾病中的作用。該基因組數據資源可通過CLSA數據訪問應用程序請求獲得。

  • 裏昂證券(CLSA)
  • 全基因組基因分型
  • 老化
  • HLA

數據可用性聲明

資料應合理要求提供。數據可從加拿大老齡化縱向研究(裏昂證券)(www.clsa-elcv.ca)中獲得,適合符合訪問裏昂證券識別數據標準的研究人員。

數據可用性聲明

數據來自加拿大老齡化縱向研究(www.clsa-elcv.ca),供符合查閱裏昂證券去身份識別數據標準的研究人員使用。數據可從加拿大老齡化縱向研究(裏昂證券)(www.clsa-elcv.ca)中獲得,適合符合訪問裏昂證券識別數據標準的研究人員。

http://creativecommons.org/licenses/by-nc/4.0/

這是一篇開放獲取的文章,按照創作共用署名非商業性(CC BY-NC 4.0)許可發布,該許可允許其他人以非商業性的方式發布、混編、改編、構建本作品,並以不同的條款授權他們的衍生作品,前提是原創作品被正確引用,給予適當的榮譽,任何更改都被注明,且使用是非商業性的。看到的:http://creativecommons.org/licenses/by-nc/4.0/

來自Altmetric.com的統計

請求的權限

如果您希望重用這篇文章的任何部分或全部,請使用下麵的鏈接,它將帶您訪問版權清除中心的RightsLink服務。您將能夠快速獲得價格和以多種不同方式重用內容的即時許可。

本研究的優勢和局限性

  • 加拿大老齡化縱向研究(CLSA)綜合隊列的基因組數據提供了794 409個標記的全基因組基因分型數據和約3.08億個遺傳變異的全基因組推斷數據。

  • 用於基因分型的英國生物銀行陣列富含與多種表型相關的標記,包括綜合藥物基因組學和炎症標記,這可能是特別有趣的,因為DNA甲基化、代謝組學和蛋白質組學數據正在由裏昂證券生成。

  • 裏昂證券的研究小組繼續就廣泛的定性和定量變量對參與者進行跟蹤;這將有助於研究遺傳和環境因素之間相互作用對年齡相關疾病的影響。

  • 潛在的限製可能包括在非歐洲血統的參與者中相對較低的基因分型覆蓋率,這可以通過使用具有高度多樣性和不足的力量發現非常罕見的易感性變異的歸因參考麵板大幅改善。

簡介

在過去的200年裏,全球預期壽命顯著增加。在這種情況下,加拿大人口的構成發生了前所未有的變化。從1977年到2017年,老年人口,即65歲及以上的人口,從200萬增長到620萬,相當於其人口規模的近17%。這一數字仍在迅速上升。預計到2036年,加拿大將有1020萬老年人。每四個加拿大人中,就會有一個高級職員。

隨著人類預期壽命的延長,與年齡有關的疾病的流行率顯著增加。老年人的功能完整性和內穩態會逐漸下降。這一過程伴隨著神經退行性變、心血管疾病和癌症等許多其他疾病的風險增加,這些疾病已成為生活質量下降和晚年死亡的最常見原因。它在不經意間給個人和社會醫療保健係統增加了巨大負擔。與年齡有關的疾病具有高度複雜的性質。遺傳和環境因素都起著重要作用,它們之間也相互作用。1 2因此,要想延長壽命,減少健康年數的損失,就必須了解衰老的基本機製。

對短命模式生物的研究為標記衰老途徑中的幾個關鍵基因調控因子提供了見解;然而,人類年齡和年齡相關疾病的生物標誌物的鑒定更為複雜。3.在過去的幾十年裏,遺傳流行病學方法成為一種強大的工具。全基因組關聯研究(GWASs)已經發現了數十種基因和基因變異在人類衰老結果的可變性中發揮作用。4然而,基因影響通常是相對溫和的,可以被生活方式和其他環境決定因素改變。2個5遺傳學和外在影響之間的相互作用還需要進行更多的研究。這項工作將受益於更大的樣本量和蛋白質組學和表觀遺傳學的相關信息。

隊列描述

加拿大老齡化縱向研究(CLSA)是一項全國性的長期研究,在2010年至2015年期間招募了51 338名年齡在45-85歲的男性和女性,用於基線數據收集。6它提供關於參與者生活的生物、醫學、心理、社會、生活方式和經濟方麵的變化的信息,為研究遺傳和環境對人類健康和疾病的貢獻提供了一個獨特的機會。它由兩個補充隊列組成:追蹤隊列的21 241名參與者通過電話采訪,綜合隊列的30 097名參與者親自采訪,並提供血液和尿液樣本。綜合隊列研究的參與者從7個省份的11個數據收集點25-50公裏範圍內隨機選擇。總共27170名(90.3%)綜合隊列參與者在基線時提供了血液樣本。綜合隊列樣本用於產生全基因組基因分型數據。收集這些數據是為了了解基因變異在保持健康以及隨著年齡增長疾病和殘疾發展方麵的單獨和綜合影響。在本次裏昂證券基因組數據發布中,使用Affymetrix UK Biobank Axiom陣列對26622名參與者進行了基因分型。7來自任何國家的合格研究人員都可以通過裏昂證券網站(https://www.clsa-elcv.ca/data-access).

患者和公眾的參與

該隊列資料中沒有患者和公眾參與。

收集的數據

樣品儲存和DNA提取

生物樣本在數據采集地點采集並進行鑒定。8從抽取的外周血中分離出全血棕黃皮,去除血漿層。樣品立即移動到- 80°C存儲並轉移到液體N中2在裏昂證券生物儲存庫和生物分析中心儲存至1周後,直到運送到基因組學設施,之後在−20°C下儲存。所有參與者從采血到−80°C儲存的時間都在2小時以內。使用Chemagic MSM I儀器上的“Chemagic DNA Buffy Coat Kit Special 200µL Prefilling VD151007”純化方案從血液樣本中提取基因組DNA。沒有發生- 533;PerkinElmer Baesweiler,德國)。所有提取的樣品都使用PicoGreen試劑試劑盒(目錄# P7589, Life Technologies)進行量化。通過樣品的最小DNA濃度設置為10 ng/µL。除濃度為10-20 ng/µL的樣品未稀釋外,樣品隨後歸一化至20 ng/µL。

基因分型和調用

每個板基因分型包含92個CLSA DNA樣本和4個對照,一個男性對照作為Affymetrix參考基因組DNA 103(目錄# 900421)或個人基因組計劃樣本huAA53E0(科瑞爾細胞庫,目錄# NA24385),兩個女性對照作為人類多態研究中心(CEPH)對照1463-02(科瑞爾細胞庫,目錄# NA12878)或CEPH對照1347-2(科瑞爾細胞庫,目錄# NA10859),去離子水陰性對照。遵循Affymetrix協議(Affymetrix NIMBUS上的Axiom 2.0分析自動化工作流)。樣本被混合到英國生物樣本庫陣列(ThermoFisher,目錄#902502),該陣列用於英國生物樣本庫中約45萬個體的基因分型。9

Axiom陣列板在Affymetrix GeneTitan多通道儀器上進行處理。對於首次通過質量控製(QC),使用Axiom Analysis Suite V.2.0軟件的樣品QC工作流對8個板批次進行分析,其中使用了20 000個可靠探針的子集來確定AT和GC信號對比度(Dish QC)和樣品QC的分辨率。可靠的探針是常染色體的,之前由供應商進行濕實驗室測試,每個探針組具有兩個陣列特征。

基因分型QC和重複基因分型的去除

使用Axiom Analysis Suite V.2.0進行基因分型,每批約5000個樣本,類似於英國生物銀行基因分型QC文檔。7基因型調用結果為27 010個成功的基因型DNA樣本。使用了包含794 409個遺傳變異的納入列表,9以及選擇通過樣本進行進一步分析的QC參數:樣本水平上的Dish QC≥0.82,盤子上通過樣本的平均QC調用率(盤子QC調用率)≥95%,通過樣本的百分比≥70%,通過樣本的平均調用率≥95%。KING V.2.1.3檢測重複基因型,10剔除基因型缺失率較高的樣本。結果有26622名成功的基因型參與者。

性染色體組成

F估計值在X染色體上的分布為0.4 ~ 0.8 (在線補充圖S1).利用該閾值,我們使用PLINK V.1.90b4.4獲得X染色體數。11日12自我報告的性別和X染色體組成之間存在性別差異的48個個體的F估計(表1)均列於在線補充表S1.本文後續所有分析都將使用X染色體數量和非缺失Y染色體基因型數量來定義性別。

表1

根據自我報告性別和性染色體組成的加拿大老化基因型受試者縱向研究的計數

基於遺傳標記質量控製

這包括四項測試,旨在檢查標記在各種實驗因素上的一致性,如基因分型批次、參與者性別、Hardy-Weinberg平衡(HWE)和對照重複間基因分型的不一致性。

上述測試需要具有相對同質血統的人群。鑒於此,我們通過預測主成分的k均值聚類,從1000個基因組III階段的4個群體(猶他州居民(CEPH)具有北歐和西歐血統(CEU)、中國北京的漢人(CHB)、日本東京的日本人(JPT)和尼日利亞伊巴丹的約魯巴人(YRI))中選取414個個體,確定了祖先同質參與者的最大子集。13所有基因型批次中最大的聚類重疊於CEU人群,包括24 361個個體或整個基因型隊列的92% (n=26 622) (在線補充圖S2).

然後,我們將QC測試的多重測試校正p值閾值設置為3.15×10−10.對於794 409標記和五個批次,這個p值截止值可以被認為是每個測試的家族錯誤率0.001。由於許多檢驗可能是正相關的,閾值是保守的,並將識別有強烈證據偏離原假設的標記。未通過檢測的QC參數的單核苷酸多態性(snp)被標記在隨數據發布提供的標記質量表中。因此,我們邀請研究人員基於這些屬性篩選標記或設計他們自己的QC指標,以滿足他們的研究需求。

批次間基因型頻率不一致

為了檢測批次間標記基因型頻率的偏差,我們對2×3基因型計數表(或單倍體標記2×2表)使用Fisher精確檢驗。絕大多數標記在基因型頻率上無顯著偏差(779 656,占98.1%)。

離開HWE

我們使用精確的測試進行了離開HWE的測試。14HWE p值<3.15×10的標記有7790個−10

不一致在對照間複製

每個基因分型板上有三個陽性對照樣本:一個男性對照(Affymetrix CTL1 103或個人基因組計劃參與者huAA53E0)和兩個女性對照(CEPH 1463-02或CEPH 1347-02)中的一個。對於每個標記和對照樣本,我們計算了一個不一致性度量(d),定義如下:

嵌入式圖像

在哪裏嵌入式圖像 ,嵌入式圖像 而且嵌入式圖像 為該標記處的個體的AA、AB和BB基因型被調用的次數。對照重複不一致性大於0.05(即一致性<0.95)的標記有27 937個。

性別基因型頻率不一致

為了檢測標記的基因型頻率在性別之間的偏差,我們使用Fisher精確檢測常染色體SNPs基因型計數2×3表(或X染色體性別特異性區域等位基因計數2×2表)。性別間基因型數或等位基因數不一致的標記248個,p值<3.15×10−10其中192個標記位於X染色體的性別特異性區域。

基於標記的測試結果總結

有37 706個snp被四個測試中的一個或多個標記出來。它們被標記在隨此數據發布的標記QC文件中。通過比較,描述了該質量分析的效果在線補充圖S3圖1去除這些標記後,批次間小等位基因頻率(MAF)的一致性有明顯改善。我們建議刪除這些標記,但要在數據集中保留這些標記,以便研究人員可以訪問所有數據。此外,標記了15 616個插入/刪除和95 363個MAF <0.005的低頻snp,因為它們可能對後續基於樣本的QC產生偏差。

圖1

基因型批次1-5中通過所有四項測試的snp的等位基因頻率兩兩圖。如果snp的p值不顯著(Fisher’s p>3.5×10),則認為它們已通過−10)低於批次間基因型不一致頻率、偏離Hardy-Weinberg平衡、陽性對照複製間不一致以及男女基因型不一致頻率相關試驗的多重測試修正閾值。SNP(單核苷酸多態性

紙漿包質量控製

這種基於樣本的QC旨在識別低質量、相關個體的樣本,並提供基於遺傳的祖先描述。因此,我們鼓勵研究人員使用數據發布中包含的這些信息來篩選樣本或設計他們自己的樣本QC指標,以滿足他們的研究需求。

我們從基於標記的QC中選擇了通過所有四項測試的snp, MAF為>0.01,標記缺失<0.01,共得到573 386個標記。利用PLINK對這些標記進行修剪,得到近似連鎖平衡的16536個獨立標記的子集。它們被用於以下樣本明智的評估。修剪的窗口大小為5000 kb,並成對進行r2閾值為0.1,將窗口移動的變量數量為5。

家族親緣

問卷和訪談中沒有記錄裏昂證券參與者的家庭關係。然而,這些信息對於一些流行病學和基因組分析是必不可少的。使用王軟件,10我們計算了所有成對的親緣係數,並使用常染色體snp標記了所有推測為三級或更近的親緣關係的對(表2而且在線補充圖S4).推斷出有三級或更緊密關係的個體在數據庫中被標記出來。

表2

每種推斷關係類型的親緣關係對的計數

雜合性和缺失率異常值的檢測

由於樣本雜合性和缺失的極端值可能表明生物樣本的基因分型質量低或交叉汙染,我們使用PLINK (在線補充圖S5).正如預期的那樣,由於等位基因頻率在群體之間不同,我們觀察到雜合度依賴於自我報告的背景。

人口結構

利用主成分分析(PCA)計算種群結構。15以補充GWAS中自我報告的祖先和對群體分層的控製。16日17使用不相關個體的高質量子集計算出前20個主成分,刪除了被分類為雜合性和缺失異常值的個體和任何具有三級或更低關係的個體。

選擇歐洲血統子集

為了減少群體結構對GWAS等分析的影響,建議使用具有相對同質祖先的群體子集。在此次基因組數據發布中,大多數個體自述有歐洲血統(n= 25172)。我們將自述血統與基因組信息和PCA分析相結合,確定了具有相對同質血統的自述歐洲個體子集,並將該子集稱為“裏昂證券歐洲血統子集”。

為了確定裏昂證券歐洲血統子集,我們將前一節人口結構分析中的前四個主成分聚類為6個聚類。將這些聚類與來自1000個基因組的聚類進行可視化分析,發現最大的聚類(聚類4,n=24 655)與1000個基因組中的歐洲血統人群明顯重疊(圖2).此外,這個最大的群體包含了裏昂證券中自稱有歐洲血統的絕大多數人(表3而且在線補充表S2).與整個裏昂證券隊列(在線補充圖S6).PCA分析的前20個主成分在隨數據發布的樣本QC文件中提供,以及來自裏昂證券歐洲血統子集的PCA分析的前10個主成分。

圖2

確定裏昂證券歐洲血統子集。(A)標記和著色的所有1000個基因組群體的前四個主要成分(群體代碼指https://wwwinternationalgenomeorg/category/population/).(B)來自裏昂證券的前四個主要成分,按類簇編號進行顏色編碼和標記。裏昂證券,加拿大老齡化縱向研究。

表3

加拿大衰老基因型縱向研究參與者每自報告祖先和k均值聚類的計數

檢測與疾病相關的拷貝數異常

性染色體異常

性染色體組成由Affymetrix Axiom Analysis Suite V.2.0和PLINK調用。Affymetrix利用X和Y染色體上的非多態探針的平均信號值的比值來計算性別。PLINK僅使用X染色體近交係係數(F估計值)來確定性別。當受試者有性染色體異常,如特納綜合征(45,X), Affymetrix將稱其為女性,但PLINK將稱其為男性。類似地,當受試者患有Klinefelter綜合征(47,XXY)時,Affymetrix將稱受試者為男性,而PLINK將稱其為女性。我們將這種不一致信息與拷貝數分析相結合,以確定裏昂證券參與者的性染色體異常。

為了通過嚴格的Affymetrix默認閾值來糾正對男性的錯誤稱呼,我們將來自所有英國生物銀行樣本的X和Y染色體標記的強度數據作為訓練數據集,生成支持向量機(SVM)模型。該支持向量機模型應用於裏昂證券樣本,以召回絕大多數命名錯誤的樣本(359個樣本中的331個)。然而,上述SVM方法不能應用於PLINK性呼喚,因為英國生物銀行數據中的性呼喚已經被糾正。或者,通過設置X染色體F估計值<0.3為女性,設置>0.8為男性,使用經驗閾值來召回PLINK誤叫的大多數樣本(140 / 175)。我們使用相對更嚴格的F估計閾值,因為高F估計可能表明鑲嵌染色體異常,如鑲嵌缺失。最後,我們使用Axiom CNV Summary Tool從基因分型數據中計算X和Y染色體的log2比值和B等位基因頻率(BAF,實際上是每個SNP的B:B+A強度的人內比率)。分別用log2比值和BAF來鑒別46、XY和46、XX男女的性染色體異常(圖3 a, B).

BAF (top) and log2 ratio (bottom) of chromosomes X and Y are shown for sex chromosome abnormalities. (A) In 46,XY, the BAF is either 0 or 1, and the expected log2 ratio is less than 0 on chromosome X. However, in the PAR and the chrY11.2/chrXq21.3 homology block, there are heterozygous calls in male shown as BAF of 0.5. The red line shows the locally weighted scatterplot smoothing curve for log2 ratio. The BAF is either 0 or 1, and the expected log2 ratio is 0 on chromosome Y. (B) In 46,XX, the BAF is either 0 (AA), ½ (AB) or 1 (BB), and the expected log2 ratio is 0 on chromosome X as in a normal diploid cell. The BAF is between 0 and 1, and the log2 ratio is less than 0 on chromosome Y. (C) For Klinefelter syndrome (47,XXY), the log2 ratio is around 0 on chromosome X, which indicates ploidy as 2N. Compared with 46,XY, there are relatively lower peaks of log2 ratio at PAR and chrX21.3/chrY11.2 homology block region. Moreover, BAF of heterozygous calls at PAR and chrX21.3/chrY11.2 homology block region shifted from 0.5 to intermediate values. They both indicated an extra copy of chromosome X. Chromosome Y intensity profile showed a clear male pattern. (D) For Turner syndrome (45,X), on chromosome X, the log2 ratio is below 0, and there is no BAF bands of 0.5, which indicates one copy loss. Chromosome Y intensity profile showed a clear female pattern. (E) For 45,X/46,XX mosaicism, on chromosome X, there is a relatively smaller decrease of log2 ratio compared with one copy of chromosome X as in male. The BAF of heterozygous calls on chromosome X is split to intermediate values. They both indicate that the sample is mosaic for deletion of chromosome X. Chromosome Y intensity profile showed a clear female pattern. (F) For 45,X/46,XY mosaicism, the log2 ratio is less than 0, and no BAF 0.5 band on chromosome X indicates one copy. The log2 ratio shifts to below 0 and BAF values between 0 and 1 on chromosome Y indicate chromosome loss. However, the intermediate BAF values close to 0 or 1 at PAR and chrX21.3/chrY11.2 homology block region indicate the loss of chromosome Y existed in a larger proportion of cells. BAF, B allele frequency; PAR, pseudoautosomal region.
" data-icon-position="" data-hide-link-title="0">圖3
圖3

性染色體異常表現為X和Y染色體的BAF(上)和log2比值(下)。(A)在46,XY中,BAF要麼為0,要麼為1,x染色體上的期望log2比小於0。而在PAR和chrY11.2/chrXq21.3同源塊中,雄性有雜合呼叫,表現為BAF為0.5。紅線表示log2比值的局部加權散點平滑曲線。在46,XX中,BAF為0 (AA),½(AB)或1 (BB),染色體X上的期望log2比為0,與正常的二倍體細胞一樣。BAF在0 ~ 1之間,y染色體上的log2比值小於0。(C)對於Klinefelter綜合征(47,XXY), X染色體上的log2比值在0左右,說明倍性為2N。與46、XY相比,在PAR和chrX21.3/chrY11.2同源塊區log2比值的峰值相對較低。此外,在PAR和chrX21.3/chrY11.2同源塊區雜合調用的BAF從0.5轉移到中間值。它們都表明x染色體有額外的拷貝。Y染色體的強度分布顯示明顯的男性模式。(D)對於Turner綜合征(45,X),在X染色體上,log2比值低於0,沒有0.5的BAF帶,這表明丟失了一個拷貝。Y染色體強度譜顯示明顯的女性型。 (E) For 45,X/46,XX mosaicism, on chromosome X, there is a relatively smaller decrease of log2 ratio compared with one copy of chromosome X as in male. The BAF of heterozygous calls on chromosome X is split to intermediate values. They both indicate that the sample is mosaic for deletion of chromosome X. Chromosome Y intensity profile showed a clear female pattern. (F) For 45,X/46,XY mosaicism, the log2 ratio is less than 0, and no BAF 0.5 band on chromosome X indicates one copy. The log2 ratio shifts to below 0 and BAF values between 0 and 1 on chromosome Y indicate chromosome loss. However, the intermediate BAF values close to 0 or 1 at PAR and chrX21.3/chrY11.2 homology block region indicate the loss of chromosome Y existed in a larger proportion of cells. BAF, B allele frequency; PAR, pseudoautosomal region.

結果,我們檢測到63名參與者在自我報告性行為和Affymetrix和/或PLINK性呼叫之間存在不一致(在線補充表S2),然後我們檢測了他們的拷貝數變異(CNV),以確定他們屬於四種情況之一:性染色體非整倍體(11名受試者),嵌合性染色體非整倍體(15名受試者),X染色體低雜合度(14名受試者),X染色體數量與無性染色體非整倍體的自我報告性別不一致(23名受試者)。簡單地說,我們確定了所有5名自我報告性染色體異常的參與者,包括一名馬賽克特納綜合征患者(45,X/46,XY)(場景1和2)。我們確定了上述性別檢查中所有48名性別不一致的參與者。對於23名Affymetrix和PLINK呼叫都不一致的參與者,CNV分析證實了性染色體組成(場景4)。另外,對於沒有自我報告性別的參與者,Affymetrix/PLINK呼叫和CNV分析對呼喚性都是一致的。除了經驗證的自我報告性染色體異常外,我們還確定了4名Klinefelter綜合征患者(47例,XXY)和3名特納綜合征患者(45例,X)(場景1)(圖3 c, D).我們總共發現3名患者有45,X/46,XX嵌合體,11名患者有45,X/46,XY嵌合體,其中1名患者自述特納綜合征(45,X/46,XY) (圖3 e, F).此外,X染色體雜合度低的個體可能是近親繁殖的結果(在線補充圖S7).

(CMT)腓骨肌萎縮疾病

CMT是最常見的遺傳性神經疾病之一。它主要是由17p12處的重複引起的,其中PMP22位於(CMT1A和CMT1E;人類:# 118220;# 118300)。在裏昂證券發布的基因組數據中,有9名參與者自稱患有CMT。我們檢查了他們的cnv,發現四個參與者在PMP22在線補充圖S8),其中一個參與者在PMP22在線補充圖S8).其他4名受試者未檢測到cnvPMP22

人白細胞抗原(HLA)型歸責

我們采用HLA*IMP:02方法18和一個多人群參考麵板18(ThermoFisher目錄# 000.911)來歸因HLA類型。對11個MHC I類和II類位點的4位分辨率進行了基因型計算抗原,HLA-B,HLA-C,HLA-DPA1,HLA-DPB1,HLA-DQA1,HLA-DQB1,HLA-DRB1,HLA-DRB3,HLA-DRB4而且HLA-DRB5.陽性對照分別為NA12878 587個重複、NA24385 75個重複和NA10859 4個重複。將後驗概率閾值為0.7的等位基因與文獻中已知的基因型進行比較。整個位點的調用準確率為100% (在線補充表T3).利用重複樣本估計裏昂證券基因分型參與者的歸位精度。所有重複的驗證率為100%。

歸屬到TOPMed參考麵板

基因型imputation是一種計算方法,用來預測無法通過基因分型陣列等測定方法直接分型的標記基因型,或用來推斷某些個體中缺失的標記。imputation過程使用測序個體的參考麵板來預測研究樣本中的基因型,這些基因標記的一個子集已經被基因分型。19作為歸imputation過程的輸入,我們使用了26 622個通過QC的CLSA參與者,以及通過所有標記QC測試的653 729個標記集,SNP-wise缺失<0.05,MAF為>0.0001,等位基因與人類基因組GRCh37參考序列匹配。

采用TOPMed參考麵板進行分階段和歸責20.密歇根大學歸責服務中心21我們使用TOPMed參考樣本V.r2,包含97256個樣本,308 107 085個遺傳標記。我們使用這個植入服務對使用EAGLE2的CLSA基因型數據進行預階段和植入22Minimac,19分別。計算常染色體和X染色體變異。對13 310和13 312個裏昂證券樣品進行了兩批歸入。每批樣品還包括三個對照樣品中的一個。這兩批數據隨後合並為一個數據集。

歸責的性能

使用標記明智的信息度量(Rsq)評估使用TOPMed參考麵板的Imputation質量,並與使用包含32 488個參考樣本和4040萬個遺傳標記的單倍型參考組合參考麵板的Imputation進行比較。23對於每個imputation數據集,22號染色體上所有snp的信息測量在比較之前被分層到MAF箱中。兩個參考麵板之間的歸責質量比較表明,TOPMed參考麵板總體上產生了更高的歸責質量,可能是由於參考麵板中包含的樣本數量更多(在線補充圖S9).TOPMed參考麵板采用了較高的排序深度和聯合調用方法,從而獲得了較好的歸入性能。

發現到目前為止

這一數據資源已用於四項已完成和幾項正在進行的研究。青光眼是世界上導致不可逆轉失明的第二大原因。24GWAS結合了來自英國生物銀行、裏昂證券和國際青光眼遺傳聯盟的數據,確定了超過100個垂直杯盤比和垂直盤直徑的新位點。25它們是與青光眼風險相關的高度遺傳視盤形態性狀。在一項調查多基因風險評分(PRS)對篩查骨折風險的貢獻的研究中,26裏昂證券的基因組數據與參與者的身體檢查相關聯。這是納入骨折風險綜合分析的最大隊列,使研究人員能夠了解PRS的性能,特別是在老年人中。研究發現,基因篩選可以減少進一步評估的數量,以確定骨質疏鬆性骨折的高風險個體。在另一項關於心血管疾病的研究中,27研究人員利用裏昂證券隊列中收集的基因組和社會心理信息,評估了多尺度風險因素的獨立影響和相互作用。此外,裏昂證券數據集為研究與複雜疾病相關的其他疾病提供了機會。將其用於與心血管疾病和青光眼相關的睡眠呼吸暫停的大規模GWAS。作者揭示了30個基因與這種疾病之間的新穎聯係,以及與其他複雜性狀的大量分子重疊。28如需進一步出版,請查閱https://wwwclsa-elcvca/stay-informed/publications

優勢和局限性

裏昂證券的基因組數據是一項針對加拿大老齡化人口的大規模縱向研究的獨特資源。基因分型陣列富含與多種表型相關的已知標記。然而,英國生物銀行陣列對非歐洲血統的參與者的覆蓋率可能相對較低,29采用具有較高遺傳多樣性的配分參考板可以改善遺傳多樣性。30.使用這種基因分型數據可能很難識別非常罕見的變異,因為目前的imputation方法不能自信地預測頻率低於一定閾值的變異。盡管有這些限製,裏昂證券的隊列包括深入和廣泛的表型分析,並計劃與衛生管理數據庫連接。例如,最近,從裏昂證券參與者收集的約9500個血液樣本中獲得了包含1314種生物化學物質的代謝組學數據,這些數據可以與基因組數據相結合,以幫助了解與虛弱相關的疾病的原因。DNA甲基化數據產生於1479名參與者的85萬個甲基化位點上。裏昂證券還啟動了一個子隊列,從6000名參與者的大腦和腸道微生物組的MRI中收集縱向數據。這一數據資源將有助於研究人類基因組變異與廣泛的環境、生活方式和醫療因素之間的複雜關係。由於DNA甲基化和蛋白質組學數據正在生成,在其他疾病相關的變異中,綜合藥物基因組學和炎症標記可能特別有興趣。裏昂證券的整體研究是一項持續進行的前瞻性研究。後續數據將繼續從當前基因組亞隊列的參與者中收集。

協作

裏昂證券綜合隊列的基因組數據可通過裏昂證券數據訪問程序(https://www.clsa-elcv.ca/data-access).表型變量列表可通過裏昂證券數據預覽門戶(https://datapreview.clsa-elcv.ca/).如欲了解可能重疊的研究課題,資料使用者應查閱裏昂證券網站(http://www.clsa-elcv.ca/researchers/approved-project-summaries).考慮到該基因組數據資源是在2018年發布的,我們計算了自2018年以來包含基因組數據的數據請求的比例。在撰寫本文時,17%的獲批項目要求為其研究提供基因數據。

直接基因型數據以二進製PLINK格式提供。建議使用PLINK操作這些文件(https://www.cog-genomics.org/plink/1.9/).采用8位編碼,以二進製BGEN V.1.2格式提供計算的基因型數據。建議使用qctool2或bgenix操作此數據類型。HLA歸因文件是一個純文本文件,包含有關從SNP基因型歸因經典人類白細胞抗原等位基因的信息。

所有使用裏昂證券遺傳數據資源的研究都必須在其出版物中按照下述說明給予裏昂證券充分的認可裏昂證券數據使用者的出版及推廣政策(https:///www.clsa-elcv.ca).

數據可用性聲明

資料應合理要求提供。數據可從加拿大老齡化縱向研究(裏昂證券)(www.clsa-elcv.ca)中獲得,適合符合訪問裏昂證券識別數據標準的研究人員。

數據可用性聲明

數據來自加拿大老齡化縱向研究(www.clsa-elcv.ca),供符合查閱裏昂證券去身份識別數據標準的研究人員使用。數據可從加拿大老齡化縱向研究(裏昂證券)(www.clsa-elcv.ca)中獲得,適合符合訪問裏昂證券識別數據標準的研究人員。

倫理語句

病人同意發表

參考文獻

補充材料

腳注

  • VF和RL是共同第一作者。

  • PR, JBR和JR是聯合資深作者。

  • 推特@LaurenGriff1

  • 貢獻者VF和RL進行數據分析並撰寫稿件,共享第一作者身份;CD-Z和AB生成數據;JR監督DNA提取和基因分型數據生成;CB, DR, CW, GL, GP, ADP, LEG, CV, ML, SK, PR, JBR和JR開發了概念和報告設計。所有作者都對手稿中的重要知識內容進行了批判性的修改,並批準出版最終版本。JR是擔保人。

  • 資金這項研究使用了加拿大老齡化縱向研究(裏昂證券)收集的數據。裏昂證券的資金由加拿大政府通過加拿大衛生研究院(資助編號為LSA 94473)和加拿大創新基金會以及以下省份(無資助/資助編號)提供:紐芬蘭、新斯科舍省、魁北克省、安大略省、馬尼托巴省、阿爾伯塔省和不列顛哥倫比亞省。裏昂證券由帕敏德•雷娜、克裏斯蒂娜•沃夫森和蘇珊•柯克蘭博士領導。這項工作也得到了Genome Canada技術平台#12505和CFI #33408對ML和JR的支持。

  • 相互競爭的利益沒有宣布。

  • 道德聲明倫理批準由麥克馬斯特大學研究倫理委員會提供(研究編號:10-423 2010-2336 11.003 C2010-80 2009-18 H10-02143 H2010:330 M16-10-023 2010s0527)。加拿大老齡化縱向研究方案得到了加拿大13個研究倫理委員會的審查和批準。所有參與者都提供了書麵知情同意。

  • 來源和同行評審不是委托;外部同行評議。

  • 補充材料本內容由作者提供。它沒有經過BMJ出版集團有限公司(BMJ)的審查,也可能沒有經過同行評審。討論的任何意見或建議僅僅是那些作者(s)和不被BMJ認可。BMJ放棄從放在內容上的任何依賴產生的所有責任和責任。如果內容包含任何翻譯材料,BMJ不保證翻譯的準確性和可靠性(包括但不限於當地法規、臨床指南、術語、藥品名稱和藥物劑量),並且不對翻譯和改編或其他原因引起的任何錯誤和/或遺漏負責。