基因组学研究人员具有里程碑意义的成就:人类X染色体的第一个完整组装

X染色体是第一个从头到尾完全测序的人类染色体,序列中没有任何空缺,并且准确性达到了空前的水平。

人类染色体的首个端对端(端粒至端粒)完全无间隙的DNA序列是基因组学研究的一个重要里程碑。

尽管目前的人类参考基因组是有史以来生产的最准确,最完整的脊椎动物基因组,但即使经过二十年的改进,DNA序列仍存在缺口。现在,科学家们首次确定了人类染色体从一端到另一端(“端粒到端粒”)的完整序列,而且没有空缺,而且准确性达到了空前的水平。

完整的人类X染色体的端粒至端粒装配体于2020年7月14日在《自然》杂志上发表,这对于基因组学研究人员而言是一项具有里程碑意义的成就。加州大学圣克鲁斯分校基因研究所的首席科学家卡伦·米加(Karen Miga)说,该项目是通过支持“超长读取”的新测序技术得以实现的,例如加州大学圣克鲁斯分校率先开发的纳米孔测序技术。

染色体表意文字显示了人类CHM13基因组的全基因组组装,在连续性,完整性和准确性方面超过了所有先前的人类基因组组装。X染色体在右侧放大。无间隙重叠群在染色体表意文字旁边显示为蓝色和橙色条形。

重复的DNA序列在整个基因组中很常见,并且总是给测序带来挑战,因为大多数技术会产生相对较短的序列“读取”,然后像拼图游戏一样将它们拼凑在一起以组装基因组。重复序列会产生许多短读,它们看起来几乎是相同的,就像拼图中一片广阔的蓝天,而没有线索说明这些片段如何组合在一起或有多少重复片段。

Miga说:“这些重复序列丰富的序列曾经被认为难以处理,但是现在我们在测序技术上取得了长足的进步。”“通过纳米孔测序,我们可以超长读取数十万个碱基对,这些碱基对可以跨越整个重复区域,从而绕开了一些挑战。”

填补人类基因组序列中剩余的空白,可以打开基因组的新区域,研究人员可以在其中寻找序列变异与疾病之间的联系,以及寻找有关人类生物学和进化重要问题的其他线索。

“我们开始发现这些参考序列中有缺口的区域实际上实际上是人类变异最丰富的区域之一,因此我们一直在丢失许多信息,这些信息对于理解人类生物学和疾病,”米加说。

端粒到端粒

新论文的通讯作者,美国国家人类基因组研究所(NHGRI)的Miga和Adam Phillippy共同创立了端粒到端粒(T2T)财团,以在2018年的一篇论文上共同努力,寻求完整的基因组组装。证明了纳米孔技术产生完整的人类基因组序列的潜力。这项工作使用了牛津纳米孔技术公司的MinION测序仪,该测序仪通过检测DNA的单个分子通过膜中的小孔(“纳米孔”)时检测电流的变化来对DNA进行测序。

UCSC基因组研究所的研究科学家Karen Miga领导了完整的人类X染色体的端粒到端粒装配。

在这一努力的基础上,新项目将纳米孔测序与PacBio和Illumina的其他测序技术以及BioNano Genomics的光学图谱相结合。使用这些技术,该团队产生了一个全基因组装配,其连续性,完整性和准确性超过了所有先前的人类基因组装配,甚至在某些指标上超过了目前的人类参考基因组。

米加说,尽管如此,序列中还是有多个中断。为了完成X染色体,团队必须手动解决序列中的几个缺口。用超长的纳米孔读段解决了两个节段重复,该读段完全跨越了重复段,并独特地锚定在任一侧。剩下的断裂是在着丝粒处,这是在每个染色体上都发现的重复DNA异常困难的区域。

在X染色体中,着丝粒包含一个高度重复的DNA区域,该区域跨越310万个碱基对(DNA双螺旋中的碱基A,C,T和G形成成对,并在其序列中编码遗传信息)。该团队能够在重复序列中鉴定出变异体作为标记,他们用来对齐长读段并将它们连接在一起以覆盖整个着丝粒。

“对我来说,我们可以组合一个3兆碱基大小的串联重复序列的想法真是令人赞叹。我们现在可以到达这些重复区域,这些区域覆盖了以前被认为难以处理的数百万个碱基。”米加说。

抛光策略

下一步是使用来自多种测序技术的数据的抛光策略,以确保序列中每个碱基的准确性。

“我们在三个不同的测序平台上使用了迭代过程,以完善序列并达到较高的准确性,” Miga解释说。“独特的标记为超长读段提供锚定系统,一旦锚定读段,就可以使用多个数据集调用每个碱基。”

纳米孔测序除提供超长读取外,还可以检测被甲基化修饰的碱基,甲基化是一种“表观遗传”变化,不会改变序列,但会对DNA结构和基因表达产生重要影响。通过在X染色体上绘制甲基化模式的图谱,该团队能够确认以前的观察结果,并揭示着丝粒内甲基化模式的一些有趣趋势。

源自人类细胞系CHM13的新人类基因组序列填补了当前参考基因组中的许多空白,即基因组参考协会构建38(GRCh38)。

T2T协会正在继续努力,以完成所有CHM13染色体。米加说:“这是一个开放的财团,因此在许多方面,这是一个社区驱动的项目,很多人为此投入了时间和资源。”

阅读人类染色体的第一个端到端DNA序列,以获取更多有关此突破的信息。

###

参考:Karen H. Miga,Sergey Koren,Arang Rhie,Mitchell R. Vollger,Ariel Gershman,Andrey Bzikadze,Shelise Brooks,Edmund Howe,David Porubsky,Glennis A. Logsdon撰写的“完整的人类X染色体的端粒组装” ,瓦莱丽·施耐德(Valerie A. Schneider),塔玛拉·波塔波娃(Tamara Potapova),乔纳森·伍德,威廉·周,乔尔·阿姆斯特朗(Joel Armstrong),珍妮·弗雷德里克森(Jeanne Fredrickson),叶夫根尼亚·帕克(Evgenia Pak),克里斯托弗·提吉(Kristof Tigyi),米林·克里米茨基,克里斯托弗·马尔科维奇(Christopher Markovic) F.汉森,艾米·B·威尔弗特,弗朗索瓦·蒂博·尼森,安东尼·D·史密特,乔恩·马修·贝尔顿,西达斯·塞瓦拉伊,梅根·丹尼斯,丹妮拉·C·索托,鲁塔·萨哈斯拉布德,古尔汉·卡亚,乔什·Quick,尼古拉斯·J·罗曼,纳丁·福尔摩斯(Nadine Holmes),马修·罗斯(Matthew Loose),乌尔瓦希·苏蒂(Urvashi Surti),罗莎·安娜·里斯奎斯(Rosa ana Risques),蒂娜·A·格雷夫斯·林赛,罗伯特·富尔顿,艾拉·霍尔,本尼迪克特·帕滕,凯斯汀·豪,温斯顿·廷普,爱丽丝·扬,詹姆斯·C·穆利金,帕维尔·A·佩夫兹纳,珍妮弗Gerton,Beth A.Sullivan,Evan E.Eichler和Adam M.Phillippy,2020年7月14日,自然。
10.1038 / s41586-020-2547-7

除了Miga和Phillippy外,该论文的作者还包括美国国家人类基因组研究所的第一作者Sergey Koren和美国和英国近两打机构的科学家,其中包括华盛顿大学,约翰·霍普金斯大学,加州大学圣地亚哥和惠康桑格研究所。这项工作得到了美国国立卫生研究院的支持。

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。