在一项新研究中,麻省理工学院的一组研究人员发布了迄今为止最全面的非编码DNA图谱,该图谱占人类基因组的98%以上。
分析揭示了与数百种人类特征相关的遗传控制元素。
二十年前的这个月,人类基因组的第一稿被公开发布。该项目带来的主要惊喜之一是,人们发现只有1.5%的人类基因组由蛋白质编码基因组成。
在过去的二十年中,很明显,那些最初被认为是“垃圾DNA”的非编码DNA片段在发育和基因调控中起着至关重要的作用。在2021年2月3日发布的一项新研究中,麻省理工学院的一组研究人员发布了该非编码DNA迄今为止最全面的图谱。
这张图提供了833个组织和细胞类型的表观基因组标记(表示哪些基因在不同类型的细胞中开启或关闭的修饰)的深入注释,比以前涵盖的范围有了显着增加。研究人员还确定了控制特定生物程序的调控元件组,他们发现了与540个特定性状相关的约30,000种遗传变异的候选作用机制。
“我们提供的实际上是人类基因组的电路。二十年后,我们不仅拥有基因,不仅拥有非编码注释,而且拥有模块,上游调节剂,下游靶标,疾病变体以及这些疾病变体的解释,” Manolis Kellis说,他是计算机科学教授,麻省理工学院计算机科学与人工智能实验室以及麻省理工学院和哈佛大学广泛研究所的成员,并且是这项新研究的资深作者。
麻省理工学院的研究生Carles Boix是该论文的主要作者,该论文于2021年2月3日发表在《自然》杂志上。该论文的其他作者是麻省理工学院的研究生本杰明·詹姆斯和前麻省理工学院的博士后Yongjin Park和Wouter Meuleman,他们现在分别是不列颠哥伦比亚大学和Altius生物医学科学研究所的首席研究员。研究人员已将所有数据公开提供给更广泛的科学界使用。
表观基因控制
表观基因组位于人类基因组的顶层(构成遗传密码的核苷酸序列)之上。表观基因组由化学标记组成,可帮助确定哪些基因在不同时间和不同细胞中表达。这些标记包括组蛋白修饰,DNA甲基化以及给定DNA片段的可及性。
“表观基因组学直接读取了我们细胞使用的标记,以记住在每种细胞类型以及我们身体的每个组织中开启和关闭的内容。它们充当便笺,荧光笔和下划线。” Kellis说。“表观基因组学使我们可以窥视每个细胞在每种细胞类型中都标记为重要的分子,从而了解基因组的实际功能。”
绘制这些表观基因组注释可以揭示遗传控制元件,以及不同元件活跃的细胞类型。可以将这些控制元件分组为功能在一起的簇或模块,以控制特定的生物学功能。这些元素中的一些是增强子,与激活基因表达的蛋白质结合,而其他一些则是使基因关闭的阻遏物。
新地图EpiMap(跨多个注释项目的表观基因组整合)基于多个大型制图联盟(包括ENCODE,路线图表观基因组学和基因调控的基因组学)的数据,并将这些数据组合在一起。
研究人员总共组装了833个生物样品,代表了正常的组织和细胞类型,每个样品都标有略有不同的表观基因组标记,这使得难以完全整合多个财团的数据。然后,他们通过组合相似标记和生物样品的可用数据来填写缺失的数据集,并使用由此产生的833个生物样品中10,000个标记的纲要来研究基因调控和人类疾病。
研究人员注释了超过200万个增强子位点,仅覆盖了每个生物样品的0.8%,总共覆盖了基因组的13%。他们根据活动模式将它们分为300个模块,并将它们与它们控制的生物过程,控制它们的调节剂以及介导这种控制的短序列基序联系起来。研究人员还根据协调一致的活动模式,预测了330万个控制元件与目标基因之间的联系,这是迄今为止人类基因组最完整的电路。
疾病联系
自2003年完成人类基因组最终稿以来,研究人员已进行了成千上万个全基因组关联研究(GWAS),揭示了常见的遗传变异,使它们的携带者容易患有特定的性状或疾病。
这些研究已经产生了大约120,000个变体,但其中只有7%位于蛋白质编码基因内,而剩下的93%位于非编码DNA区域。
但是,由于许多原因,非编码变体的行为非常难以解决。首先,遗传变异体是成块遗传的,因此很难在每个疾病相关区域的数十个变异体中查明因果变异体。此外,非编码变体可以在很长的距离内起作用,有时甚至是数百万个核苷酸,从而很难找到它们的作用靶基因。它们还具有极强的动态性,因此很难知道它们在哪个组织中起作用。最后,了解其上游调节剂仍然是一个未解决的问题。
在这项研究中,研究人员能够解决这些问题,并为30,000种以上非编码GWAS变体提供候选的机械见解。研究人员发现,与同一性状相关的变体倾向于在与该性状生物学相关的特定组织中富集。例如,发现与智力相关的遗传变异位于大脑活跃的非编码区,而与胆固醇水平相关的变异位于肝脏活跃的区。
研究人员还表明,某些性状或疾病会受到在许多不同组织类型中活跃的增强剂的影响。例如,他们发现与冠心病(CAD)相关的遗传变异在脂肪组织,冠状动脉和肝脏以及许多其他组织中均活跃。
Kellis的实验室现在正在与非正常合作者合作,在这些全基因组预测的指导下,寻求他们在特定疾病中的领先地位。他们正在分析冠状动脉疾病患者的心脏组织,阿尔茨海默氏病患者的小胶质细胞以及肥胖症患者的肌肉,脂肪和血液,根据当前的论文以及他实验室的先前工作,这些疾病有望成为这些疾病的介质。
许多其他实验室已经在使用EpiMap数据进行对自然疾病的研究。凯利斯说:“我们希望我们的预测将在工业界和学术界广泛使用,以帮助阐明遗传变异及其作用机制,将疗法靶向最有希望的靶点,并帮助加速许多疾病的药物开发,”凯利斯说。
参考:“通过综合表观基因组学对人类疾病位点进行调控的基因组电路”,作者:Carles A. Boix,Benjamin T. James,Yongjin P. Park,Wouter Meuleman和Manolis Kellis,2021年2月3日,Nature.DOI:
10.1038 / s41586-020-03145-z
该研究由美国国立卫生研究院资助。