蛋白质的色带模型。
蛋白质对细胞至关重要,进行复杂任务和催化化学反应。科学家和工程师长期以来一直试图通过设计可以进行新任务,如治疗疾病,捕获碳或收获能量的人工蛋白质来利用这种能力,但是许多设计用于产生这种蛋白质的过程是缓慢而复杂的,具有很高的故障率。
在突破性可能对医疗保健,农业和能源部门产生影响,芝加哥大学Pritzker分子工程学院的研究人员的团队领导了一个人工智能导向程序,使用大数据来设计新的蛋白质。
通过开发可以查看从基因组数据库中剔除的蛋白质信息的机器学习模型,研究人员发现了建立人造蛋白的相对简单的设计规则。当球队在实验室中构建这些人为蛋白质时,他们发现它们进行了化学过程,使它们依赖于本质上的那些。
“我们都知道进化的简单过程如何导致这种高性能的材料作为一种蛋白质,”生物化学和分子生物学教授Joseph Regenstein教授RaMa Ranganathan说,和分子工程。“我们发现基因组数据包含有关蛋白质结构和功能的基本规则的大量信息,现在我们已经能够淘汰自然的规则来创建蛋白质。”
结果发表在《科学》杂志上。
使用人工智能学习设计规则
蛋白质由数百或数千次氨基酸组成,这些氨基酸序列指定蛋白质的结构和功能。但是,理解如何建立这些序列以创建新的蛋白质一直在具有挑战性。过去的工作导致了可以指定结构的方法,但功能更加难以捉摸。
在过去的15年里,Ranganathan和他的合作者实现了什么是基因组数据库 - 呈指数增长 - 含有关于蛋白质结构和功能基本规则的大量信息。他的小组基于此数据开发了数学模型,然后开始使用机器学习方法来揭示有关蛋白质基本设计规则的新信息。
对于这项研究,他们研究了酸毒素蛋白家族的代谢酶,一种蛋白质,对许多细菌,真菌和植物来说都很重要。使用机器学习模型,研究人员能够揭示这些蛋白质背后的简单设计规则。
该模型表明,仅在氨基酸位置和对氨基酸对的演化中的相关性的情况下足以预测具有蛋白质家族性质的新的人造序列。
“我们一般认为要建立一些东西,你必须首先深入了解它是如何工作的,”朗纳坦坦说。“但是如果您有足够的数据示例,您可以使用深度学习方法来学习设计规则,即使您了解它是如何运作的或为什么它建造的方式。”
他和他的合作者然后创建了编码蛋白质的合成基因,将它们克隆到细菌中,并观察为细菌然后使用它们的正常细胞机制制成合成蛋白。他们发现人造蛋白质具有与天然酸酸异性蛋白质相同的催化功能。
“我们发现基因组数据包含有关蛋白质结构和功能的基本规则的大量信息,现在我们已经能够淘汰自然的规则来创建蛋白质。”
- Rama Ranganathan教授
一个了解其他复杂系统的平台
因为设计规则是如此相对简单,所以研究人员可能与他们创造的人为蛋白质的数量非常大。
“约束比我们想象的要小得多,”Ranganathan说。“大自然的设计规则有简单性,我们认为类似的方法可以帮助我们在生物系统或大脑中寻找其他复杂系统中的设计模型。”
虽然人工智能揭示了设计规则,但他的合作者仍然没有完全理解为什么模特工作。接下来,他们将努力了解模型如何结束。“还有更多的工作要做,”他说。
与此同时,他们也希望使用这个平台来开发可以解决像气候变化等社会问题的蛋白质。ranganathan和assoc。Andrew Ferguson教授创立了一家名为Evozyne的公司,该公司将通过能源,环境,催化和农业的应用商业化这项技术。Ranganathan与Uchicago的Polsky Centrs合作,以获得企业家精神和创新,以提出档案和许可知识产权。
“该系统为我们提供了一个合理工程蛋白质分子的平台,以便我们总是梦想我们可以,”他说。“它不仅可以教我们蛋白质如何工作以及它们如何发展的物理,它可以帮助我们找到碳捕获和能量收集等问题的解决方案。甚至更一般地,蛋白质的研究甚至可能有助于教导我们如何在现代机器学习背后的深度神经网络实际上工作。“
参考:“由威廉·米兰,Matteo Figlizzi,Christian optor,Pierre Barrat-Charlaix,Michael Socolich,Peter Kast,Donald Hilvert,Remi Monasson,Simona Cocco,Martin Weigt和Rama Ranganathan, 2020年7月24日,Science.Doi:
10.1126 / science.aba3304
本文的其他作者包括来自德克萨斯大学西南医疗中心的威廉·拉斯; Marteo Weigt,Matteo Figlizhi和SorbonneUniversité的Pierre Barrat-Charlaix; Christian Stocker,Peter Kast,唐纳德Hilvert从Eth苏黎世; Simona Cocco和Remi Monasson来自Laboratoiredemegyique de L'Ecole NormaleSupérieure;和芝加哥大学的迈克尔索索格。
国家卫生学院提供的本研究提供资金,罗伯特A. Welch基金会,芝加哥大学数据和计算中心,德克萨斯大学系统生物中心绿色中心,欧盟H2020研究和创新计划,Agence Nationale de la recherche和瑞士国家科学基金会。