一种用于分析物料“配方”的新的机器学习系统使用变体自动编码器,它将数据(左侧圆圈)压缩为更紧凑的形式(中心圆圈),然后尝试将其扩展为原始形式(右侧-手圈)。如果对自动编码器进行了成功的训练,那么紧凑的表示形式将捕获数据的最显着特征。图像:切尔西·特纳/麻省理工学院
上个月,麻省理工学院的三位材料科学家及其同事发表了一篇论文,描述了一种新的人工智能系统,该系统可以浏览科学论文并提取用于生产特定类型材料的“配方”。
该工作被视为迈向系统的第一步,该系统可以为仅在理论上描述过的材料制定配方。现在,在《 npj计算材料》杂志上的一篇论文中,这三位材料科学家与麻省理工学院电气工程与计算机科学系(EECS)的一位同事一起,朝着这个方向迈出了一步,采用了一种新的人工智能系统,该系统可以可以识别出在各个配方中保持一致的高级模式。
例如,新系统能够识别材料配方中使用的“前体”化学品与所得产品的晶体结构之间的相关性。事实证明,文献中也记录了相同的相关性。
该系统还依赖于统计方法,这些方法为生成原始配方提供了自然的机制。在本文中,研究人员使用这种机制为已知材料建议了替代配方,并且这些建议与真实配方非常吻合。
新论文的第一作者是材料科学与工程专业的研究生爱德华·金。高级作者是其顾问Elsa Olivetti,材料科学与工程系(DMSE)的大西洋里奇菲尔德能源研究助理教授。DMSE的博士后Kevin Huang和EECS的X-Window联盟职业发展助理教授Stefanie Jegelka参加了会议。
稀疏和稀缺
像过去十年中许多表现最好的人工智能系统一样,麻省理工学院的研究人员的新系统是所谓的神经网络,它通过分析大量的训练数据来学习执行计算任务。传统上,使用神经网络生成材料配方的尝试遇到了两个问题,研究人员将其描述为稀疏性和稀缺性。
材料的任何配方都可以表示为矢量,它实际上是一长串数字。每个数字代表配方的特征,例如特定化学物质的浓度,溶解化学物质的溶剂或发生反应的温度。
由于任何给定的配方仅使用文献中描述的许多化学药品和溶剂中的几种,因此这些数字中的大多数将为零。这就是研究人员所谓的“稀疏”。
同样,要了解修改反应参数(例如化学浓度和温度)如何影响最终产品,理想情况下,系统将在大量示例中对这些参数进行更改,从而对系统进行培训。但是对于某些材料,尤其是较新的材料,文献可能只包含一些配方。那很稀缺。
“人们认为通过机器学习,您需要大量数据,而如果稀疏,则需要更多数据,” Kim说。“当您尝试着眼于非常特定的系统时,虽然您不得不使用高维数据,但又没有太多数据,但您仍然可以使用这些神经机器学习技术吗?”
神经网络通常排列成层,每个层都由数千个简单的处理单元或节点组成。每个节点都连接到上下两层中的几个节点。数据被送入底层,由底层对其进行处理并将其传递给下一层,由底层对其进行处理并将其传递给下一层,依此类推。在训练过程中,节点之间的连接会不断调整,直到最后一层的输出一致地逼近某些计算结果。
稀疏的高维数据的问题在于,对于任何给定的训练示例,底层的大多数节点都不会接收到数据。要确保整个网络看到足够的数据以学习进行可靠的概括,就需要花大量的时间来训练。
人工瓶颈
麻省理工学院研究人员网络的目的是将输入向量提炼成更小的向量,其所有数字对于每个输入都有意义。为此,网络具有一个中间层,其中只有几个节点,在某些实验中只有两个。
培训的目的只是简单地对网络进行配置,以使其输出尽可能接近其输入。如果训练成功,则中间层中的少数几个节点必须以某种方式表示输入向量中包含的大多数信息,但要采用压缩得多的形式。输出试图与输入匹配的此类系统称为“自动编码器”。
自动编码可以弥补稀疏性,但是为了处理稀缺性,研究人员不仅在生产特殊材料的配方上,而且还在生产非常相似的材料的配方上训练了他们的网络。他们使用了三种相似性度量,其中一种旨在最小化材料之间的差异数量(例如,仅将一个原子替换为另一个原子),同时保留晶体结构。
在训练期间,网络给出示例食谱的权重根据它们的相似性分数而变化。
玩赔率
实际上,研究人员的网络不仅是自动编码器,而且是变体自动编码器。这意味着在训练期间,不仅要评估网络的输出与输入的匹配程度,还要评估中间层获取的值与某些统计模型(例如,熟悉的钟形曲线或正态分布)的匹配程度。也就是说,在整个训练集中,中间层采用的值应围绕一个中心值聚类,然后在各个方向上以规则的速率逐渐减小。
在对二氧化锰和相关化合物的配方进行了两节点中间层的变型自动编码器训练之后,研究人员构建了一个二维地图,描绘了训练集中每个示例中两个中间节点所采用的值。
值得注意的是,使用相同前体化学品的训练示例粘贴到地图的相同区域,区域之间具有清晰的边界。训练示例也是如此,产生了四氧化二锰的常见“多晶型物”或晶体结构。并且将这两个映射结合起来表明特定的前驱物和特定的晶体结构之间的相关性。
Olivetti说:“我们认为这些地区是连续的,这很酷,因为没有理由认为这一定是正确的。”
可变自动编码也是使研究人员的系统能够生成新配方的原因。由于中间层采用的值遵循概率分布,因此从该分布中随机选择一个值可能会产生合理的方案。
Jegelka说:“这实际上涉及了当前在机器学习中非常感兴趣的各种主题。”“学习结构化对象,允许专家进行解释和与之交互,并生成结构化的复杂数据-我们将所有这些集成在一起。”
Citrine Informatics的创始人兼首席科学家Bryce Meredig说:““可综合性”是材料科学的核心概念的示例,但缺乏基于物理学的良好描述,该公司引入了大数据和人工智能技术从事材料科学研究。“因此,由于无法预测材料的综合使用,新材料的计算屏幕已受阻多年。Olivetti及其同事采用了一种新颖的,数据驱动的方法来绘制材料合成图,并为使我们能够通过计算识别不仅具有令人兴奋的特性而且可以在实验室中实际制造的材料做出了重要贡献。”
该研究得到了美国国家科学基金会,加拿大自然科学与工程研究委员会,美国海军研究办公室,麻省理工学院能源计划以及美国能源部基本能源科学计划的支持。
出版物:Edward Kim等,“通过深度学习对无机材料合成参数进行虚拟筛选”,npj计算材料3,文章编号:53(2017)doi:10.1038 / s41524-017-0055-6