来自麻省理工学院的工程师设计了一个新的芯片来实现神经网络。它是作为移动GPU有效的10倍,因此它可以使移动设备能够在本地运行强大的人工智能算法,而不是将数据上传到互联网进行处理。
近年来,人工智能的一些最令人兴奋的进步是对卷积神经网络的礼貌,简单信息处理单元的大虚拟网络,这在人类大脑的解剖结构上松散地建模。
神经网络通常使用与屏幕的所有计算设备中找到的图形处理单元(GPU)实现,专用图形芯片实现。手机中发现的类型的移动GPU可能具有近200个核心或处理单元,使其适合模拟分布式处理器的网络。
本周在旧金山的国际固态电路会议上,麻省理工学院研究人员介绍了一个专门用于实施神经网络的新芯片。它是作为移动GPU有效的10倍,因此它可以使移动设备能够在本地运行强大的人工智能算法,而不是将数据上传到互联网进行处理。
神经网在人工智能研究的早期广泛研究,但到了20世纪70年代,他们已经失望了。然而,在过去十年中,他们在名称“深度学习”下,他们享受了复兴。
“深度学习对于许多应用程序,例如对象识别,语音,面部检测”,MIT的电气工程系和计算机科学系的Emanuel E. Landsman职业发展助理教授Vivienne Sze表示,其集团开发了新芯片。“现在,网络非常复杂,主要在高功率GPU上运行。您可以想象,如果您可以将该功能带到手机或嵌入式设备,即使您没有Wi-Fi连接,您仍然可以运行。您可能还想在本地处理隐私原因。在手机上处理它也避免了任何传输延迟,以便您可以对某些应用程序进行更快的反应。“
研究人员称之为“eyeriss”的新芯片也可以帮助迎来“东西互联网” - 车辆,电器,土木工程结构,制造设备,甚至牲畜的想法将有直接报告信息的传感器网络服务器,辅助维护和任务协调。通过船上强大的人工智能算法,网络设备可以在本地作出重要决策,仅委托他们的结论,而不是原始的个人数据到互联网。当然,车载神经网络对电池供电的自主机器人有用。
分工
通常将神经网络组织成层,并且每个层包含大量处理节点。数据进入并在底层中的节点之间进行。每个节点操纵它接收的数据并将结果传递到下一层中的节点,该节点在下层中操作它们接收的数据并传递结果,等等。最终层的输出产生了一些计算问题的解决方案。
在卷积神经网络中,每个层中的许多节点以不同的方式处理相同的数据。因此,网络可以膨胀到巨大的比例。虽然它们在许多可视化处理任务上优于更常规的算法,但它们需要更大的计算资源。
神经网络中的每个节点执行的特定操纵是训练过程的结果,其中网络试图通过人类注释器应用于应用于它的原始数据和标签之间的相关性。对于像麻省理工学院研究人员开发的芯片,可以简单地将培训的网络出口到移动设备。
此应用程序对研究人员施加了设计限制。一方面,降低芯片功耗并提高其效率的方式是使每个处理单元尽可能简单;另一方面,该芯片必须足够灵活,以实现针对不同任务的不同类型的网络。
SZE和她的同事 - 电气工程与计算机科学研究生和会议论文的第一作者;乔尔·埃默是麻省理工学院电气工程系和计算机科学系的实践教授,以及芯片制造商NVIDIA的高级杰出研究科学家,以及该项目的两个主要调查人员之一;和Tushar Krishna,谁是与新加坡麻省理工学院的研究和技术联盟的博士,现在是乔治亚州科技计算机与电气工程助理教授 - 在一个带168个核心的芯片上定居,大致很多移动GPU有。
在本地行事
Eyeriss效率的关键是最大限度地减少核心需要与遥远的内存库交换数据的频率,这是消耗很多时间和能量的操作。虽然GPU中的许多核心共享单个大型内存库,但每个eyeriss核心都有自己的记忆。此外,该芯片在将数据发送到inpidual核心之前,该芯片具有压缩数据的电路。
每个核心也能够直接与其立即邻居进行通信,以便如果他们需要共享数据,它们不必通过主内存路由。这在卷积神经网络中是必不可少的,其中许多节点正在处理相同的数据。
芯片效率的最终关键是专用电路,可分配跨核心的任务。在其本地内存中,核心不仅需要存储由节点操纵的数据,它正在模拟但是描述节点本身的数据。分配电路可以重新计算不同类型的网络,以便在从主存储器中获取更多数据之前,以最大化它们中的工作量最大化的方式在核心中自动分发两种类型的数据。
在会议上,MIT研究人员使用Eyeriss来实现执行图像识别任务的神经网络,首次在定制芯片上演示了最先进的神经网络。
“这项工作非常重要,展示了深度学习的嵌入式处理器如何提供能量和性能优化,这些优化将从云到移动设备中带来这些复杂的计算,”三星的移动处理器创新实验室高级副总裁Mike Polley说。“除硬件考虑外,麻省理工学院还仔细考虑如何通过支持行业标准的[网络架构] AlexNet和Caffe来使嵌入式核心有用。
麻省理工学院研究人员的工作部分由DARPA提供资金。