来自麻省理工学院的工程师开发了一种新系统,对于几种常见的大数据应用,应使闪存的服务器与使用传统RAM的速度有效,同时切割成本和功耗。
随机存取存储器或RAM,是计算机喜欢存储所在数据的计算机。处理器可以从来自计算机的磁盘驱动器的速度快速地从RAM迅速检索数据。
但在大数据的时代,数据集通常太大而无法适合单个计算机的RAM。描述单个人类基因组的数据将占用40到100个典型计算机之间的某处的RAM。
闪存 - 大多数便携式设备使用的内存类型 - 可以为大数据应用提供传统RAM的替代方案。这是昂贵的十分之一,它消耗了大约十分之一的力量。
问题是它也是速度的十分之一。但在6月份的计算机架构国际研讨会上,MIT研究人员提出了一种新的系统,即对于几种常见的大数据应用,应使用闪存的服务器与使用传统RAM的闪存一样高效,同时保留其功率和成本节约。
研究人员还提出了实验证据,显示,如果执行分布式计算的服务器必须转到DAME的磁盘,甚至5%的时间,它们的性能就会达到与Flash相当的级别。
换句话说,即使没有研究人员的新技术,用于加速来自闪存的数据检索,具有10个具有10 Tberytes的RAM的40个服务器无法处理10.5-Terabyte计算的任何优于20个具有20 Tberytes的闪存的服务器,这将仅消耗一小部分。
“这不是DRAM [动态RAM]还是这样的替代品,”Johnson of Citor Mit的Johnson教授Arvind说,MIT的教授,他的团队进行了新的工作。“但可能有许多应用程序可以利用这种新的架构风格。哪家公司承认:每个人都对闪光的不同方面进行了实验。我们只是试图在设计空间中建立另一个点。“
加入arvind在新论文上是唱吴俊和明刘,科学研究与工程和联合第一作者的麻省理工学院研究生;他们的毕业生徐涛徐; Sungjin Lee,Arvind群体的博士; Myron King和Jamey Hicks,他们与Arvind的博士学位,并在开发了新系统时是Quanta Computer的研究人员;他们是Quanta,John Ankcorn的同事之一 - 谁也是一个麻省理工学院校友。
外包计算
研究人员能够通过将服务器的少量计算电源和控制闪存驱动器的芯片移动到控制闪存驱动器的芯片,使基于基于服务器的基于服务器的网络网络网络。通过预处理闪存驱动器上的某些数据,然后将其传递回服务器,这些芯片可以使分布式计算更有效。由于预处理算法连接到芯片中,因此它们分配与运行操作系统相关联的计算开销,维护文件系统等。
与他们的一些赞助商 - Quanta,三星和Xilinx作出的硬件 - 研究人员建立了20个服务器的原型网络。每个服务器都连接到现场可编程门阵列,或FPGA,一种可以重新编程以模拟不同类型的电路的芯片。反过来,每个FPGA连接到两个半兆字节 - 或500千兆字节 - 闪存芯片,并将其最接近的两个FPGA连接到服务器机架中。
由于FPGA彼此连接,因此它们创建了一个非常快的网络,允许任何服务器从任何闪存驱动器检索数据。他们还控制了闪存驱动器,这不是一个简单的任务:具有现代商用闪存驱动器的控制器具有多达八个不同的处理器和工作记忆的千兆字节。
最后,FPGA还执行了预处理存储在闪存驱动器上的数据的算法。研究人员测试了三种这样的算法,辅助三个流行的大数据应用。一个是图像搜索,或者尝试在庞大的数据库中查找样本图像的匹配。另一个是谷歌的PageRank算法的实现,它评估了符合相同搜索条件的不同网页的重要性。第三个是一个名为memcached的应用程序,它大,数据库驱动的网站用于存储经常访问的信息。
变色龙群
FPGA大约是第十分之一,与硬连线电路的特性芯片快速,但它们比使用软件执行相同计算的中央处理单元更快。通常,它们用于原型新设计,或者它们用于销售量太小而无法保证制造专用芯片的高成本的利基产品。
但麻省理工学院和Quanta研究人员的设计表明FPGA的新用途:许多申请可以从像研究人员那样这样的加速器受益。由于FPGA是可重编程的,因此可以根据应用程序加载不同的加速器。这可能导致分布式处理系统,这些处理系统失去了微妙的功能,同时提供能源和成本的重大节省。
“许多大数据应用需要实时或快速响应,”首尔国立大学计算机科学与工程教授Jihong Kim说。“对于此类应用程序,BluedBm” - 麻省理工学院和量化研究人员系统 - “是一种吸引人的解决方案。”
相对于简化大数据分析的一些其他建议,“BluedBM的主要优势可能是它可以轻松扩展到具有专门加速支持的大量存储系统,”Kim说。