机器人正在开发自动机器人,可以通过观察人类来学习新任务。在家里,你可能有一天展示国内机器人如何做例行琐事。
培训互动机器人可能会为每个人提供一天,即使是那些没有编程专业知识的人也是一个轻松的工作。机器人正在开发自动机器人,可以通过观察人类来学习新任务。在家里,你可能有一天展示国内机器人如何做例行琐事。在工作场所,您可以像新员工那样训练机器人,向他们展示如何执行许多职责。
麻省理工学院研究人员正在进行进展,设计了一个系统,让这些类型的机器人学习复杂的任务,否则将以太多的令人困惑的规则而言。一个这样的任务是在某些条件下设置一个餐桌。
在其核心,研究人员“规划不确定规范”(双关语)系统为机器人提供了人类的规划能力,同时称重许多模糊性 - 和潜在的矛盾 - 达到最终目标的要求。在这样做时,系统总是选择最有可能的行动,以“信仰”是关于它应该执行的任务的一些可能规范的“信念”。
在他们的工作中,研究人员编制了一个数据集,其中包含有关八个物体的信息 - 杯子,玻璃,勺子,叉子,刀,餐盘,小板和碗 - 可以放在各种配置的桌子上。一个机器人臂首先观察随机选择与物体的表格的人类演示。然后,研究人员任务任务在现实世界实验和模拟中自动设置特定配置的表格,基于它所看到的。
为了成功,机器人必须权衡许多可能的放置排序,即使物品被故意删除,堆叠或隐藏。通常,所有这些都会混淆机器人。但研究人员的机器人在几个现实世界的实验中没有犯错误,而且只有几千次模拟试验的错误。
“愿景是将编程放在域专家的手中,他们可以通过直观的方式编制机器人,而不是将订单描述为工程师添加到他们的代码,”航空部门的研究生第一个作者Ankit Shah说和宇航员(Aeroastro)和互动机器人集团强调他们的工作只是实现这一愿景的一步。“那种方式,机器人不必再执行预编程任务了。工厂工人可以教授机器人做多个复杂的装配任务。国内机器人可以学习如何堆叠橱柜,装载洗碗机,或从家里的人们设置桌子。“
Joining Shah论文是AeroAstro和互动机器人集团研究生沉丽和互动机器人集团领袖朱莉·沙赫,驻航空公司和计算机科学和人工智能实验室。
机器人对冲下注
机器人是有关任务的优质规划者,具有清晰的“规格”,帮助描述机器人需要满足的任务,考虑其行为,环境和最终目标。学习通过观察演示设置桌子,充满了不确定的规格。项目必须放在某些景点中,具体取决于菜单,客人坐在哪里,并且在某些订单中,根据项目的即时可用性或社会惯例。目前计划的方法无法处理此类不确定的规范。
一种流行的规划方法是“加强学习”,试验和错误的机器学习技术,以便在完成任务时奖励并惩罚他们的行动。但对于具有不确定规范的任务,难以确定明确的奖励和处罚。简而言之,机器人从未完全从错误中学习。
研究人员的系统,称为双关语(用于规划不确定规范),使机器人能够在一系列可能的规格中保持“信念”。然后,信仰本身可以用来释放奖励和处罚。“机器人在任务中的意图方面基本上是对其押注的,并采取了满足其信仰的行动,而不是我们给予它明确的规格,”安卡特·莎娜说。
该系统建立在“线性时间逻辑”(LTL)上,这是一种表现性语言,可实现关于当前和未来结果的机器人推理。研究人员在LTL中定义了模板,该模板模拟了各种基于时间的条件,例如现在必须发生的事情,必须最终发生,并且必须发生直到其他内容发生。机器人对设置表的30人类示范的观察结果产生了超过25种不同的LTL公式的概率分布。每个公式编码略有不同的偏好 - 或规范 - 用于设置表。概率分布成为它的信念。
“每个公式都会编码不同的东西,但是当机器人考虑所有模板的各种组合时,并试图在一起满足所有模板,最终最终会做正确的事情,”Ankit Shah说。
遵循标准
研究人员还开发了几个标准,指导机器人对满足这些候选公式的整个信念。例如,一个满足最可能的公式,其中丢弃与最高概率的模板分开的其他一切。其他人满足最大数量的独特公式,而不考虑其总体概率,或者他们满足几种代表最高概率的公式。另一个只需最小化错误,因此系统忽略了具有高概率的公式。
设计人员可以在培训和测试之前选择四个标准中的任何一个预设。每个都有自己的灵活性和风险厌恶之间的权衡。标准的选择完全取决于任务。例如,在安全关键情况下,设计人员可以选择限制失败的可能性。但是,在失败的后果不那么严重时,设计人员可以选择使机器人能够更大的灵活性来尝试不同的方法。
通过标准到位,研究人员开发了一种转换机器人信念的算法 - 指向所需公式的概率分布 - 进入等同的加强学习问题。此模型将为机器人Ping为其需要的奖励或惩罚,它基于它决定遵循的规范。
在模拟中,要求机器人以不同的配置设置表格,它只取得了20,000次尝试的六个错误。在现实世界的示范中,它显示出类似于人类如何执行任务的行为。例如,如果一个项目没有最初可见,则机器人将完成在没有项目的情况下设置表的其余部分。然后,当叉子被揭示时,它会在适当的地方设置叉子。“那就是灵活性非常重要,”安卡特·莎娜说。“否则它会在预计下叉而没有完成剩下的表设置时会陷入困境。”
接下来,研究人员希望修改系统以帮助机器人根据口头指令,更正或用户对机器人性能的评估来改变他们的行为。“说一个人演示了机器人,如何在一个地方设置一张表。这个人可能会说,'对所有其他地方做同样的事情',或者,'在这里叉之前放在叉子之前,'“ankit shah说。“我们希望开发系统的方法,以自然适应处理那些口头命令,而无需其他演示。”
参考:
“规划不确定的规格(双关语)”by)Ankit Shah,Shen Li和Julie Shah,2020年2月28日,IEEE.DOI:
10.1109 / LRA.202020.2977217
“贝叶斯审视时间任务规范”由Ankit Shah,Pritish Kamath,Julie A. Shah和Shen Li,神经信息处理系统的进步(NIPS 2018),NIPS课程。β