美国军队研究导致机器人更有效的培训模式

新的军队研究减少了当前培训加固学习政策的不可预测性，以便更实际适用于物理系统，尤其是磨碎机器人。这些学习组件将允许自治工人来推理和适应改变战地条件。

多域操作，军队的未来的经营理念，需要具有学习组件的自治代理，与战士一起运营。新的军队研究减少了当前培训加固学习政策的不可预测性，以便更实际适用于物理系统，尤其是磨碎机器人。

这些学习组成部分将允许自治代理人来推理和适应改变战地条件，即美国军队战斗能力发展指挥，现称为Devcom，陆军研究实验室。

潜在的适应和重新计划机制包括加强基于学习的政策。他说，有效地获得这些策略，可以获得MDO运行概念的现实至关重要。

根据Koppel的说法，加强学习中的政策梯度方法是可扩展空间的可扩展算法的基础，但现有技术不能包含更广泛的决策目标，例如风险敏感性，安全限制，探索和义务。

Koppel说，当钢琴学习是复杂的，可以通过强化学习来解决动态和目标之间的关系，这些行为是复杂的，这些行为可以通过增强学习来解决以前的难以解决的任务，例如atari和星际争霸II等策略游戏等策略游戏。

他说，盛行的实践需要，要求天文样本复杂性，例如千年的模拟游戏玩法。该样本复杂性使许多常见的培训机制不适用于下一代战斗车辆或NGCV所需的MDO背景所需的数据匮乏的设置。

“为了促进MDO和NGCV的加强学习，培训机制必须提高连续空间的样品效率和可靠性，”Koppel说。“通过现有政策的概括对一般公用事业公司来说，我们迈出了促进强化学习中现有实践的现有样本效率障碍。”

Koppel和他的研究团队为一般公用事业制定了新的政策搜索计划，其样本复杂性也建立。他们观察到所产生的政策搜索方案降低了奖励积累的波动，从而产生了对未知领域的有效探索以及纳入先前经验的机制。

“这项研究有助于增强加强学习中的经典政策梯度定理，”Koppel说。“它提出了一般实用程序的新政策搜索方案，其样本复杂性也建立。这些创新对美国军队产生了影响，通过他们的强化学习目标，超出标准累计回报，例如风险敏感，安全限制，探索和前往先前的恐惧。“

值得注意的是，在地面机器人的背景下，他说，获得的数据昂贵。

“减少奖励积累的波动，确保一个以有效的方式探索未知领域，或者将先前的经验结合，所有这些都有助于通过减轻需要的随机抽样量来打破加强学习中的现行实践的现有样品效率障碍。 “完全的政策优化”，“Koppel说。

这项研究的未来非常明亮，Koppel致力努力使他的调查结果适用于战场上士兵的创新技术。

“我很乐观地，加固的装备自治机器人将能够协助战士在探索，侦察和对未来战场的风险评估中，”Koppel说。“这一愿景是一个现实，对于激励我努力的研究问题是必不可少的。”

本研究的下一步是将钢筋学习中的一般实用程序中的更广泛的决策目标纳入多种子体环境，并调查加强学习代理之间的交互式设置如何在团队中产生协同和拮抗的推理。

根据Koppel的说法，这项研究结果的技术将在团队情景的不确定性下有能力推理。

参考; “与普通公用事业的增强学习变分政策梯度方法”由朱宇张，亚历克·科普尔，Amrit Singh Bedi，Csaba Szepesvari和Mengdi Wang，Neurips诉讼.Link

该研究与普林斯顿大学，艾伯塔大学和谷歌深度大学进行了合作，是在神经潜水领域2020年的聚光灯讨论，其中一个首映会议之一，促进了神经信息处理系统研究中的生物，技术，数学和理论方面的研究。