由Facebook AI Research的科学家合着的预印本论文描述了奖励影响驱动探索(RIDE),这是一种内在的奖励方法,旨在鼓励AI驱动的代理在环境中采取行动。研究人员说,它在程序产生的世界中,在艰苦的探索任务上的表现超过了最新技术,这表明它可能成为经常在新环境中导航的机器人吸尘器等设备的候选者。

正如研究人员所解释的那样,强化学习的目的是促使人员通过奖励系统完成任务,通过反复试验学会在新环境中采取行动。但是,许多感兴趣的环境(尤其是那些更接近实际问题的环境)无法为代理商提供稳定的学习奖励,因此需要很多情节才能使代理商获得奖励。

然后,研究人员提出的解决方案-RIDE-促使代理商尝试对环境产生重大影响的行动。

小组通过开源工具MiniGrid在程序生成的环境中评估了RIDE,该环境中的世界是部分可观察的网格,并且网格中的每个图块最多包含一个离散颜色的对象(墙壁,门,钥匙,球,盒子,或目标)。另外,他们在VizDoom(基于Doom的AI研究平台,用于强化学习)中导航级别上为其分配了任务。尽管VizDoom在外观上比MiniGrid复杂,但它们都是具有挑战性的领域,因为从外部奖励中随机绊倒的可能性极低。

研究人员报告说,与基线算法相比,RIDE认为某些状态即使经过长时间的训练,过去看到相似的状态或学会几乎完全预测一个子状态中的下一个状态,也可以认为是“新颖”或“令人惊讶”。环境。结果,它的内在报酬在训练过程中不会减少,特工设法将导致新的或令人惊讶的状态的行为与没有导致新的或令人惊讶的状态的行为区分开,避免陷入某些状态空间。

该研究的合著者写道:“ RIDE具有许多理想的特性。”“它可以将特工吸引到可能影响环境的州,即使经过长时间的培训也可以向特工提供信号,它在概念上很简单,并且与其他内在或外在奖励以及任何深层的[强化学习]算法兼容…此外,RIDE比其他探索方法更有效地探索程序生成的环境。”

他们将通过使用符号信息来衡量代理的影响或考虑代理行为的长期影响,来着手改善RIDE的未来工作。他们还希望研究能够区分期望的和不期望的影响类型,有效地约束代理安全行事并避免分散注意力的算法。

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如有侵权行为,请第一时间联系我们修改或删除,多谢。