Plan2Explore无需微调即可适应勘探任务
在本周于预印本服务器Arxiv.org上发表的一篇论文中,与Google,微软,Facebook,卡耐基梅隆大学,多伦多大学,宾夕法尼亚大学和加利福尼亚大学伯克利分校相关的研究人员提出了Plan2Explore计划,这是一种自我监督的计划。利用计划来解决以前未知的目标的AI。研究人员声称,在训练过程中无需人工监督,即使在没有任何特定任务交互的情况下,它也能胜过先前的方法。
像Plan2Explore这样的自我监督学习算法通过暴露数据各部分之间的关系从数据生成标签,这不同于在专家注释的数据集上进行训练的监督学习算法。他们观察世界并与之互动,主要是通过与测试无关的方式进行观察,就像动物可能会观察到的那样。图灵奖的获得者Yoshua Bengio和Yann LeCun认为自我监督是人类级智能的关键,而Plan2Explore将其付诸实践-它学会完成新任务,而无需专门培训这些任务。
Plan2Explore探索环境并将其经验总结为一个表示形式,该表示形式可以并行预测数千个场景。(一个场景描述了如果代理执行一系列动作,例如,左转进入走廊然后越过房间,将会发生什么情况。)给定这个世界模型,Plan2Explore使用DeepMind设计的Dreamer从中衍生行为。通过预先计划行动的长期结果来预先计划行动的算法。然后,Plan2Explore接收奖励函数(这些函数描述AI的行为方式),以使用零或很少的特定于任务的交互来适应多种任务,例如站立,行走和跑步。
为了确保其计算效率,Plan2Explore量化了其各种预测的不确定性。这鼓励系统在具有高不确定性的环境中寻找区域和轨迹,然后使用Plan2Explore训练该区域和轨迹以减少预测不确定性。重复此过程,以便Plan2Explore从其本身预测的轨迹进行优化。
在AI代理的模拟性能基准DeepMind Control Suite内的实验中,研究人员说Plan2Explore无需使用特定于目标的信息即可实现目标-即仅使用自我监督的世界模型,而无需与外界进行任何新的交互世界。与以前的领先勘探策略相比,Plan2Explore的性能也更好,有时它是唯一成功的无监督方法。它证明了其世界模型可以在同一环境中转移到多个任务。在一个示例中,一种类似猎豹的特工向后跑,向前翻转和向后翻转。
“强化学习可以解决复杂的任务;然而,学习往往是针对特定任务的,并且采样效率仍然是一个挑战。”合著者写道。“通过提出一种可以以可扩展且数据高效的方式学习许多不同任务的有效行为的方法,我们希望这项工作构成了构建可扩展的现实世界强化学习系统的一步。”
GitHub上提供了Plan2Explore的代码。