在本周于Arxiv.org上发表的预印本论文中,Nvidia和斯坦福大学的研究人员提出了一种新颖的方法,可以将经过模拟训练的AI模型转移到现实世界的自动机上。它使用细分作为感知和控制之间的接口,从而导致合著者在诸如机器人抓取等工作负载中将其描述为“高度成功”。

在模型训练方面,模拟器比现实世界具有优势,因为它们安全且几乎可以无限扩展。但是将在模拟中学习到的策略推广到现实世界的机器(无论是自动驾驶汽车,机器人还是无人机),都需要进行调整,因为即使最精确的模拟器也无法解决所有干扰。

Nvidia和Stanford的技术有望比以前的方法更有效地弥合仿真与现实环境之间的鸿沟,这是因为它将视觉和控制任务分解为可以单独训练的模型。通过利用所谓的特权信息(模拟和真实环境之间的语义和几何差异)来提高性能,同时又可以将模型重用于其他机器人和场景。

视觉模型在通过将真实环境中拍摄的背景图像与模拟中的前景对象合并而生成的数据上进行训练,然后处理摄像头图像并以分段蒙版的形式从环境中提取感兴趣的对象。(掩码是指示给定像素属于哪个类或实例的函数的产品。)此分割掩码用作控制器模型的输入,该控制器模型使用模仿学习在模拟中进行训练,并直接应用于实际环境中。

如前所述,在涉及真实世界机械臂的实验中,研究人员最初在每次迭代中以1,000帧的语料库训练控制器(大约对应10次抓取尝试),并在模拟对象的图像和真实背景上训练了视觉模型。接下来,他们从机械臂抓住球体的模拟演示中收集了数千张图像,然后将它们与背景结合在一起,并随机化了形状,大小,位置,颜色,光线和相机视点,以获得20,000张训练图像。最后,他们通过从仿真机器人中运行控制器并将轨迹复制到真实环境中收集了来自真实机器人的2140张图像,评估了训练有素的AI模块。

机械臂被赋予250个步骤,以在五个固定位置抓取一个球体,并在每个位置重复抓取五次,从而跨越了用于训练控制器的空间。当没有混乱时,使用视觉模块可以达到88%的成功率。杂物(例如黄色和橙色物体)使机器人在5次试验中有2次失败,但通常可以从失败的抓握尝试中恢复过来。

抓机器人是一个非常困难的挑战。例如,机器人努力执行所谓的“机械搜索”,即当他们不得不从一堆其他对象中识别并拾取一个对象时。大多数机器人不是特别适应性强,并且缺乏足够功能强大的AI模型来指导机械手进行机械搜索。但是,如果这篇最新论文的合著者的主张成立的话,可能会出现更强大的系统。

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如有侵权行为,请第一时间联系我们修改或删除,多谢。