新加坡南洋理工大学的一组研究人员声称,深度强化学习(DRL)算法(用于预测蛋白质形状并教机器人抓取物体的算法)很容易受到对抗性攻击,从而可以提取和复制蛋白质,从而实现恶意行为者“窃取”他们。在预印本论文中,合著者描述了一种针对输入和操作未公开的黑匣子模型的技术,该技术据称可以恢复“ [非常]高保真度”的DRL模型。

DRL能够处理复杂任务和环境互动,因此获得了部分收益。它结合了深度学习架构和强化学习算法,以构建复杂的策略,从而可以了解环境的上下文(状态)并做出最佳决策(动作)。但是,随着DRL越来越多地进入诸如Mobileye和Wayve的高级驾驶员辅助系统之类的商业化产品,它有可能成为旨在进行IP盗窃或潜在有害逆向工程的对手的目标。

研究人员的方法假设目标DRL的领域(即模型正在执行的任务,上下文以及输入和输出的格式)有所了解,并且攻击者可以设置环境状态并观察DRL模型的相应动作。他们的攻击分为两个阶段:

分类器根据其动作序列预测给定黑盒DRL模型的训练算法。

通过提取的算法,模仿学习方法可以生成和微调具有与目标相似行为的模型。

首先,在基于算法的大量“影子” DRL模型上训练分类器。分类器利用包括所有正在考虑的所有算法的多样化池,在多个环境中为每种算法训练DRL模型并评估其性能。然后,它收集性能最佳的模型的状态动作序列,并生成样本(以序列为特征,训练算法为标签),并将提取的模型传递到第二阶段进行细化。

第二阶段(模仿学习阶段)采用GAIL,这是一种无模型的学习算法,可模仿大规模和高维度环境中的复杂行为。构造了两个模型在模拟过程中相互竞争:具有提取算法的生成性DRL模型和判别模型。生成模型会根据反馈迭代地优化其参数,直到无法将生成的数据与目标模型区分开为止,此过程会重复进行,直到获得性能与目标模型相似的模型为止。

在实验中,研究人员将他们的方法应用于OpenAI的Gym软件中的两个流行基准测试:Cart-Pole和Atari Pong。对于每种环境,他们选择了50个训练有素的模型,从而产生了250个训练有素的DRL模型,产生了12,500个动作序列。

他们发现分类器以相对较高的置信度来区分每种算法的DRL模型,范围从54%(在Cart-Pole中)到100%(在Atari Pong中)。至于模仿学习阶段,它设法使用与目标模型具有相似性能的相同算法来复制模型,尤其是在Cart-Pole中。研究人员写道:“当复制的模型具有与目标模型相同的训练算法时,[攻击]成功率会增加。”“我们希望这项研究能够激发人们对DRL模型隐私问题严​​重性的认识,并提出更好的解决方案来减轻此类模型攻击。”

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如有侵权行为,请第一时间联系我们修改或删除,多谢。