在预印本纸,DeepMind描述的新的强化学习技术,在一个潜在的新而强大的方式模型的人类行为。与以前发布的版本相比,它可能导致功能更强大的AI决策系统,这对于希望通过工作场所自动化提高生产力的企业来说是福音。

在“学习解决多人零和游戏中的联盟困境”中,DeepMind(Alphabet的研究部门,其工作主要涉及强化学习),这是AI领域,与软件代理应如何采取行动以最大程度地获得回报有关。一种具有点对点合同机制的经济竞争模型,该模型可以在多人游戏中发现并执行代理商之间的联盟。共同作者说,这种联盟形式赋予的优势是,如果代理商单独行动,这种优势就不会存在。

该论文的撰稿人说:“零和游戏长期以来一直指导着人工智能研究,因为它们既具有最佳响应的丰富策略空间,又具有清晰的评估指标,”“此外,竞争是许多能够产生智能创新的现实世界多代理系统中的重要机制:达尔文进化论,市场经济和AlphaZero算法,仅举几例。”

DeepMind科学家首先试图从数学上定义结盟的挑战,重点是在多人零和游戏中结盟的形成-也就是说,数学表示每个参与者效用的获得或损失与损失或损失完全平衡的情况。获得其他参与者的效用。他们研究了对称的零和多人游戏(所有参与者都具有相同的行为并根据每个人的行为得到对称的收益的游戏),他们试图提供经验结果,表明联盟的形成通常会产生社会困境,因此需要在合作伙伴之间进行适应玩家。

正如研究人员所指出的,零和多人游戏引入了动态的团队形成和分手的问题。新兴团队必须在自己内部进行协调,以有效参与比赛,就像在足球比赛中一样。团队形成的过程本身可能是一个社会难题,从直觉上讲,玩家应该组建联盟以击败他人,但是加入联盟要求个人为更广泛的利益做出贡献,而这与他们的个人利益并不完全一致。此外,必须决定要加入和退出哪些团队,以及如何制定这些团队的战略。

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如有侵权行为,请第一时间联系我们修改或删除,多谢。