Facebook的人工智能令人信服地在照片中插入人物
在上周发表在预印服务器Arxiv.org上的一篇论文中,Facebook人工智能研究中心(AI Research)和特拉维夫大学(Tel Aviv University)的科学家们提出了一种新技术,可以将人以逼真、高分辨率的方式插入现有的图像中。这项技术利用了人工智能技术,人工智能可以创建一个人的语义地图,并在给定的图片中估计其他人的姿势,然后渲染人的像素并生成与目标人物相匹配的人脸。
虽然将人插入框架中似乎不是人工智能最实际的应用,但它可能会给创意产业带来福音,因为在这些产业中,照片和电影的重拍往往成本高昂。例如,使用这个新提出的人工智能系统,摄影师可以数字化地插入一个演员,而无需花费数小时在图像编辑软件中实现正确的效果。
研究人员采用了三个模型:
一种本质生成网络(EGN),它综合了目标人物在新图像中的语义姿态信息。
一种多条件呈现网络(MCRN),在给定语义位姿图和分段目标人物的情况下,呈现真实人物。
人脸细化网络(FRN),用于修饰生成的人脸的高级功能。
EGN被训练来捕捉人类在图像中的互动,并想出一个连贯的方法让一个新的人加入到图像中。它创建的语义地图以一种与现有的人的背景相兼容的方式来表示背景、头发、脸、躯干、上肢、上半身、下半身、下肢和鞋子。可选地,它支持使用包围框(临时大纲)来指定新用户的大致大小和位置。
至于MCRN,它学会了渲染和混合一个现实的人到一个图像中,以创建一个新的图像,嵌入目标人的外观属性(例如,衬衫,裤子和头发颜色),以这种方式,他们可以定制。然后,FRN对从原始图像中获得的新面孔进行微调。
在实验过程中,合作作者从开源多人类解析数据集中随机选择了超过20,000张图像,对EGN和MCRN进行了训练,这些图像被翻译成51,717到53,598个训练样本。当人类志愿者被要求将人工智能系统插入的人和其他照片中的人区分开来时,他们这样做的平均时间是43%,而在包含五个人的照片中,这一比例仅为28%。
两位作者承认,他们的方法有局限性,即不能产生在照片中把其他人遮挡起来的人,也不适合针对人和他们的属性。(后者的结果是头发和目标人物的发型不一样,而且对人物在场景中的秩序缺乏控制。)但是他们相信通过改进训练技术可以克服这些问题。
“从总体上看,我们展示了修改图像的能力,坚持场景的语义,同时保持整体图像质量,”合著者写道。“我们展示了将目标人物添加到现有图像的令人信服的能力。”
Facebook团队的工作建立在一个由谷歌提出的人工智能系统的基础上,该系统可以真实地将物体(如汽车和行人)插入到照片中,部分模型试图预测物体的遮挡、尺度、姿势、形状,以及目标位置的更多信息。与此同时,麻省理工学院的研究人员开发了一种图像编辑人工智能,可以取代任何图像中的背景。