微软的AI从2D图像生成3D对象

Facebook，Nvidia的AI研究实验室以及Threedy.ai之类的初创公司在各个方面都尝试了2D对象到3D形状转换的挑战。但是，在一份新的预印本论文中，来自Microsoft Research的团队详细介绍了一个框架，他们声称该框架是针对2D数据的3D模型的第一个“可缩放”训练技术。他们说，在仅使用2D图像进行训练时，它可以始终学习比现有模型更好的形状，这对于缺乏从头开始创建3D形状的手段或专业知识的视频游戏开发人员，电子商务企业和动画工作室可能是一个福音。

与以前的工作相反，研究人员试图利用功能齐全的工业渲染器，即从显示数据生成图像的软件。为此，他们训练了3D形状的生成模型，以便渲染形状会生成与2D数据集的分布相匹配的图像。生成器模型采用随机输入向量(代表数据集特征的值)并生成3D对象的连续体素表示(3D空间中网格上的值)。然后，它将体素馈送到不可微分的渲染过程，该过程在使用现成的渲染器(在OpenGL之上构建的Pyrender)进行渲染之前，将其阈值设置为离散值。

在实验中，该团队为发电机采用了3D卷积GAN架构。(GANs是由两部分组成的AI模型，其中包括生成器，这些生成器从使用分布采样的随机噪声中生成合成示例，并将这些示例与来自训练数据集的真实示例一起馈入鉴别器，以尝试区分两者。)从3D模型生成的一系列合成数据集和一个现实生活的数据集，他们合成了来自不同对象类别的图像，并在整个训练过程中从不同的角度对其进行了渲染。

研究人员说，他们的方法利用了图像提供的照明和阴影提示，使其能够从每个训练样本中提取更多有意义的信息，并在这些设置下产生更好的结果。此外，在对自然图像的数据集进行训练时，它能够生成逼真的样本。该论文的合著者写道：“我们的方法……利用表面之间的曝光差异成功地检测出凹形物体的内部结构，从而使其能够准确地捕获凹面和中空空间。”

郑重声明：本文版权归原作者所有，转载文章仅为传播更多信息之目的，如有侵权行为，请第一时间联系我们修改或删除，多谢。