Amazon利用AI将文字描述转成图片以强化产品探索能力
Amazon利用生成对抗网路(Generative Adversarial Networks,GAN)依据文字产品描述,来产生相匹配的产品范例,让购物者可以依视觉指引,逐渐修正文字查询,直到能够检索出正在寻找的产品为止。
Amazon提到,生成对抗网路能够良好地处理图像合成任务。生成对抗网路由两个网路组成,一个为生成网路,目标是尽可能的产生仿真的虚假样本,而另一个为判别网路,试图辨识出生成网路所产生的虚假样本,并区分出真实样本,这两个网路一起训练,之间的竞争可收敛在一个有用的生成模型上。
将生成对抗网路用在Amazon的这个案例上,可让购买者更简单地探索出想像中的服装,像是购物者可用文字描述「女性的黑色长裤」搜寻长裤商品,并且根据搜寻出来的结果,后续添加「娇小」和「卡普里裤」等特征,系统根据新的单词调整显示的图片。Amazon这个系统特别之处,在于添加新特征后还能够保留旧视觉特征,并产生与文字描述相符的颜色。
Amazon应用的新方法称为ReStGAN,是修改自常用的文字转图像生成对抗网路StackGAN模型。StackGAN将合成图像简化成两部分,其一是从文字产生低解析度的图像,接着在图像上进行采样,以进一步产生具有材质和自然色彩的高解析度图像。这两个程序各有其生成对抗网路,将两个生成对抗网路堆叠在一起就成了StackGAN。
而Amazon在StackGAN增加了长短期记忆(Long Short-Term Memory,LSTM)元件,长短期记忆是一款依序处理序列输入的神经网路,Amazon提到,将长短期记忆与生成对抗网路一起训练,这个网路将可随着相继输入的单词,逐渐修改图像。由于LSTM是一种时间循环神经网络(Recurrent Neural Network,RNN),因此新网路名称为递回StackGAN,缩写为ReStGAN。
由于从文字叙述合成图像这项任务仍然非常困难,为了降低复杂度,Amazon将应用限缩在长裤、牛仔裤和短裤三种类似的产品,并且标准化用于训练模型的图像,除了移除背景之外,也进行剪裁和调整大小,使其比例与形状都相同。
新模型的训练大多使用无监督式学习,也就是训练资料主要由产品名称和经标准化的图片组成,没有任何的人工注解,不过为了提高系统的稳定度,Amazon使用了辅助分类器,根据裤子类型、颜色以及适合的性别三个属性进行分类。
在颜色合成上,Amazon提到,传统单词嵌入将颜色名词分在同一群,但是并没有结合人类感知经验,因此Amazon开发了新方法对颜色编码,他们在LAB色彩空间中对颜色进行分组,这个色彩空间的特性,是颜色点之间的距离,与人类感知到的颜色差异相符。Amazon利用分组的颜色建立查询表格,将视觉相似的颜色,对应到文字描述相同的特征中,而建立颜色查询表格附带的好处是,模型更能够合成出具自然颜色的图像。
Amazon以可辨识度和多样性作为指标,计算类型、颜色以及性别三个属性的分数,以比较ReStGAN和StackGAN模型,在类型和性别上,前者比后者分数提高了22%和27%,而颜色分数则改进100%,Amazon提到,这代表使用新的颜色模型效果明显。