在Arxiv.org上发布的预印本中,亚马逊,卡内基梅隆大学和德克萨斯大学奥斯汀分校的研究人员描述了X-Transformer,这是一种调整语言算法以解决从大数据集返回标签问题的方法。他们说,它在多个基准以及亚马逊的产品查询数据集上均达到了最新的结果。

X-Transformer针对研究人员所谓的“极端”多标签文本分类(XMC):给定输入文本实例,它会尝试从集合中返回最相关的标签,其中标签的数量可能在数百万(或更多)中)。XMC本质上是工业规模上的文本分类挑战,除了缺乏训练数据外,这一挑战还需要克服硬件限制。

“亚马逊面临的许多难题都相当于从巨大的潜在候选人输出空间中找到相关的结果:例如,向在亚马逊上开始新广告系列的广告客户建议关键字,根据客户之前键入的查询来预测客户接下来要键入的查询,共同作者写道。“关键字推荐系统为广告客户提供了创建广告系列的关键字建议……XMC模型在接受产品查询数据集(例如产品查询客户购买记录)的训练后,可以利用产品信息来建议与任何给定产品相关的查询,例如标题,说明或[或]品牌。”

X-Transformer建立在Google现有的Transformer架构上,由语义标签索引组件,深度神经匹配组件和整体排名组件组成。语义标签索引通过称为标签聚类的过程将原始XMC问题分解为一组子问题。接下来,深度神经匹配组件针对每个SLI引发的XMC子问题微调Transformer模型。然后,使用集成排名组件将各个子问题的得分组合起来,从理论上进一步提高绩效。

在实验中,研究人员声称,提出的X-Transformer在四个XMC基准上获得了最新的技术成果,并导致了对真假XMC应用程序的改进。

例如,在具有50万个标签的Wikipedia数据集上,X-Transformer的“ prec @ 1”(一种指标,表明排名最高的文档的相关程度)为77.28%,相对于完善的分层标签树方法Parabel(达到68.70%)和竞争的机器学习方法AttentionXML(76.95%)。当将内部数据集Prod2Query-1M应用于Prod2Query-1M时,该数据集由Amazon.com上的1400万种产品和100万个标签(查询)组成,与Parabel相比,相对改进了10.7%。

X-Transformer数据集,代码和模型可从GitHub上的开源代码中获得。

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如有侵权行为,请第一时间联系我们修改或删除,多谢。