自然语言模型通常必须解决两个难题:将句子前缀映射到固定大小的表示形式,以及使用这些表示形式来预测文本中的下一个单词。在最近的一篇论文中,Facebook AI Research的研究人员断言,第一个问题-映射问题-可能比预测问题更容易,这是他们基于“最近邻居”检索机制来扩充语言模型的假设。他们说,AI它可以记住罕见的模式,并且无需额外的培训即可达到最新的复杂性评分(衡量词汇和语法多样性)。

正如研究人员所解释的那样,语言模型将概率分配给单词序列,以使它们从标记(例如单词)的上下文序列中估计目标标记的分布(发生不同可能结果的概率)。所提出的方法kNN-LM将上下文映射到由预训练的语言模型计算出的定长数学表示形式。给定一个训练示例,定义了一个键值对,其中键是上下文的数学表示,而值是目标单词。

在测试时,kNN-LM获取输入上下文,并在接下来的单词和上下文表示上生成输出分布。它根据距离函数检索最近的邻居,此时它计算邻居上的分布,同时汇总每个词汇项在检索到的目标中所有出现时的概率。

研究人员指出,kNN-LM与产生固定大小的上下文表示的任何语言模型兼容。在这项研究中,这使我们能够在基于Wikipedia文章的1.03亿个令牌组成的数据集上训练基于Transformer的模型,其中25万个令牌保留用于开发和测试。

在实验中,kNN-LM在测试时“显着”优于基线,该团队将其归因于其学习隐含相似性概念的上下文表示功能的倾向。kNN-LM增加了一些计算开销–在单个处理器上花了大约两个小时才能为1.03亿个条目建立缓存,而运行验证集大约需要25分钟。但是该团队指出,并行化模型是“简单的”,并且不需要基于GPU的培训。

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如有侵权行为,请第一时间联系我们修改或删除,多谢。