《纽约时报》的新闻特刊肯定会与一般的Reddit帖子具有不同的语调。确实,写作风格和语法结构的多样性使得自动文本摘要的任务具有很高的挑战性。这就是为什么来自匹兹堡和Microsoft研究人员的未来社会经验(FUSE)实验室的研究人员专注于实时和丰富媒体经验的原因,开发出了一个AI系统,该系统密切关注摘要文档的开头。该团队表示,这种方法提高了实验性能,尤其是在Web论坛内容以及更通用形式的文本数据的情况下。

这项研究是在Microsoft Research研究发布之后进行的,该研究详细介绍了能够推理“弱结构”文本中的关系的“灵活” AI系统。共同作者声称,在一系列文本摘要任务上,它的性能可能优于传统自然语言处理模型。

正如研究人员所指出的那样,论坛讨论线程通常以寻求知识或帮助的帖子或评论开头,随后的评论倾向于通过提供其他信息或意见来响应原始帖子。通常,此初始文本包含重要的主题信息,可能对总结有用。

拟议的AI受益于原始帖子和回复之间的这种依赖关系,但它也试图剔除无关或表面的回复,以确保它们不会降低摘要的质量。

研究人员根据两个摘要语料库准备和评估了他们的模型:一个来自TripAdvisor论坛,其中包含700个线程(其中500个用于培训,另外200个用于验证和测试),另一个包含532个跨主题的Microsoft Word文档(其中266个) ,138和128分别用于培训,验证和测试)。AI吸收了从每个句子以及整个文档的句子级别表示中提取的关键字,从而使其能够了解文本文档中哪些句子是显着的,并使用这些句子生成摘要。

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如有侵权行为,请第一时间联系我们修改或删除,多谢。