华盛顿大学和艾伦人工智能研究所的附属研究人员表示,他们已经开发了一种AI系统-VeriSci,该系统可以自动对科学主张进行事实核对。表面上,该系统不仅可以在支持或反驳权利要求的研究中识别摘要,而且还可以从摘要中提取证据的形式为它们的预测提供依据。

自动化的事实检查可以帮助解决科学文献中的再现性危机,在该文献中,发现许多研究很难(或不可能)进行重复。2016年对1,500名科学家进行的民意测验报告称,其中70%的人曾尝试过,但未能再现至少另一位科学家的实验。在2009年,2%的科学家承认至少一次伪造研究,14%的科学家承认自己认识过某人。

艾伦研究所和华盛顿大学团队力图用一个语料库-SciFact来解决该问题,该语料库包含(1)科学主张,(2)支持或反驳每个主张的摘要以及(3)具有合理依据的注释。他们采用了一种利用引文句子的标注技术对其进行整理,引文句子是科学文献中自然发生的主张的来源,之后他们训练了基于BERT的模型来识别合理的句子并标注每个主张。

SciFact数据集包括根据5183个摘要的语料库对1409个科学主张进行事实核对,这些摘要是从数百万科学文章的公共数据库(S2ORC)中收集的。为了确保只收录高质量的文章,研究小组筛选了少于10篇引文和部分文章的文章,并从一系列涵盖基础科学(例如Cell,Nature)到临床医学领域的广受好评的期刊中随机抽样。

为了给SciFact贴上标签,研究人员招募了一组注释者,在其原始文章的上下文中向他们显示了引文句子,并要求他们根据内容写出三个声明,同时确保声明符合其定义。这导致了所谓的“自然”声明,其中注释者在编写声明时没有看到文章的摘要。

科学的自然语言处理专家创建了求助词求反,以获取摘要驳斥求助词的示例。(跳过了没有引入明显偏见或偏见就无法否定的主张。)注释者将主张摘要对标记为支持,反驳或信息不足,适当地标识了所有支持或反驳标签的理由。研究人员引入了干扰因素,使得对于每个引文句子,在与该句子相同的文档中引用的文章都被采样,但是在不同的段落中。

在SciFact上训练的模型-VeriSci-包括三个部分:抽象检索,检索与给定声明具有最高相似性的摘要;基本原理选择,它确定每个候选抽象的基本原理;和标签预测,进行最终的标签预测。在实验中,研究人员说,大约有一半的时间(46.5%),它能够正确识别支持或反驳标签,并提供合理的证据证明这一决定是正确的。

为了证明VeriSci的可概括性,研究小组对有关COVID-19的科学声明数据集进行了探索性实验。他们报告说,VeriSci提出的与COVID相关的大多数主张(36个中的23个)被医学生注释者认为是合理的,表明该模型可以成功地检索和分类证据。

研究人员认为,VeriSci远非完美,这是因为VeriSci被上下文所迷惑,并且因为它不执行证据综合,或者是将不同来源的信息组合起来以进行决策的任务。就是说,他们断言他们的研究证明了事实检查在实践中可能如何工作,同时阐明了对科学文献理解的挑战。

“科学事实核查提出了一系列独特的挑战,使神经模型在复杂的语言理解和推理方面的局限性不断扩大。”尽管规模很小,但是对VeriSci进行SciFact培训比在对根据Wikipedia文章和政治新闻构建的事实检查数据集进行培训方面取得了更好的性能。”研究人员写道。“域自适应技术显示出希望,但是我们的发现表明,必须进行额外的工作才能提高端到端事实检查系统的性能。”

VeriSci和SciFact的发布是在艾伦研究所发布Supp AI之后进行的。SuppAI是一个由AI驱动的门户网站,通过该门户网站,维生素,矿物质,酶和激素等补品的消费者可以识别可能与之不利相互作用的产品或药物。最近,这家非营利组织更新了其语义学者工具,可搜索1.75亿篇学术论文。

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如有侵权行为,请第一时间联系我们修改或删除,多谢。