研究人员发布数据集来评估当前局势聊天机器人和搜索引擎
在本周于预印本服务器Arxiv.org上发表的一篇论文中,Facebook,纽约大学和滑铁卢大学的研究人员详细介绍了有问题的数据集-CovidQA,其中包括来自当前局势开放研究数据集挑战赛的论文,基于与世界卫生组织和美国国家科学,工程与医学研究院共同开发的科学问题的任务的集合。他们说,正在开发的CovidQA可以帮助评估回答有关当前局势主题的聊天机器人和搜索引擎的准确性。
世界各地的国家,卫生系统和非营利组织都在使用AI自然语言工具对潜在的当前局势患者进行分类。但是,正如我们在4月初进行的调查显示的那样,聊天机器人尤其依赖于不一致的医学数据源和隐私惯例。诸如CovidQA之类的数据集可用于凭经验比较当前局势聊天机器人提供的答案的准确性,从而揭示他们的知识差距,并使用户更加放心。
CovidQA的0.1版包含124个问题文档对,27个问题和85条独特的文章,这些文章的合著者是从当前局势开放研究数据集挑战的文献审阅页面创建的。诸如“基于物理科学的净化”之类的广泛主题被分解为多个问题,例如“用于灭活当前局势的UVGI强度”和“用于灭活当前局势的乙醇纯度”。每个问题都与包含查询的关键字(即用户可能在搜索引擎中键入的内容)和“格式正确”的自然语言问题相关联。
例如,CovidQA中一个带注释的问题文档对属于“无症状脱落”类别和“无症状患者比例”子类别,以及相关的“无症状患者比例”查询和“患者比例是多少”没有症状吗?”答案-例如,“ 49(14.89%)是无症状的”-包含其来源的科学研究的标题。
研究人员指出,CovidQA太小,无法训练监督的机器学习模型(即从标记数据中学习的模型)-至少并非没有其他来源的补充数据。但是他们断言可以通过向模型提供问题或关键字查询并观察它如何对每个句子的相关性进行评分来评估模型。如果得分最高的句子包含准确答案,则模型正确回答了该问题。
在一项实验中,研究人员发现,针对BERT的生物医学语言表示模型BioBERT(针对文本挖掘任务而设计)在针对CovidQA测试的多个模型中表现最佳,平均正确地在40.4%的时间内对问题的答案进行了排名。希望最终改善CovidQA,以便它可以评估模型检测数据集中包含的文档中何时不存在答案的能力,并将数据集概括为用于快速构建生物医学测试集的方法。
共同作者写道:“现代[自然语言处理]研究的经验性质在很大程度上取决于可以指导进展的评估资源。”“对于快速出现的域,例如持续的当前局势,一开始可能没有适当的特定于域的资源可用。因此,快速构建评估产品的方法很重要。”