AI如何将事件联系起来以警告疾病威胁
加拿大人工智能公司BlueDot最近几周一直在新闻中发出警告,称在疾病控制与预防中心和世界卫生组织发出正式警报之前,有关新的冠状病毒日将提前。该公司能够通过利用官方报告数据以外的其他信息来源来实现此目的。
BlueDot的AI算法是一种计算机程序,随着处理更多数据而不断改进,它以多种语言收集新闻报导,动植物疾病追踪网络的报告以及机票数据。结果是,与依赖公共卫生数据的算法相比,该算法在模拟疾病传播方面更胜一筹–足以预测疾病暴发。该公司使用该技术为其政府和私营部门客户预测和跟踪传染病。
传统的流行病学跟踪人们在何处以及何时感染疾病,以查明疾病的爆发源以及最容易受到感染的人群。像BlueDot这样的AI系统可以模拟疾病在人群中的传播方式,从而可以预测疫情将在何处发生,并可以预测疾病的传播范围和速度。因此,尽管CDC和世界各地的实验室争相寻找新型冠状病毒的治疗方法,但研究人员正在使用AI来尝试预测疾病的下一步发展及其可能产生的影响。两者在面对疾病中都起着关键作用。
但是,人工智能不是灵丹妙药。AI系统的准确性高度依赖于他们从中学习的数据的数量和质量。人工智能系统的设计和培训方式可能会引发道德问题,当技术影响到大批人口(涉及与公共卫生同样重要的事情)时,这将特别麻烦。
都是关于数据的
传统疾病暴发分析着眼于暴发的地点,疾病病例的数量和时间段(时间,地点和时间),以预测疾病在短时间内传播的可能性。最近使用AI和数据科学进行的工作已经扩大了范围,使其包括许多不同的数据源,这使得可以对爆发进行预测。随着Facebook,Twitter和其他社交和微媒体网站的出现,越来越多的数据可以与某个位置相关联,并可以从中获取有关爆发等事件的知识。数据可以包括关于异常呼吸道病例的医务人员论坛讨论,以及有关生病的社交媒体帖子。
这些数据大部分都是高度非结构化的,这意味着计算机无法轻松理解它们。非结构化数据的形式可以是新闻故事,航班地图,社交媒体上的消息,个人签入,视频和图像。另一方面,结构化的数据(例如按位置报告的病例数)则被制成表格,并且通常不需要太多的预处理就可以使计算机对其进行解释。
诸如深度学习等较新的技术可以帮助理解非结构化数据。这些算法在人工神经网络上运行,该网络由数千个相互连接的小型处理器组成,非常类似于大脑中的神经元。处理器按层排列,数据在每一层进行评估,然后丢弃或传递到下一层。通过在反馈循环中循环遍历各层的数据,深度学习算法将学习如何识别YouTube视频中的猫。
研究人员教深度学习算法通过训练非结构化数据来识别特定类型的项目的组成部分,从而理解非结构化数据。例如,研究人员可以通过使用几种类型的手柄和轮辋的图像来训练杯子,从而教出一种算法来识别杯子。这样,它可以识别多种类型的杯子,而不仅仅是具有特定特征的杯子。
任何AI模型都仅与用于训练它的数据一样好。这些疾病跟踪模型提供的数据和结果太少,可能会出现偏差。同样,数据质量也很关键。控制非结构化数据(包括众包数据)的质量可能特别具有挑战性。这要求研究人员在将数据提供给他们的模型之前仔细过滤数据。这也许是某些研究人员(包括BlueDot的研究人员)选择不使用社交媒体数据的原因之一。