小数据可以在AI中发挥重要作用
如今,超过四分之三的大公司正在实施“数据饥渴”的AI计划-涉及神经网络或深度学习系统的项目,这些系统在庞大的数据存储库上进行了培训。但是,组织中许多最有价值的数据集都非常小:以千字节或兆字节而不是兆字节为单位。由于此数据缺乏大数据的数量和速度,因此通常会被忽略,它们在PC和功能数据库中显得微不足道,并且与企业范围的IT创新计划无关。
但是,正如我们最近与医学编码人员进行的一项实验所证明的那样,新兴的AI工具和技术,加上对人为因素的精心关注,为使用小数据和转换过程训练AI提供了新的可能性。
对于推动AI或高级分析计划的每个大数据集(具有十亿行和十亿行),典型的大型组织可能会有一千个未使用的小数据集。例子很多:对新客户群的市场调查,会议记录,少于1000列和行的电子表格。在我们的实验中,它是由一组医疗编码员添加到医疗图表中的注释-在数千个图表中的每一个上只有数十个注释。
医疗编码人员会分析各个患者的病历,并将有关诊断,治疗,药物等的复杂信息转换为字母数字代码。这些代码将提交给计费系统和健康保险公司以进行支付和报销,并且在患者护理中起着至关重要的作用。
我们实验中的编码员都是注册护士,已经习惯了使用AI系统寻求帮助。AI扫描了图表并确定了医疗状况和治疗之间的联系,并为给定的图表建议了正确的代码。
我们想看看是否有可能将负责对图表进行准确,一次性评估的编码员转换为能够通过医学知识丰富AI的AI培训师,从而改善系统在识别链接时的性能。
在为期12周的实验过程中,我们了解到,通过结合小数据和AI来创建和转换工作流程需要密切关注人为因素。我们认为,实验中出现的三个以人为本的原则可以帮助组织着手开展自己的小数据计划:
平衡机器学习与人员领域的专业知识。已经开发了许多AI工具来训练带有小数据的AI。例如,少拍学习可以教AI仅仅基于一个或几个示例而不是成千上万的图像来识别对象类别(面部,猫,摩托车)。在零镜头学习中,AI能够准确预测机器训练数据中不存在的图像或物体的标签。换句话说,它可以正确识别以前从未见过的事物。转移学习涉及将从一项任务获得的知识转移到新任务的学习中,例如,基于另一种类型的知识来识别癌症的亚型,这消除了机器对执行新任务所需的大量新数据的需求。
在我们的实验中,我们使用了一种通常称为知识图的工具,该工具可明确表示不同类型实体之间的各种关系:“药物A治疗条件B”,“治疗X减轻症状Y”,“症状Y与条件B相关”等等。它简洁地捕获了专家知识,并使该知识适合机器推理-例如,在开具处方药和治疗的情况下,存在特定病症的可能性。
为了使编码人员能够将其知识传授给AI,我们开发了一个易于使用的界面,使他们可以查看图形数据库中有争议的链接。这些链接是其同事在查看单个图表时不同意AI的链接-通过添加系统未知的链接或删除已添加的链接。根据他们的专业知识,编码人员可以直接验证,删除或添加链接,并为他们的决策提供依据,以后他们的编码同事将可以看到它们。此外,我们鼓励他们遵循自己的意愿,即使用Google(通常与WebMD结合使用)来研究毒品疾病链接,这超出了他们认为现有AI的缓慢查找工具的范围。
机器学习和人类专业知识的这种结合具有显着的乘数效应。编码人员不仅评估单个图表,还增加了影响所有将来图表的医学知识。此外,由于AI承担了大部分日常工作,大大减少了筛选整个病历的需要,使编码人员可以将精力集中在特别有问题的病例上。同时,数据科学家从繁琐,低价值的数据清理,标准化和整理工作中解放了出来。
关注人工输入的质量,而不是机器输出的数量。在现有系统中,编码人员专注于大量单个图表的评估。随着时间的流逝,人工智能从众多编码员添加或拒绝的链接积累中吸取了教训:一旦编码员多次提出了人工智能不熟悉的毒品疾病链接,数据科学家便将其添加到图形数据库。此手动过程仅偶尔执行,部分原因是积累链接建议所花费的时间很滞后,并且它依赖于对链接的定量支持,而不是医学专业知识。