微软推出WhiteNoise 这是一种用于差异隐私的AI工具包
在本周在线举行的Build 2020开发人员大会上,微软宣布为Azure机器学习增加了新功能,该机器基于云的环境用于培训,部署和管理AI模型。WhiteNoise是一种用于差异性隐私的工具包,现在可以通过Azure和GitHub上的开放源代码获得,其中加入了新的AI解释性和公平性工具以及对数据,模型和实验的新访问控制;细粒度可追溯性和沿袭的新技术;新的机密机器学习产品;以及新的工作流程问责制文档。
这项努力是Microsoft朝着更可解释,更安全和“公平”的AI系统努力的一部分。研究表明,例如,面部识别系统中的偏差普遍存在,而AI存在隐私问题,因为许多模型无法使用加密数据。除了今天推出的Azure机器学习功能外,Microsoft尝试解决这些挑战和其他挑战的方法还包括AI偏差检测工具,减少偏见错误的内部工作,AI道德检查表和一个委员会(Aether),为AI追求提供建议。另外,微软公司副总裁埃里克·博伊德(Eric Boyd)说,Xbox,必应,Azure以及整个Microsoft 365的团队为今天上午发布的一些工具包提供了开发信息并使用了自己。
“组织现在正在研究如何开发易于解释和遵守法规(例如非歧视和隐私法规)的AI应用程序。他们需要将这些工具与这些AI模型放在一起,以便更易于解释,理解,保护和控制数据及模型。” Boyd在电话采访中告诉VentureBeat。“我们认为,我们的AI方法与众不同之处在于,它在深入研究,扎实的方法和对开源的承诺方面奠定了坚实的基础。”
WhiteNoise工具包是与哈佛大学定量社会科学研究所和工程学院的研究人员合作开发的,它利用差异隐私保护从数据中获取见解,同时保护诸如姓名或出生日期之类的私人信息成为可能。通常,差异性隐私需要在将原始数据馈入本地机器学习模型之前向原始数据注入少量噪声,从而使恶意行为者难以从经过训练的模型中提取原始文件。如果观察者看不到算法的输出,则无法认为该算法是差分私有的,则该算法是否在计算中使用了特定个体的信息。
WhiteNoise提供了可扩展的差分私有算法和机制库,用于发布保留隐私的查询和统计数据,以及用于定义分析的API和用于评估分析并计算数据集总隐私损失的验证器。微软表示,它可以使一群医院合作建立关于癌症治疗效果的更好的预测模型,同时帮助遵守法律要求,以保护医院信息的隐私并确保没有个人患者数据从模型中泄漏出来。
由微软的AI和工程与研究道德(Aether)委员会支持的另一个工具包,将于6月与Azure机器学习集成,Fairlearn的目的是评估AI系统的公平性,并缓解算法中发现的任何不公平性问题。Fairlearn从仪表板内部定义AI系统是否对人不公平地表现,着重于两种危害:分配危害和服务质量危害。当AI系统扩展或保留机会,资源或信息时,例如在招聘,入学和贷款中,分配损害就会发生。服务质量损害是指即使没有扩大或隐瞒任何机会,资源或信息,一个系统对于一个人是否也像对另一个人一样运作良好。
Fairlearn遵循一种称为群体公平的方法,该方法旨在发现哪些群体的个人有遭受伤害的风险。数据科学家在工具包中指定了相关的人群(例如性别,肤色和种族),并且它们是针对特定应用的;组公平由一组约束形式化,这要求AI系统行为的某些方面在组之间具有可比性。
根据微软的说法,专业服务公司安永会计师事务所使用Fairlearn评估了有关生物性别的模型输出的公平性。该工具包显示,男性和女性的阳性贷款决定之间存在15.3%的差异,然后,安永的建模团队开发并训练了多个修正模型,并可视化了公平性与模型准确性之间的常见取舍。该团队最终采用了最终模型,该模型优化并保留了总体准确性,但将男性和女性之间的差异降低到0.43%。
新工具包列表中的最后一个是InterpretML,它去年在alpha中首次亮相,但今天已在Azure Machine Learning中提供。InterpretML结合了许多机器学习的可解释性技术,有助于通过可视化模型的行为和预测背后的原因进行阐明。它可以推荐在任何给定用例中对模型最重要的参数(或变量),并且可以解释为什么这些参数很重要。
“我们希望通过Azure机器学习将其提供给广大客户,以帮助他们了解和解释其模型的发展,”博伊德说。“使用所有这些工具包,我们认为我们已经赋予开发人员很大的力量来真正理解他们的模型-他们可以看到它们的解释性以及它们的公平性,并开始了解它们所具有的其他参数。不愿意做出预测或以不同的方式摇摆模型。”