微软今天升级了其DeepSpeed库,以使用ZeRO-2训练大型神经网络。微软表示,内存优化技术能够训练具有1,700亿个参数的机器学习模型。就上下文而言,英伟达庞大的威震天语言模型是当今世界上最大的模型之一,具有110亿个参数。

今天的公告是继DeepSpeed库的2月开放源代码发布之后,该库用于创建Turing-NLG。Turing-NLG具有170亿个参数,是当今世界上最大的已知语言模型。微软在2月份与DeepSpeed一起推出了零冗余优化器(ZeRO)。

ZeRO通过减少数据并行性中的内存冗余来实现其结果,这是将大型模型拟合到内存中的另一种技术。ZeRO-1包含一些模型状态内存优化,而ZeRO-2提供了激活内存和碎片内存的优化。

DeepSpeed是为在多台服务器上进行分布式模型训练而设计的,但是ZeRO-2还对单个GPU上的训练模型进行了改进,据说训练模型的速度比Google的BERT快30%。

微软CTO凯文·斯科特(Kevin Scott)将在周三的主题演讲中宣布更多细节。

该消息是在微软全数字化Build开发者大会开始时宣布的,其中已经宣布了许多AI开发-包括用于机器学习中的差异隐私的WhiteNoise工具包的首次亮相,以及用于AI工业应用的Project Bonsai的首次亮相。

上周,Nvidia首席执行官黄仁勋推出了Ampere GPU架构和A100 GPU。新的GPU芯片,以及多模式模型和大规模推荐系统创建等趋势,将在未来几年内带来更大的机器学习模型。

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如有侵权行为,请第一时间联系我们修改或删除,多谢。