麻省理工学院计算机科学与人工智能实验室(CSAIL)和MIT-IBM Watson AI Lab的研究人员最近提出了硬件感知变压器(HAT),这是一种结合了Google的Transformer体系结构的AI模型训练技术。他们声称HAT可以在Raspberry Pi 4等设备上实现3倍的推理速度,同时与基准相比将模型尺寸减小3.7倍。

Google的Transformer凭借其先进的性能而广泛用于自然语言处理(甚至某些计算机视觉)任务。尽管如此,由于其计算成本,在变压器上部署变压器仍然具有挑战性。在Raspberry Pi上,仅翻译30个单词的句子就需要13吉字节(每秒10亿个浮点运算),并且需要20秒。这显然限制了该架构对开发人员和公司将语言AI与移动应用程序和服务集成的有用性。

研究人员的解决方案采用了神经体系结构搜索(NAS),这是一种用于自动化AI模型设计的方法。HAT通过首先训练包含许多子变压器的“超级网”(SuperTransformer)来搜索边缘设备优化的变压器。然后,这些子变压器同时受到训练,以使一个子变压器的性能为从头开始训练的不同体系结构提供相对的性能近似值。在最后一步中,在硬件延迟限制的情况下,HAT进行了进化搜索以找到最佳的子变压器。

为了测试HAT的效率,合著者对四种机器翻译任务进行了实验,这些任务包括160,000至4,300万对训练句子。对于每种型号,他们测量了300次延迟,并去除了最快和最慢的10%,然后取剩余的80%的平均值,然后在Raspberry Pi 4,Intel Xeon E2-2640和Nvidia Titan XP图形上运行卡。

根据该团队的说法,通过HAT识别的模型不仅在所有硬件上的延迟都比常规培训的Transformer低,而且在单张Nvidia V100图形卡上进行了184至200小时的培训后,在流行的BLEU语言基准测试中得分更高。与Google最近提出的Evolved Transformer相比,一种模型小3.6倍,而计算成本却低了12041倍,并且没有性能损失。

共同作者写道:“为了在资源受限的硬件平台上实现低延迟推理,我们建议使用神经体系结构搜索设计[HAT]。”他指出HAT可在GitHub上的开源中获得。“我们希望HAT可以为针对实际应用的有效Transformer部署开辟道路。”

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如有侵权行为,请第一时间联系我们修改或删除,多谢。