很难在The Next Platform上找到一个故事,该故事不关注大型用例的系统。但是,鉴于在过去四年左右的时间里,人工智能培训一直是高端的,装有GPU的系统的驱动力,所以我们想对这个市场的变化方式进行一些思考。有用于模型训练和开发的基于云的选项,但也有定制的笔记本电脑和工作站,它们可以从AWS和其他公司中剥离业务,从而消除了云的一些意外成本。

在笔记本电脑方面,我们很好奇一台机器在什么地方可以进行AI培训,以及与使用基于云的GPU相比,如何以及在哪里更适合(特别是对于研发)。我们也对这些笔记本电脑在设计时考虑到这种特殊的工作负载感到好奇。Lambda Labs的雷米·古尔西奥(Remy Guercio)表示,出于所有显而易见的原因,电源似乎是主要制约因素,但事实证明,电源要复杂得多。该公司生产定制的深度学习笔记本电脑和工作站。

该公司于2013年开始在软件方面进行人脸识别,然后转移到用于数据收集的自定义设备中,其中包括每十秒钟拍摄一张照片的“ Lambda Hat”。然后,他们冒险进行云构建,于2015年启动了内部GPU云,然后于2017年中构建了GPU工作站和即插即用的可扩展服务器,类似于Nvidia的DGX机器。硬件业务蒸蒸日上,吸引了包括Apple,Raytheon,腾讯,LinkedIn,Intel,Microsoft等在内的客户。增长的原因?需要在本地设备上进行动态模型开发和实验,而成本却降低了云技术在成本方面进行培训的吸引力。

Remy Guercio说,构建平衡的便携式硬件来进行计算和内存密集型AI培训要比听起来要复杂得多,特别是在内存功能,GPU尺寸与外形尺寸以及电池寿命需求之间取得平衡。 Lambda Labs。该公司的高端Tensorbook最适合培训中小型模型,并且正如人们所期望的那样,计算量越大,可用内存/性能上的压力就越大。

最受欢迎的型号是配备Nvidia GeForce 2080 Max-Q GPU(8BG VRAM),6核Intel i7-9750H处理器,64 GB RAM和TB的NVMe存储的Lambda Tensorbook Max。这些研究的成功是由学术研究人员推动的(Guercio说,ML学生使用Tensorbook对他们的硕士和博士学位论文进行实验和训练模型),但是随着Tensorbook被用作企业,这些在近几个月的企业发展中获得了更大的吸引力。 AI / DL培训工作负载的日常驱动程序以及编码任务(原型设计,修复错误,确保训练/推理无错误运行)。

“大多数学术研究人员在开发深度学习模型时都会考虑到11GB的内存限制,因此我们的目标是在保持便携式笔记本电脑外形尺寸的同时,尽可能接近该限制。通过2080 Max-Q,我们能够获得8GB的存储空间,Guercio补充说,尽管有些(Pix2Pix HD,MT-DNN和StyleGAN)根本不适合笔记本电脑培训,但大约80%的流行AI模型的存储空间不足8GB。内存限制。包括NasNet Large,DeepLabV3,Yolo3,MaskRCNN)和语言模型(Transformer Big,卷积Seq2Seq,unsupMT,BERT Base / Finetune)的其他模型也可以很好地满足这些限制。

Tensorbook专为开发和培训而设计,但Guercio说,即使对于系统能力不足以进行训练的模型,其处理推理的能力也比人们预期的要好。研究人员可以下载在公司自己的云上培训的大型图像模型,然后在本地运行。“随着模型大小的增加,批处理大小的减小,并且在进行训练的同时,必须具有相对较大的批处理大小(GPU可以一次处理的训练集的数量)很重要,推理仅需要批处理大小为1。这便打开了Tensorbook在更多模型上运行。”

对于培训开发,这与具有类似功能的通用云实例相比具有竞争力。“我们通常让客户决定要购买Tensorbook,还是要使用AWS p3.2X大型单个GPU实例。如果您一天要训练8个小时(仅在工作日内),那么云服务器每月的费用约为525美元。许多人宁愿进行3300美元的前期投资,该投资将在大约六个月内收回,也可以用作个人/办公笔记本电脑。”

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如有侵权行为,请第一时间联系我们修改或删除,多谢。