隶属于Uber AI和OpenAI的研究人员提出了一种新的神经体系结构搜索(NAS)方法,该技术涉及评估成百上千的AI模型以识别表现最佳的人。在预印本论文中,他们声称他们的技术称为Synthetic Petri Dish,可加快计算量最大的NAS步骤,同时以比以前的方法更高的准确性预测模型性能。

NAS通过测试候选模型的整体性能来消除任务的顶级模型体系结构,而无需进行手动微调。但这需要大量的计算和数据,这意味着最好的架构会在可用资源的范围内训练。合成Petri Dish从生物学出发解决了这一难题:它使用候选架构来创建小型模型,并使用生成的数据样本对其进行评估,以使这种相对性能代表整体性能。

研究人员解释说:“生物学中的“体外”(试管)实验背后的总体动机是,在更简单和可控制的环境中研究解释在更复杂的系统中引起人们关注的现象的关键因素。”“本文探讨了是否可以通过创建一种新型的替代方法来提高NAS的计算效率,这种替代方法可以从小型化培训中受益,并且仍然可以推广到实地评估的分布范围之外……[W] e可以使用机器学习来学习数据,以便对学习到的数据进行[架构]训练可以产生指示[架构]实际性能的性能。”

Synthetic Petri Dish只需要对体系结构进行少量性能评估,并且经过培训,即可对新体系结构进行“极其快速”的测试。初始评估用于训练皮氏培养皿模型,同时通过现成的NAS方法生成一组体系结构。然后,训练有素的培养皿模型会预测新架构的相对性能,并选择一组架构进行性能评估。

重复该过程,直到NAS方法确定最佳架构为止。

在装有20个Nvidia 1080 Ti图形卡(用于地面训练和评估)和MacBook(用于推理)的PC上进行的实验中,研究人员试图确定Synthetic Petri Dish在Penn Tree Bank(PTB)数据集上的表现如何。 ,这是一种流行的语言建模和NAS基准测试。从包含2700万个参数(变量)的真实模型开始,Synthetic Petri Dish生成了100种新架构并评估了前20种架构。

研究人员说,在搜索结束时,他们的技术发现了一种性能上具有“竞争性”的模型,该模型可以通过常规NAS找到,同时将种子模型的复杂性从2700万个参数(变量)减少到140个参数。他们还报告说,Synthetic Petri Dish仅需要原始NAS的十分之一的计算量,并且当两者都具有同等的计算量时,它们的性能超出了原始NAS的性能。

“通过以这种方式进行架构搜索,作为一种关于某些主题或因素如何影响最终结果的问题,我们获得了一个有趣的优势,即预测模型不再是一个黑匣子。相反,它实际上包含了它试图预测的更大世界的关键部分。”合著者写道。“ [B]因为微小模型包含真实网络的一部分(因此可以测试关于其功能的各种假设),所以预测是建立在高度相关的先验基础之上的,与空白板黑匣子模式相比,它们的结果更具准确性。”

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如有侵权行为,请第一时间联系我们修改或删除,多谢。