由30多名OpenAI研究人员组成的团队发布了有关GPT-3的论文,该语言模型能够在一系列基准测试和独特的自然语言处理任务(从语言翻译到生成新闻)中达到最新的结果回答SAT问题的文章。GPT-3的参数高达1750亿。相比之下,GPT-2的最大版本为15亿个参数,而微软本月初推出的全球最大的基于Transformer的语言模型则为170亿个参数。

OpenAI去年发布了GPT-2,由于担心该模型可能用于恶意目的,因此有争议地采用了交错发布方法。一些人批评OpenAI的方法交错,而另一些人则称赞该公司演示了一种谨慎发布可能会被滥用的AI模型的方法。GPT-3星期四用arXiv预印本首次亮相,但未提供发布细节。当VentureBeat询问是否要发布完整版本的GPT-3或参数范围从1.25亿到130亿的七个较小版本之一时,OpenAI发言人拒绝置评。

许多基于Transformer的高级模型已经发展到可以在许多自然语言任务上达到人类水平的性能。作者说,近年来基于许多语言模型的进步,基于Transformer体系结构的方法受到特定任务数据集和微调需求的限制。取而代之的是,GPT-3是在无监督机器学习的情况下训练的自回归模型,并且侧重于一次性学习,在推理运行时提供了任务演示。

论文读到:“在这里,我们证明了扩大语言模型可以极大地提高与任务无关的性能,很少需要执行某些操作,有时甚至可以通过现有的最新微调方法达到竞争力。”“对于所有任务,GPT-3的应用无需进行任何梯度更新或微调,其任务和少量演示仅通过与模型的文本交互来指定。”

“广泛地,在NLP任务上,GPT-3在零镜头和单镜头设置中取得了可喜的结果,在少镜头设置中,[有时]与最先进的设备竞争甚至超越(尽管微调的模型拥有最先进的技术),”作者指出。

周四发布的论文研究了大小不一的GPT-3形式,以评估一次性学习,单次学习,最紧密地模仿人类学习方式的单次学习以及零次学习,其中仅描述了在运行时提供任务的编号。

尽管GPT-3在生成新闻文章和任务(例如在句子中使用新颖的单词或执行算术)的效果很好,但在常识性推理方面却不足。在去年专门为测试高级NLP模型的推理和其他任务而引入的SuperGLUE基准上,GPT-3在COPA和ReCoRD读取理解数据集方面取得了近乎最新的结果,但在上下文中却不足分析(WiC)和RACE,一组初中和高中考试题。

“在某些涉及比较两个句子或摘要的任务中,GPT-3在短镜头或单镜头设置中似乎较弱,例如,两个句子(WiC)中是否以相同的方式使用了单词,是否一个句子“这是对另一句话的解释,或者一个句子是否暗示着另一句话,”该论文写道。“通过展现GPT-3的优点和缺点的广泛特征,包括这些局限性,我们希望能够激发对语言模型的少量学习的研究,并引起人们对最需要进步的关注。”

与许多其他预先训练的语言模型不同,本文还包括对GPT-3中发现的算法偏差的初步评估。使用Senti WordNet模型评估了GPT-3种族偏见表现的情绪分析,发现“亚洲人”的得分始终如一,在七个GPT-3版本中,在积极得分方面在种族群体中排名第一。在七个版本的GPT-3中,“黑色”的情感分析得分始终很低。

在对性别与职业之间的关联性进行的评估中,GPT-3根据对近400种职业的分析表明,它最有可能暗示男性身份。最近对预训练语言模型的分析发现,种族,性别,职业和宗教偏见在预训练语言模型中普遍存在,但研究人员发现OpenAI的GPT-2表现出比其他人更理想的结果。

GPT-3文件还包括有关数据污染的文档;训练过程中的能量消耗;高级语言模型的广泛影响;以及潜在的滥用,例如“错误信息,垃圾邮件,网络钓鱼,滥用法律和政府程序,欺诈性学术论文撰写以及社会工程学借口”。

GPT-3接受了关于2016年至2019年收集的近万亿个单词的CommonCrawl数据集以及与Web文本,书籍和Wikipedia相关的数据集的培训。

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如有侵权行为,请第一时间联系我们修改或删除,多谢。