OpenAI推出了将其研究商业化的API
OpenAI今天宣布推出一个的API来访问新的自然语言处理模型的研究人员开发,包括最近发布的GPT-3。该公司声称,与大多数针对一个用例设计的AI系统不同,该API提供了一个通用的“文本输入,文本输出”界面,使用户可以在几乎所有英语任务中进行尝试。
根据OpenAI的说法,该API在头两个月内免费提供Beta版,并且只有合格的客户才能获得访问权限-这是一个注册过程。(如Algolia,Koko,MessageBird,Sapling,Replica,Casetext,Quizlet和Reddit等公司,以及Middlebury Institute等机构的研究人员在发布之前对其进行了试点。)该公司表示,API都将为支付成本并使其与合作伙伴紧密合作,看看在现实世界中使用AI系统时会遇到哪些挑战。
“该领域的进步步伐意味着,经常有令人惊讶的AI新应用,无论是正面的还是负面的。我们将针对明显有害的用例(例如骚扰,垃圾邮件,激进化或干扰性的情况)终止API访问。” OpenAI在博客中写道。“ [此]模型使我们可以更轻松地应对技术滥用。由于难以预测我们模型的下游用例,因此通过API释放它们并随着时间的推移扩展访问范围,本来就更安全,而不是发布一个开源模型,在这种模型中如果访问结果有害,则无法对其进行调整。”
在给出任何文本提示的情况下,OpenAI的API返回文本完成,以尝试大致匹配提供给它的模式。开发人员可以通过仅显示一些示例来说明自己想做什么,以便对其进行“编程”。其成功取决于任务的复杂程度。通过培训提供的示例数据集或从用户或标签提供者的人工反馈中学习,API还可提高其在特定任务上的性能。
例如,API可以识别自然语言查询的相关内容,而无需使用关键字。它还可以进行复杂的讨论-简短提示,即可生成涵盖从太空旅行到历史的一系列主题的对话,并将文本转换为简化的摘要。它甚至能够根据函数名称和注释来完成代码。生成带有建议类别的电子表格表格;并使用一些代表性示例将自然语言转换为Unix命令。
“我们设计的API不仅对任何人都易于使用,而且足够灵活,可以使机器学习团队提高工作效率。实际上,我们的许多团队现在都在使用API,以便他们可以专注于机器学习研究,而不是分布式系统问题。” OpenAI继续说道。“我们希望该API将使功能强大的AI系统更易于小型企业和组织访问。”
OpenAI发布了从计算机视觉到自然语言处理(NLP)的AI子领域的研究,其既定任务是安全创建超级智能软件。这家初创公司始于2015年,是一家非营利组织,但后来改组为投资工具OpenAI LP下的一家有上限的盈利公司。
OpenAI可能会预料到AI界的强烈反对,称该API将从金钱上支持其正在进行的研究,安全和政策工作。当然,OpenAI的进步并不便宜-仅GPT-3的内存需求估计就超过350GB,培训成本超过1200万美元。为了给他们提供资金,OpenAI先前从其创始成员和投资者那里获得了10亿美元的捐赠,并从微软那里获得了10亿美元的投资,其中一部分资金用于在Azure上运行AI超级计算机的开发。到目前为止,OpenAI LP吸引了来自里德霍夫曼(Reid Hoffman)慈善基金会和Khosla Ventures的资金。
据OpenAI称,随着API继续通过其学术访问计划与包括第三方研究人员在内的潜在滥用行为进行研究,该API还将为基于其的大型模型的开发提供信息。OpenAI表示,随着时间的推移,我们的目标是对API的潜在危害形成“透彻的了解”,并不断改进工具和流程以最大程度地减少这些危害。
减轻有害偏见等负面影响是整个行业范围内的一个艰巨问题,非常重要。最终,我们的API模型确实会产生偏差,有时会在生成的文本中出现。” OpenAI写道。“(这就是为什么)我们正在与用户一起制定使用指南,以帮助他们彼此学习并在实践中减轻这些问题。[我们还]与用户紧密合作,以深入了解他们的用例,并开发工具来标记和干预有害偏见的表现,[并且]我们将对有害偏见以及公平与代表性等广泛问题进行自己的研究,这将有助于我们与用户的交流。”
过去,OpenAI采取了谨慎且有争议的缓解方法。由于担心恶意行为者滥用和伪造Deepfake的潜在自动化,GPT-2于去年2月首次亮相时选择不共享该模型的所有四个版本,从而在一系列任务上取得了领先的成果。对该决定的批评者说,未能发布源代码对缺乏资源来复制模型或其结果的社会和科学家构成了潜在威胁。其他人则称之为宣传unt头。
随后,OpenAI发布了几个较小且不太复杂的GPT-2版本,并研究了它们的接收以及他们训练所依据的数据集。在断定“没有强有力的证据”滥用后,它于12月发布了完整的模型-接受了从网络上抓取的800万个文本文档的培训。