今天,我们发布了Assistants API,这是我们帮助开发人员在自己的应用程序中构建类似代理的体验的第一步。助手是一种专门构建的人工智能,具有特定的指令,利用额外的知识,并且可以调用模型和工具来执行任务。新的 Assistants API 提供了代码解释器和检索以及函数调用等新功能,可以处理您以前必须自己完成的大量繁重工作,并使您能够构建高质量的 AI 应用程序。
这个 API 的设计是为了灵活性;用例范围包括基于自然语言的数据分析应用程序、编码助手、人工智能驱动的假期规划器、语音控制的 DJ、智能视觉画布——这样的例子不胜枚举。Assistants API 构建于支持我们新 GPT 产品的相同功能之上:自定义指令和工具,例如代码解释器、检索和函数调用。
该 API 引入的一个关键变化是持久且无限长的线程,它允许开发人员将线程状态管理移交给 OpenAI 并解决上下文窗口约束。使用 Assistants API,您只需将每条新消息添加到现有的thread.
助理还可以根据需要调用新工具,包括:
- 代码解释器:在沙盒执行环境中编写和运行Python代码,可以生成图形和图表,并处理具有不同数据和格式的文件。它允许您的助手迭代运行代码来解决具有挑战性的代码和数学问题等等。
- 检索:利用我们模型之外的知识来增强助手,例如专有领域数据、产品信息或用户提供的文档。这意味着您不需要计算和存储文档的嵌入,或实现分块和搜索算法。Assistants API 根据我们在 ChatGPT 中构建知识检索的经验,优化了要使用的检索技术。
- 函数调用:使助手能够调用您定义的函数并将函数响应合并到其消息中。
与平台的其他部分一样,传递到 OpenAI API 的数据和文件永远不会用于训练我们的模型,开发人员可以在认为合适时删除数据。
您可以前往Assistants Playground来尝试 Assistants API 测试版,而无需编写任何代码。
Assistants API 处于测试阶段,从今天开始可供所有开发人员使用。请与我们分享您构建的内容 ( @OpenAI ) 以及您的反馈,我们将在未来几周继续构建时纳入这些反馈。Assistant API 及其工具的定价可在我们的定价页面上找到。
GPT-4 Turbo 可以接受图像作为聊天完成 API 中的输入,从而实现生成标题、详细分析现实世界图像以及阅读带有图形的文档等用例。例如,BeMyEyes 使用这项技术帮助盲人或弱视人士完成日常任务,例如识别产品或浏览商店。gpt-4-vision-preview开发者可以通过在API中使用来访问此功能。我们计划为主要的 GPT-4 Turbo 模型提供视觉支持,作为其稳定版本的一部分。定价取决于输入图像的大小。例如,将 1080×1080 像素的图像传递给 GPT-4 Turbo 的成本为 0.00765 美元。查看我们的愿景指南。
开发人员可以通过我们的图像 API 指定模型,将我们最近向 ChatGPT Plus 和企业用户推出的 DALL·E 3 直接集成到他们的应用程序和产品中。dall-e-3Snap、可口可乐和 Shutterstock 等公司已使用 DALL·E 3 以编程方式为其客户和活动生成图像和设计。与之前版本的 DALL·E 类似,该 API 包含内置审核功能,可帮助开发人员保护其应用程序免遭滥用。我们提供不同的格式和质量选项,每生成一张图像的起价为 0.04 美元。查看我们的API 中的 DALL·E 3入门指南。
开发人员现在可以通过文本转语音 API 从文本生成人类质量的语音。我们的新 TTS 模型提供六种预设声音可供选择以及两种模型变体,tts-1并且tts-1-hd. tts针对实时用例进行了优化,并tts-1-hd针对质量进行了优化。每输入 1,000 个字符起价为 0.015 美元。查看我们的TTS 指南以开始使用。
我们正在创建一个用于GPT-4 微调的实验性访问程序。初步结果表明,与 GPT-3.5 微调实现的实质性收益相比,GPT-4 微调需要更多的工作才能对基本模型实现有意义的改进。随着 GPT-4 微调的质量和安全性的提高,积极使用 GPT-3.5 微调的开发人员将可以选择在其微调控制台中应用到 GPT-4程序。
对于需要比微调所能提供的更多自定义的组织(特别适用于具有极大专有数据集的域 - 至少数十亿个代币),我们还启动了自定义模型计划,为选定的组织提供了与专门的 OpenAI 研究人员小组将定制 GPT-4 训练到其特定领域。这包括修改模型训练过程的每一步,从进行额外的特定领域预训练,到运行针对特定领域定制的自定义强化学习后训练过程。组织将拥有对其定制模型的独家访问权。根据我们现有的企业隐私政策,自定义模型不会提供给其他客户或与其他客户共享,也不会用于训练其他模型。此外,提供给 OpenAI 用于训练自定义模型的专有数据不会在任何其他环境中重复使用。这将是一个非常有限(且昂贵)的启动计划,有兴趣的组织可以在此处申请。
我们正在降低整个平台的多个价格,以便将节省的费用转嫁给开发者(以下所有价格均以每 1,000 个代币表示):
- GPT-4 Turbo 输入代币比 GPT-4 便宜 3 倍,为 0.01 美元,输出代币便宜 2 倍,为 0.03 美元。
- GPT-3.5 Turbo 输入代币比之前的 16K 型号便宜 3 倍,价格为 0.001 美元,输出代币便宜 2 倍,价格为 0.002 美元。之前使用 GPT-3.5 Turbo 4K 的开发人员受益于输入代币 33% 的减少,价格为 0.001 美元。这些较低的价格仅适用于今天推出的新款 GPT-3.5 Turbo。
- 经过微调的 GPT-3.5 Turbo 4K 模型输入代币减少了 4 倍,价格为 0.003 美元,输出代币便宜了 2.7 倍,价格为 0.006 美元。微调还通过新的 GPT-3.5 Turbo 型号以与 4K 相同的价格支持 16K 上下文。这些新价格也适用于微调型号gpt-3.5-turbo-0613。
OpenAI 致力于通过系统中内置的版权保护措施来保护我们的客户。今天,我们更进一步,推出了“版权护盾”——如果您面临有关版权侵权的法律索赔,我们将介入并为我们的客户辩护,并支付由此产生的费用。这适用于 ChatGPT Enterprise 和我们的开发者平台的一般可用功能。
我们正在发布Whisper large-v3,这是我们开源自动语音识别模型 (ASR) 的下一个版本,它的特点是跨语言性能得到了改进。我们还计划在不久的将来在我们的 API 中支持 Whisper v3。
我们还开源了Consistency Decoder,这是稳定扩散 VAE 解码器的替代品。该解码器改进了与 Stable Diffusion 1.0+ VAE 兼容的所有图像,在文本、面部和直线方面有显着改进。
暂无评论