slot deposit pulsa slot mahjong slot gacor slot gacor slot gacor resmi slot gacor 2025 slot gacor terpercaya slot gacor 2025 slot gacor hari ini slot gacor hari ini slot gacor hari ini
OpenAI 推出多模态的 ChatGPT,新增语音与图像功能
17611538698
webmaster@21cto.com

OpenAI 推出多模态的 ChatGPT,新增语音与图像功能

资讯 0 1891 2023-09-27 11:16:24


21CTO导读:ChatGPT这个超级流行的人工智能聊天机器人一直只是一个文本框。而现在,它正在学习以新的方式理解人们的问题。

背景

OpenAI 对 ChatGPT 新特性涉及 AI 驱动的聊天机器人可执行的操作做进一步调整:包括可以回答的问题、可以访问的信息以及改进的底层模型。

这一次,它调整了使用 ChatGPT 本身的方式。这次它推出新版本的服务,让人们不仅可以通过在文本框中输入句子做提示语,还可以通过大声说话或上传图片来做提示语。

OpenAI 的行动

9月25日,OpenAI 宣布为流行的对话式AI机器人ChatGPT推出新的语音与图像功能。

这些新功能标志着 ChatGPT 功能的重大扩展,它允许用户通过与 AI 助手对话并为其显示图像,用来进行更自然的对话。

OpenAI 如此宣布道:“我们开始在 ChatGPT 中推出新的语音与图像功能。它们提供了一种新的、更直观的界面,允许您进行语音对话或向 ChatGPT 展示您正在谈论的内容” 。

详细描述“多模态” ChatGPT 新增的功能:

新的语音功能,将允许用户通过大声说话与 ChatGPT 进行互动对话。用户可以在五种不同的人工智能生成的声音中进行选择,然后提出问题或给出指示语。

OpenAI 这样提示用户:

“与 ChatGPT 交谈并让它回复。可以随时随地与它交谈,为家人申请一个睡前故事,或者解决餐桌上的争论,”

用户感觉就像与苹果的siri或 Alexa 以及Google Assistant 交谈一样,只是——OpenAI 是由底层技术的改进,答案会更加精确。由此大多数虚拟助手正在被大语言模型重建,而 OpenAI 开始处于领先地位。

而图像功能允许用户上传 ChatGPT 照片,用以获取有关视觉内容的信息或提出问题。

例如,用户可以向 ChatGPT 展示自己的冰箱和食品储藏室的照片,并询问它食谱创意。在旅行时,你可以向 ChatGPT 发送一张地标照片并进行有关它的实时对话。该移动应用程序还包含一个绘图工具,可将人工智能集中在特定的图像区域。

OpenAI 表示,这些新功能由其最新的自然语言人工智能模型 GPT-3.5 和 GPT-4 提供支持,这些模型可以将推理技能应用于视觉与音频输入。当前的 ChatGPT 现在可以用五种合成声音之一进行可倾听响应。

该公司计划在未来两周内向 Plus 和 Enterprise 用户开始逐步推出语音与图像功能。OpenAI 表示说,这样一种方法将使团队能够进一步完善安全措施,并让用户使用更先进的人工智能做好准备。

OpenAI 还表示:“OpenAI 的目标是构建安全且有益的 AGI。我们相信逐步提供新的工具,使我们能够随着时间的推移进行改进和完善,包括风险缓解措施,同时也让每个人为未来更强大的人工智能系统做好准备。”

结语

ChatGPT 在推出近一年后,OpenAI 仍在试图找出为机器人提供更多特性和功能,同时又不会产生新的问题和缺点,提供新的解决方案。

随着越来越多的人使用语音控制和图像搜索,并且 ChatGPT 越来越接近成为真正的多模式以及更有用的虚拟助手,其技术门槛的跨越将变得越来越难。


作者:场长
参考:
https://openai.com/blog/chatgpt-can-now-see-hear-and-speak

评论