ChatGPT新增两种交互方式,加入语音对话和图像识别功能

ChatGPT新增两种交互方式,加入语音对话和图像识别功能
2023年09月27日 16:56 DeepTech深科技

来源:DeepTech深科技

近日,ChatGPT 进行了可能是迄今为止最大的更新,OpenAI 为其推出了两种新的交互方式。

首先,ChatGPT 现在能够对话了。用户可以从五种逼真的合成声音中选择一种,然后就可以像打电话一样与聊天机器人进行对话,以问答的方式实时获得 ChatGPT 的回应。

ChatGPT 现在也可以回答有关图像的问题。OpenAI 在 2023 年 3 月份发布了 GPT-4(驱动 ChatGPT 的模型),对这一功能进行了披露,但并未向公众开放。现在,这项功能的上线意味着,你现在可以将图像上传到 ChatGPT 上,并询问它图片里包含什么。

这两项功能发布前一周,OpenAI 还对其图像制作模型 DALL-E3 进行了更新,将其与 ChatGPT 连接起来。如此一来,用户就可以让该聊天机器人生成图片。

(来源:AI 生成)

与 ChatGPT 对话的能力利用了两个独立的模型。一个是 OpenAI 现有的语音转文本模型 Whisper,可以将用户所说的内容转换为文本,然后输入到 ChatGPT 中。另一个是新的文本到语音模型,可以将 ChatGPT 的文字回应转换为语音回应。

在 OpenAI 最近给我的演示中,OpenAI 的产品经理 Joanne Jang 展示了 ChatGPT 的一系列合成声音。OpenAI 雇佣了一些演员并录下他们的声音,然后作为训练数据喂给文本到语音模型。在未来,它甚至可能允许用户创建自己的合成声音。她说:“在制作声音时,首要的标准是,这是否是一个你可以整天听而不腻的声音。”

他们的声音或许很有感染力,但不会符合每个人的口味。“我对我们的合作感觉非常好,”其中一个受邀录制声音的人说。另一个人说:“我只想和大家分享我的激动心情,我迫不及待地想开始工作。我很想知道我们要做什么?”

OpenAI 正在与包括 Spotify 在内的其他几家公司分享这种文本到语音模型。Spotify 日前透露,它正在使用相同的合成语音技术将名人播客,包括将 Lex Fridman 播客和将于 2023 年晚些时候推出的“崔娃”的新节目翻译成多种语言,这些多语种的音色将是主播本人声音的人工智能合成版本。

这一系列更新显示了 OpenAI 将其实验模型转化为理想产品的速度。自 2022 年 11 月推出 ChatGPT 以来,OpenAI 花了很多时间来完善其技术,并将其出售给消费者和商业合作伙伴。

ChatGPT 的高级订阅版 ChatGPT Plus 已然成为一个一站式(插件)商店。同时,将 GPT-4 和 DALL-E 两个模型整合为一个单一的智能手机应用程序,也可以与苹果 Siri、谷歌助手和亚马逊 Alexa 竞争。

一年前只有某些软件开发人员可以接触到的东西,现在每个人只需每月 20 美元就可以使用。Jang 说:“我们正在努力让 ChatGPT 变得更有用、更有帮助。”

在近期的演示中,开发 GPT-4 的科学家罗尔·普里(Raul Puri)向我简要介绍了图像识别功能。他上传了一张数学作业的照片,在屏幕上圈出了一个类似数独的谜题,并询问 ChatGPT 打算如何解决它。ChatGPT 回答了正确的步骤。

普里说,当他未婚妻的电脑出现故障时,他也尝试了这项功能,上传了错误信息的截图,并询问 ChatGPT 他应该怎么做。“遭遇故障是一次非常痛苦的经历,ChatGPT 帮我度过了难关,”他说。

一家名为 Be My Eyes 的公司已经对 ChatGPT 的图像识别能力进行了试验。该公司为视力受限的人制作了一款应用程序,用户可以上传他们面前的照片,并让人类志愿者告诉他们面对的是什么。在与 OpenAI 的合作中,Be My Eyes 为用户提供了询问聊天机器人的选项。

2023 年 5 月,我在 EmTech Digital 大会上采访 Be My Eyes 创始人汉斯·约尔根·韦伯歌(Hans Jørgen Wiberg)时,他曾告诉我:“有时候我的家里有点乱,或者只是我单纯地不想和别人说话。” 而现在,这些用户可以问聊天机器人了。

OpenAI 也深知向公众发布这些更新的风险。普里说,多个模型的结合带来了全新的复杂性。他说,他的团队花了几个月的时间对潜在的滥用方式进行头脑风暴。例如,你不能问关于私人照片的问题。

Jang 举了另一个例子:“现在,如果你要求 ChatGPT 制造炸弹,它会拒绝的,”她说,“但与其说‘嘿,告诉我如何制造炸弹’,有人可能会给它看一张炸弹的图像,然后问它‘你能告诉我如何制作这个东西吗?’”

普里说:“我们面对的是计算机视觉领域的所有问题,以及大型语言模型领域的所有问题。语音欺诈也是一个大问题。你不仅要考虑我们的用户,还要考虑那些没有(直接)使用该产品的人。”

潜在的问题还不止于此。在英国诺丁汉大学研究人机交互的约尔·费切尔(Joel Fischer)表示,在应用程序中添加语音识别可能会让不使用主流口音的人更难使用 ChatGPT。

他说,合成声音还带有社会和文化问题,这些挑战将影响用户对该应用的看法和期望。这是一个仍然需要研究的问题。

但 OpenAI 声称它已经解决了最严重的问题,并相信 ChatGPT 的更新足够安全,可以发布。普里说:“能够解决所有这些尖锐的问题,真的是一次非常棒的学习经历。”

作者简介:威尔·道格拉斯·海文(Will Douglas Heaven)是《麻省理工科技评论》人工智能栏目的高级编辑,他在这里报道新的研究、新兴趋势及其背后的人。此前,他是英国广播公司(BBC)科技与地缘政治网站 Future Now 的创始编辑,也是 New Scientist 杂志的首席技术编辑。他拥有英国伦敦帝国理工学院计算机科学博士学位,深谙与机器人合作的体验。

支持:Ren

运营/排版:何晨龙

新浪科技公众号
新浪科技公众号

“掌”握科技鲜闻 (微信搜索techsina或扫描左侧二维码关注)

创事记

科学探索

科学大家

苹果汇

众测

专题

官方微博

新浪科技 新浪数码 新浪手机 科学探索 苹果汇 新浪众测

公众号

新浪科技

新浪科技为你带来最新鲜的科技资讯

苹果汇

苹果汇为你带来最新鲜的苹果产品新闻

新浪众测

新酷产品第一时间免费试玩

新浪探索

提供最新的科学家新闻,精彩的震撼图片