专题:OpenAI 发布最新旗舰模型GPT-4o 完全免费 语音功能震撼登场
来源:机器之心
作者:机器之心编辑部
ChatGPT 问世才 17 个月,OpenAI 就拿出了科幻电影里的超级 AI,而且完全免费,人人可用。
太震撼了!
当各家科技公司还在追赶大模型多模态能力,把总结文本、P 图等功能放进手机里的时候,遥遥领先的 OpenAI 直接开了大招,发布的产品连自家 CEO 奥特曼都惊叹:就像电影里一样。
![](http://n.sinaimg.cn/finance/crawl/634/w550h84/20240514/1678-7f607bae9d56c0021b38d78b6b9a1b7b.png)
5 月 14 日凌晨,OpenAI 在首次‘春季新品发布会’上搬出了新一代旗舰生成模型 GPT-4o、桌面 App,并展示了一系列新能力。这一次,技术颠覆了产品形态,OpenAI 用行动给全世界的科技公司上了一课。
今天的主持人是 OpenAI 的首席技术官 Mira Murati,她表示,今天主要讲三件事:
![](http://n.sinaimg.cn/finance/gif_image/742/w450h292/20240514/986e-gifa6eca25ff08bfa802927acefce88d261.gif)
-
第一,以后 OpenAI 做产品就是要免费优先,为的就是让更多的人能使用。
-
第二,因此 OpenAI 此次发布了桌面版本的程序和更新后的 UI,其使用起来更简单,也更自然。
-
第三,GPT-4 之后,新版本的大模型来了,名字叫 GPT-4o。GPT-4o 的特别之处在于它以极为自然的交互方式为每个人带来了 GPT-4 级别的智能,包括免费用户。
ChatGPT 的这次更新以后,大模型可以接收文本、音频和图像的任意组合作为输入,并实时生成文本、音频和图像的任意组合输出 —— 这才是属于未来的交互方式。
最近,ChatGPT 不用注册也可以使用了,今天又增加了桌面程序,OpenAI 的目标就是让人们可以随时随地的无感使用它,让 ChatGPT 集成在你的工作流中。这 AI 现在就是生产力了。
![](http://n.sinaimg.cn/finance/gif_image/162/w600h362/20240514/ee6e-gif7c476ca206ebe88aa2e5b53e8b90e674.gif)
GPT-4o 是面向未来人机交互范式的全新大模型,具有文本、语音、图像三种模态的理解力,反应极快还带有感情,也很通人性。
在现场,OpenAI 的工程师拿出一个 iPhone 演示了新模型的几种主要能力。最重要的是实时语音对话,Mark Chen 说:‘我第一次来直播的发布会,有点紧张。’ChatGPT 说,要不你深呼吸一下。
好的,我深呼吸。
![](http://n.sinaimg.cn/finance/gif_image/2/w500h302/20240514/e0e0-gif99ae5804ef554b5e0bb7e8270edd0c8e.gif)
ChatGPT 立即回答说,你这不行,喘得也太大了。
如果你之前用过 Siri 之类的语音助手,这里就可以看出明显的不同了。首先,你可以随时打断 AI 的话,不用等它说完就可以继续下一轮对话。其次,你不用等待,模型反应极快,比人类的回应还快。第三,模型能够充分理解人类的情感,自己也能表现出各种感情。
随后是视觉能力。另一个工程师在纸上现写的方程,让 ChatGPT 不是直接给答案,而是让它解释要一步步怎么做。看起来,它在教人做题方面很有潜力。
![](http://n.sinaimg.cn/finance/gif_image/162/w600h362/20240514/26ee-gif97d8d3671be9efec3204ddf2612fde86.gif)
接下来尝试 GPT-4o 的代码能力。这有一些代码,打开电脑里桌面版的 ChatGPT 用语音和它交互,让它解释一下代码是用来做什么的,某个函数是在做什么,ChatGPT 都对答如流。
输出代码的结果,是一个温度曲线图,让 ChatGPT 以一句话的方式回应所有有关此图的问题。
![](http://n.sinaimg.cn/finance/gif_image/783/w500h283/20240514/cb26-gif1699c73bc482b0bec1d65c08ff6c6ada.gif)
最热的月份在几月,Y 轴是摄氏度还是华氏度,它都能回答得上来。
OpenAI 还回应了一些 X/Twitter 上网友们实时提出的问题。比如实时语音翻译,手机可以拿来当翻译机来回翻译西班牙语和英语。
又有人问道,ChatGPT 能识别你的表情吗?
看起来,GPT-4o 已经能够做到实时的视频理解了。
接下来,就让我们详细了解下 OpenAI 今天放出的核弹。
全能模型 GPT-4o
首先介绍的是 GPT-4o,o 代表 Omnimodel(全能模型)。
第一次,OpenAI 在一个模型中集成了所有模态,大幅提升了大模型的实用性。
OpenAI CTO Muri Murati 表示,GPT-4o 提供了‘GPT-4 水准’的智能,但在 GPT-4 的基础上改进了文本、视觉和音频方面的能力,将在未来几周内‘迭代式’地在公司产品中推出。
‘GPT-4o 的理由横跨语音、文本和视觉,’Muri Murati 说道:‘我们知道这些模型越来越复杂,但我们希望交互体验变得更自然、更简单,让你完全不用关注用户界面,而只关注与 GPT 的协作。’
GPT-4o 在英语文本和代码上的性能与 GPT-4 Turbo 的性能相匹配,但在非英语文本上的性能显著提高,同时 API 的速度也更快,成本降低了 50%。与现有模型相比,GPT-4o 在视觉和音频理解方面尤其出色。
它最快可以在 232 毫秒的时间内响应音频输入,平均响应时长 320 毫秒,与人类相似。在 GPT-4o 发布之前,体验过 ChatGPT 语音对话能力的用户能够感知到 ChatGPT 的平均延迟为 2.8 秒 (GPT-3.5) 和 5.4 秒 (GPT-4)。
这种语音响应模式是由三个独立模型组成的 pipeline:一个简单模型将音频转录为文本,GPT-3.5 或 GPT-4 接收文本并输出文本,第三个简单模型将该文本转换回音频。但 OpenAI 发现这种方法意味着 GPT-4 会丢失大量信息,例如模型无法直接观察音调、多个说话者或背景噪音,也无法输出笑声、歌唱或表达情感。
而在 GPT-4o 上,OpenAI 跨文本、视觉和音频端到端地训练了一个新模型,这意味着所有输入和输出都由同一神经网络处理。
‘从技术角度来看,OpenAI 已经找到了一种方法,可以将音频直接映射到音频作为一级模态,并将视频实时传输到 transformer。这些需要对 token 化和架构进行一些新的研究,但总体来说是一个数据和系统优化问题(大多数事情都是如此)。’英伟达科学家 Jim Fan 如此评论道。
![](http://n.sinaimg.cn/finance/crawl/185/w550h435/20240514/b840-bd48a22109b749f337b3f550b83c8166.png)
GPT-4o 可以跨文本、音频和视频进行实时推理,这是向更自然的人机交互(甚至是人 - 机器 - 机器交互)迈出的重要一步。
OpenAI 总裁 Greg Brockman 也在线‘整活’,不仅让两个 GPT-4o 实时对话,还让它们即兴创作了一首歌曲,虽然旋律有点‘感人’,但歌词涵盖房间的装饰风格、人物穿着特点以及期间发生的小插曲等。
此外,GPT-4o 在理解和生成图像方面的能力比任何现有模型都要好得多,此前很多不可能的任务都变得‘易如反掌’。
比如,你可以让它帮忙把 OpenAI 的 logo 印到杯垫上:
![](http://n.sinaimg.cn/finance/crawl/383/w550h633/20240514/bbbb-470acb617b966b5b484d91982b8fafe2.png)
经过这段时间的技术攻关,OpenAI 应该已经完美解决了 ChatGPT 生成字体的问题。
同时,GPT-4o 还拥有 3D 视觉内容生成的能力,能够从 6 个生成的图像进行 3D 重建:
![](http://f.sinaimg.cn/finance/gif_image/224/w512h512/20240514/bfa0-gif2b80afd6b1f84cfa8f5f0a94abe83e95.gif)
![](http://f.sinaimg.cn/finance/gif_image/224/w512h512/20240514/0444-giff20e409dde83d462d3b0f5465f44b275.gif)
这是一首诗,GPT-4o 可以将其排版为手写样式:
![](http://n.sinaimg.cn/finance/crawl/74/w550h324/20240514/1106-f2e9bef2879b589f510a30c8699a0183.png)
![](http://n.sinaimg.cn/finance/crawl/276/w550h526/20240514/6404-42901d8fdc4acab642f8c9e30f0c0638.png)
更复杂的排版样式也能搞定:
![](http://n.sinaimg.cn/finance/crawl/140/w550h390/20240514/efd9-c2923ef3f2cdfde803b1fa9c73ff7df9.png)
![](http://n.sinaimg.cn/finance/crawl/300/w550h550/20240514/146a-220da07309256486b5143a327c0c86fb.png)
![](http://n.sinaimg.cn/finance/crawl/575/w550h825/20240514/4d7b-c49501b90901d8bab828d34a1bab2497.png)
与 GPT-4o 合作,你只需要输入几段文字,就能得到一组连续的漫画分镜:
![](http://n.sinaimg.cn/finance/gif_image/700/w960h540/20240514/0283-gife043ec8383c202812f40564e763c1069.gif)
而下面这些玩法,应该会让很多设计师有点惊讶:
![](http://n.sinaimg.cn/finance/crawl/628/w550h878/20240514/c14d-4c6e815694295c5c5b54db2c14f22041.png)
![](http://n.sinaimg.cn/finance/crawl/618/w550h868/20240514/3b85-686b375d08b5e0b6a659f38ec8c89a16.png)
![](http://n.sinaimg.cn/finance/crawl/682/w550h932/20240514/6786-c8414958666746247274bf465da94c18.png)
还有一些小众的功能,比如‘文本转艺术字’:
![](http://n.sinaimg.cn/finance/crawl/201/w550h451/20240514/e9b3-201db3d11fdc15921238eefeb9004cf4.png)
GPT-4o 性能评估结果
OpenAI 技术团队成员在 X 上表示,之前在 LMSYS Chatbot Arena 上引起广泛热议的神秘模型‘im-also-a-good-gpt2-chatbot’就是 GPT-4o 的一个版本。
![](http://n.sinaimg.cn/finance/crawl/232/w550h482/20240514/ed89-00deff0342ed9ef8ca4891c88da72d23.png)
在比较困难的 prompt 集上 —— 特别是编码方面:GPT-4o 相比于 OpenAI 之前的最佳模型,性能提升幅度尤其显著。
![](http://n.sinaimg.cn/finance/crawl/328/w550h578/20240514/d6ee-fbe693b546459451afa92ae86e3d45a2.png)
具体来说,在多项基准测试中,GPT-4o 在文本、推理和编码智能方面实现了 GPT-4 Turbo 级别的性能,同时在多语言、音频和视觉功能上实现了新高。
![](http://n.sinaimg.cn/finance/crawl/201/w550h451/20240514/05f5-e789905e860b100ffa4f095d2cf05310.png)
推理提升:GPT-4o 在 5-shot MMLU(常识问题)上创下了 87.2% 的新高分。(注:Llama3 400b 还在训练中)
![](http://n.sinaimg.cn/finance/crawl/191/w550h441/20240514/c1cc-e6d527c8e3eb09d6a95ca69dd19047cc.png)
![](http://n.sinaimg.cn/finance/crawl/153/w550h403/20240514/f1a2-1bfe06ac2d2a95f6b13df1f32bb3f79a.png)
![](http://n.sinaimg.cn/finance/crawl/157/w550h407/20240514/8606-b6866f9cccb4a1586a1cea39a2f0969e.png)
M3Exam 基准测试既是多语言评估基准也是视觉评估基准,由来自多个国家 / 地区的标准化测试多项选择题组成,并包括图形、图表。在所有语言基准测试中,GPT-4o 都比 GPT-4 更强。
未来,模型能力的提升将实现更自然、实时的语音对话,并能够通过实时视频与 ChatGPT 进行对话。例如,用户可以向 ChatGPT 展示一场现场体育比赛,并要求它解释规则。
ChatGPT 用户将免费获得更多高级功能
每周都有超过一亿人使用 ChatGPT,OpenAI 表示 GPT-4o 的文本和图像功能今天开始免费在 ChatGPT 中推出,并向 Plus 用户提供高达 5 倍的消息上限。
![](http://n.sinaimg.cn/finance/crawl/682/w550h132/20240514/bcb1-cc16930a265ce1df8fcb39fdc1e7b3b6.png)
现在打开 ChatGPT,我们发现 GPT-4o 已经可以使用了。
![](http://n.sinaimg.cn/finance/crawl/74/w550h324/20240514/8fae-a11d9761ca881b4c7643e70d070ee8f3.png)
使用 GPT-4o 时,ChatGPT 免费用户现在可以访问以下功能:体验 GPT-4 级别智能;用户可以从模型和网络获取响应。
此外,免费用户还可以有以下选择 ——
分析数据并创建图表:
![](http://n.sinaimg.cn/finance/gif_image/99/w1079h620/20240514/ca8c-gif2e4cbb0c2e3f1f7a1d6e27f80a48283f.gif)
和拍摄的照片对话:
![](http://n.sinaimg.cn/finance/gif_image/344/w460h684/20240514/397b-gif3debed76bf7e23dd59f0e7678222484f.gif)
上传文件以获取总结、写作或分析方面的帮助:
![](http://n.sinaimg.cn/finance/gif_image/299/w640h459/20240514/f384-giff48508cc83339b73b92745546f21f209.gif)
发现并使用 GPTs 和 GPT 应用商店:
![](http://n.sinaimg.cn/finance/gif_image/77/w1080h597/20240514/affb-gif087350621d2aaafb940a05d43b03ff92.gif)
以及使用记忆功能打造更有帮助的体验。
不过,根据使用情况和需求,免费用户可以使用 GPT-4o 发送的消息数量会受到限制。当达到限制时,ChatGPT 将自动切换到 GPT-3.5,以便用户可以继续对话。
此外,OpenAI 还将在未来几周内在 ChatGPT Plus 中推出新版本的语音模式 GPT-4o alpha,并通过 API 向一小部分值得信赖的合作伙伴推出对 GPT-4o 更多新的音频和视频功能。
当然了,通过多次的模型测试和迭代,GPT-4o 在所有模态下都存在一些局限性。在这些不完美的地方,OpenAI 表示正努力改进 GPT-4o。
可以想到的是, GPT-4o 音频模式的开放肯定会带来各种新的风险。在安全性问题上,GPT-4o 通过过滤训练数据和通过训练后细化模型行为等技术,在跨模态设计中内置了安全性。OpenAI 还创建了新的安全系统,为语音输出提供防护。
新的桌面 app 简化用户工作流程
对于免费和付费用户,OpenAI 还推出了适用于 macOS 的新 ChatGPT 桌面应用程序。通过简单的键盘快捷键(Option + Space),用户可以立即向 ChatGPT 提问,此外,用户还可以直接在应用程序中截取屏幕截图并进行讨论。
![](http://n.sinaimg.cn/finance/gif_image/86/w1079h607/20240514/0e6e-gif90777a94a1903d2ec8c69f93e70bbb08.gif)
现在,用户还可以直接从计算机与 ChatGPT 进行语音对话,GPT-4o 的音频和视频功能将在未来推出,通过点击桌面应用程序右下角的耳机图标来开始语音对话。
![](http://n.sinaimg.cn/finance/crawl/94/w550h344/20240514/7657-c6cc6851b0ad3071f74fb93cc1da55fd.png)
从今天开始,OpenAI 将向 Plus 用户推出 macOS 应用程序,并将在未来几周内更广泛地提供该应用程序。此外今年晚些时候 OpenAI 会推出 Windows 版本。
奥特曼:你们开源,我们免费
在发布结束后,OpenAI CEO 山姆・奥特曼久违地发表了一篇博客文章,介绍了推动 GPT-4o 工作时的心路历程:
在我们今天的发布中,我想强调两件事。
首先,我们使命的一个关键部分是将强大的人工智能工具免费(或以优惠的价格)提供给人们。我非常自豪地宣布,我们在 ChatGPT 中免费提供世界上最好的模型,没有广告或类似的东西。
当我们创立 OpenAI 时,我们的最初构想是:我们要创造人工智能并利用它为世界创造各种利益。现在情况有所变化,看起来我们将创造人工智能,然后其他人将使用它来创造各种令人惊奇的事物,我们所有人都会从中受益。
当然,我们是一家企业,会发明很多收费的东西,这将帮助我们向数十亿人提供免费、出色的人工智能服务(希望如此)。
其次,新的语音和视频模式是我用过的最好的计算交互界面。感觉就像电影里的人工智能一样,我仍然有点惊讶于它竟然是真的。事实证明,达到人类水平的响应时间和表达能力是一个巨大的飞跃。
最初的 ChatGPT 暗示了语言界面的可能性,而这个新事物(GPT-4o 版本)给人的感觉有本质上的不同 —— 它快速、智能、有趣、自然且能给人带来帮助。
对我来说,与电脑交互从来都不是很自然的事情,事实如此。而当我们添加(可选)个性化、访问个人信息、让 AI 代替人采取行动等等能力时,我确实可以看到一个令人兴奋的未来,我们能够使用计算机做比以往更多的事情。
最后,非常感谢团队为实现这一目标付出了巨大的努力!
![](http://n.sinaimg.cn/finance/crawl/117/w550h367/20240514/b391-92fd73785b8451ed63c1f1ca43be7022.png)
值得一提的是,上个星期奥特曼在一次采访中表示,虽然全民免费收入(universal basic income)难以实现,但我们可以实现‘全民免费计算 universal basic compute’。在未来,所有人都可以免费获得 GPT 的算力,可以使用、转售或捐赠。
‘这个想法是,随着 AI 变得更加先进,并嵌入到我们生活的方方面面,拥有像 GPT-7 这样的大语言模型单元可能比金钱更有价值,你拥有了部分生产力,’奥特曼解释道。
GPT-4o 的发布,或许就是 OpenAI 朝着这方面努力的一个开始。
是的,这还只是个开始。
最后提一句,今天 OpenAI 博客中展示的‘Guessing May 13th’s announcement.’的视频,几乎完全撞车谷歌明天 I/O 大会的一个预热视频,这无疑是对谷歌的贴脸开大。不知道看完今天 OpenAI 的发布,谷歌有没感到巨大压力?
![](http://n.sinaimg.cn/finance/crawl/219/w550h469/20240514/9212-12cd4a064e8443c5011a0e2299b8d0ba.png)
责任编辑:尉旖涵
![](http://img.t.sinajs.cn/t5/style/images/face/male_180.png)
![](http://img.t.sinajs.cn/t5/style/images/face/male_180.png)
![](https://tva1.sinaimg.cn/crop.0.0.180.180.50/d6fe774fjw8e70aveovw1j2050050742.jpg)
![[doge] [doge]](https://n.sinaimg.cn/commnet/2018new_doge02_org.png)
![[doge] [doge]](https://n.sinaimg.cn/commnet/2018new_doge02_org.png)
![](https://tva4.sinaimg.cn/crop.0.0.512.512.50/7ebb3f2fjw8f15ybqa9lzj20e80e8wen.jpg)
![](https://tvax1.sinaimg.cn/crop.46.265.1003.1003.50/007xYwqHly8gthh9qggz7j30u01e67bg.jpg)
![](https://tvax3.sinaimg.cn/crop.0.0.932.932.50/976505c8ly8hjp7kop6q3j20pw0pw0vq.jpg)
![](https://tva4.sinaimg.cn/crop.0.0.512.512.50/7ebb3f2fjw8f15ybqa9lzj20e80e8wen.jpg)
![](http://n.sinaimg.cn/sinanews/eb9bf575/20190108/TouXiang120.png)
APP专享直播
热门推荐
台媒:艺人王大陆因涉嫌逃兵役被逮捕,目前正接受侦讯 收起台媒:艺人王大陆因涉嫌逃兵役被逮捕,目前正接受侦讯
- 2025年02月18日
- 03:44
- APP专享
- 扒圈小记
155,278
美媒:拒绝向马斯克交出数据,美社保局长被撤职
- 2025年02月18日
- 05:36
- APP专享
- 扒圈小记
5,289
载近80人,加拿大一客机着陆时突发事故,机身翻覆现场升起浓烟!
- 2025年02月17日
- 22:08
- APP专享
- 北京时间
3,640
![新浪财经公众号 新浪财经公众号](http://n.sinaimg.cn/finance/72219a70/20180103/_thumb_23666.png)
24小时滚动播报最新的财经资讯和视频,更多粉丝福利扫描二维码关注(sinafinance)
投资研报 扫码订阅
股市直播
-
趋势领涨今天 11:57:34
=加入潜伏擒牛VIP,享四大顶级服务=【1】购买VIP自动加入私密小直播间!【2】每周3-5只超短金股调入调出服务,适合实时看盘的投资者!【3】每周一份高端内部绝密文章:包含近期布局、热点版块、指数预判!【4】每月2~3只高端中线金股服务!(VIP超短、中线个股均有涉足,让上班族也能跟上VIP节奏!)现月课7.5折,1288元!季课6.9折,3558元,续费季度更划算!新朋友可先月课体验!点网址,直接买,订购地址:【更多独家重磅股市观点请点击】【更多独家重磅股市观点请点击】 -
趋势领涨今天 11:56:15
中国人民银行行长潘功胜16日应邀出席由国际货币基金组织与沙特联合主办的新兴市场经济体研讨会,并作主旨发言。潘功胜指出,2024年,中国经济持续回升向好,实现了全年5%的经济增长目标。特别是去年9月下旬以来,中国政府推出了一揽子增量政策,有效提振社会信心,经济明显回升。下一步,中国政府将实施更加积极的财政政策和适度宽松的货币政策,强化宏观经济政策的逆周期调节,持续推动中国经济增长模式转型,巩固和增强经济回升向好势头。 -
趋势领涨今天 11:11:42
【《哪吒2》登顶全球动画电影票房榜】据网络平台数据,上映21天,《哪吒之魔童闹海》(即《哪吒2》)总票房(含预售及海外)已突破123.19亿元,超过《头脑特工队2》登顶全球动画电影票房榜,同时位居全球影史票房榜第8名。 -
趋势领涨今天 09:59:57
【6连板威派格(sh603956):公司未与DeepSeeK开展业务合作】威派格(sh603956)发布股票交易异常波动公告称,目前已连续六个交易日涨停,累计涨幅77.34%。公司最新市盈率为200.07倍,显著高于行业水平29.24倍。公司未与DeepSeeK开展业务合作,该事项对当前主营业务开展无实质影响。公司预计2024年出现亏损,基本面未发生变化。敬请广大投资者理性投资,注意二级市场风险。 -
数字江恩今天 09:56:57
abc结束之后,可以是宽幅震荡,为不一定是深幅回踩。这个区分可以看图上的红色通道,只要不跌破红色通道下轨,开始修复,然后构造底背离,就可以宽幅震荡。明日来说,看3300以上是否可以开始修复结构,只要没有持续性下跌,个股还没有系统性风险,今天只算是强力洗盘。 -
数字江恩今天 09:56:50
看5分钟图,今天明显的新高顶背离,是3220上涨以来第二次顶背离。本人在新高之后就把支撑更新到了3346。无论看3346还是第二个箱体低点,今天都跌破了,这代表这3140反弹的abc之c延伸段正式结束。【更多独家重磅股市观点请点击】 -
数字江恩今天 09:56:34
今天前deepseek概念、云概念和近几天上涨的ai医疗概念是重灾区,个股回踩幅度较大。银行坚挺。新能源上午拉起,下午也只是几乎收回涨幅。 -
数字江恩今天 09:56:30
A股两市今日成交6968 + 11023 = 17991 亿人民币,相比昨日缩量近1500亿。大盘今天上午缓慢冲高创出新高后,下午快速下跌,收跌31个点。个股方面,超过85%的个股收绿下跌,3220以来首次大幅下跌个股家数明显超过大幅上涨个股家数。 -
数字江恩今天 09:56:20
宽幅震荡开始 -
北京红竹今天 08:23:54
3、老三样不变任何的方向都不可以一直向上,虽然今天开始调整,但对于DS和人形机器人(sz300024)和铜缆,我还是重点看待。方向不变,但需要掌握节奏,DS目前指数还处于五分钟级别三买区间,急跌洗盘后还会有反复折腾。DS和人形机器人(sz300024),上周五就和大家说了资金已经有变化了,高位股资金出逃,但滞涨品种有资金流入。方向可以不变,但节奏可不能一根筋,一根筋的思维还炒啥股?当然了,当指数调整的时候,大部分投资者是不适合交易的,休息就是最好的交易。有多大的锅、就下多少的米。