杀疯了！地表最强模型GPT-4o登场，速度提升200%、价格便宜50%，或将颠覆实时翻译等行业_新浪财经

　　来源：钛媒体AGI

　　15日谷歌Google I/O开发者大会公布 AI 产品24小时前夕，OpenAI成功抢夺了谷歌风头。

　　北京时间5月14日凌晨1点，在26分钟春季ChatGPT发布会上，美国OpenAI公司推出可实时进行音频、视觉和文本推理的全新旗舰AI模型GPT-4o，并将推出PC桌面版ChatGPT。

　　OpenAI首席技术官米拉·穆拉蒂（Mira Murati）表示，在API使用方面，相比去年11月发布的GPT-4-turbo，GPT-4o价格降低一半（50%），速度提升两倍（200%）。GPT-4o的语音和视频输入功能将在未来几周内推出。

　　需要指出的是，GPT-4o就是之前在LMSys竞赛中测试的一个版本，当时名为“im-also-a-good-gpt2-chatbot”，性能远超GPT-4 Turbo、GPT-4、Gemini等模型，再次刷新业界水平。

　　OpenAI CEO奥尔特曼（Sam Altman）发实时推文表示，新的GPT-4o模型是OpenAI有史以来最好的模型，它很智能，速度很快，它是原生多模态，并且它可供所有 ChatGPT 用户使用，无论是免费版本还是付费GPT-4版。“这对我们的使命很重要，我们希望将出色的 AI 工具交到每个人手中。”

　　OpenAI联合创始人兼总裁格雷格·布罗克曼（Greg Brockman）发GPT-4o介绍视频中表示，这是OpenAI朝着更自然的人机交互（甚至人机-计算机交互）形式迈出的重要一步。

　　发布之后，网友：它是不是完全可以替盲人看世界了？为外语行业默哀。

　　仅仅26分钟，打响了5月全球AI“军备竞赛”。同时，GPT-4o的发布，或将颠覆外语、实时翻译、音视频剪辑等众多行业。

　　ChatGPT狂飙530天，OpenAI持续发力通用大模型

　　随着2022年底 AI 聊天机器人ChatGPT风靡全球，掀起新一轮AIGC浪潮。过去530天里，研发ChatGPT背后的OpenAI公司身处聚光灯下，并迅速成长为860亿美金估值的 AI 独角兽。

　　英伟达CEO黄仁勋曾表示，ChatGPT的出现是 AI 的“iPhone时刻”。

　　2023年3月，OpenAI推出多模态大模型GPT-4，不仅理解能力、可靠性和长文本技术能力全面增强，且具备图像处理。而且在专业基准测试中，GPT-4表现近似于人类的水平，如模拟律师考试得分能排到前10%左右，击败90%的人类。

　　随后，OpenAI升级ChatGPT付费，每月达20美元；5月，OpenAI陆续推出iOS、安卓版ChatGPT应用，下载量已突破1.1 亿次，移动端应用收入近3000万美元；8月，企业版ChatGPT发布，性能比标准GPT-4快两倍。

　　2023年11月，OpenAI发布最强模型GPT-4 Turbo，提供强大上下文理解能力，支持12.8万个token，并且公布自定义大模型的GPTs、GPT Store等众多产品。然而，仅仅两周后，OpenAI突发高层“大地震”，奥尔特曼遭遇“乌龙”式罢免，五天后最终得以重掌公司大权，并组建董事会。112天后，OpenAI董事会放心表态：对Sam Altman和Greg Brockman继续领导OpenAI充满信心。

　　据公开数据显示，整个2023年，在奥尔特曼带领下，OpenAI年化收入已经超过20亿美元，同比增长4500%以上，跻身于历史增长最快的科技公司之列。

　　进入2024年，OpenAI持续“狂飙”：

2月，OpenAI发布首个AI视频大模型Sora，逼真的影视效果引爆了整个视频和电影行业；
3月，马斯克（Elon Musk）状告OpenAI，使奥尔特曼创始团队“反击”；
4月，ChatGPT全面免费注册开放，ChatGPT可以编辑DALL·E图像，新版GPT-4 Turbo向 ChatGPT 付费用户开放，ChatGPT Plus 用户实现记忆功能，以及OpenAI获得黄仁勋亲手交付的世界上首台英伟达DGX H200。

　　此次发布会之前，关于OpenAI 新品传闻甚嚣尘上，不仅包括性能超级强大的GPT-5，而且还传有对标谷歌的 AI 搜索引擎产品，以及与苹果合作研发的 AI 语音生成产品等，引发众多关注。

　　然而，奥尔特曼发推文称，此次公布的不是GPT-5，也不是 AI 搜索引擎，而是开发的一些“我们认为人们会喜欢的新东西”。

　　如今，目前全球最强的 AI 大模型GPT-4o登场。

　　米拉·穆拉蒂透露，目前有1亿多用户使用ChatGPT创造工作、学习，有100多万开发者在GPTs上创造新的工具。

　　OpenAI表示，GPT-4o（“o”代表“omni”）是迈向更自然的人机交互的一步——它接受文本、音频和图像的任意组合作为输入，并生成文本、音频和图像的任意组合输出。

　　GPT-4o可以在短至 232 毫秒的时间内响应音频输入，平均为 320 毫秒，与人类的响应时间相似。它在英语文本和代码上的性能与 GPT-4 Turbo 的性能相匹配，在非英语文本上的性能显着提高，同时 API 的速度也更快，成本降低了 50%。与现有模型相比，GPT-4o 在视觉和音频理解方面尤其出色。

　　具体来说，GPT-4o主要特色分为四部分：模型能力、基准测试、模型安全性和局限性，以及模型何时可用。

　　其中，模型能力上，在GPT-4o之前，ChatGPT语音模式对话的平均延迟为 2.8 秒（GPT-3.5）和 5.4 秒（GPT-4）。而当时，为了解决语音模式问题，就形成了三个独立模型组成的管道，但OpenAI团队发现，这个过程当中的主要智能来源GPT-4丢失了大量音调、噪音、情感等信息。如今借助 GPT-4o，OpenAI跨文本、视觉和音频端到端地训练了一个新模型，这意味着所有输入和输出都由同一神经网络处理。

　　OpenAI也举出多个例子，整体来说其具有更高的连贯性、精准度，以及更快的反馈速度。

　　传统基准测试层面，GPT-4o 在文本、推理和编码智能方面实现了 GPT-4 Turbo 级别的性能，同时在多语言、音频和视觉功能上均处于高位。在5次MMLU（常识问题）上，GPT-4o创下了87.2%的新高分，远超谷歌Gemini Pro 1.5、Ultra 1.0，以及自己的GPT-4T和GPT-4等。

　　而在语言标记化上，GPT-4o在20种语言中，实现新分词器跨不同语系压缩，压缩规模超过50%。

　　模型安全性和局限性上，GPT-4o 通过过滤训练数据和通过训练后细化模型行为等技术，在跨模式设计中内置了安全性。以及创建了新的安全系统，为语音输出提供防护。根据对网络安全、CBRN、说服力和模型自主性的评估表明，GPT-4o 在这些类别中的任何类别中的得分都不高于中等风险，而且团队继续降低发现的新风险。

　　那么，何时可用GPT-4o？主要有四个时间点：

GPT-4o 的文本和图像功能今天开始在 ChatGPT 中推出。
在免费版中提供 GPT-4o，并为 Plus 用户提供高达 5 倍的消息限制。
在未来几周内在 ChatGPT Plus 中推出带有 GPT-4o 的 Voice Mode 的新版本。
开发者现在也可以通过 API 访问 GPT-4o 作为文本和视觉模型。计划在未来几周内在 API 中向小部分测试者推出对 GPT-4o 新音频和视频功能的支持。

　　此外，OpenAI今天还宣布，免费向所有用户开放其 GPT 商店，包括创建自定义 GPT 的能力，以及即将推出ChatGPT桌面版本。

　　OpenAI强调，GPT-4o是OpenAI突破深度学习界限的最新举措，也是朝着实用性方向发展的重要一步。

　　从通用走向聚焦，下一步大模型重塑谷歌搜索引擎？

　　发布会召开前夕，360公司董事长周鸿祎就表示，以ChatGPT为代表的大模型在完全没有突破AGI（通用人工智能）能力情况下情况比较尴尬，目前能力在很多场景下无法给用户满意的答案，所以反而导致其在产品场景方面好像什么都能干，实际上很多事都干不了。同时，以perplexity为代表的AI搜索恰恰是“反其道而行之”，以搜索为场景，用大模型来重塑搜索的体验。

　　周鸿祎强调，大模型未来需要“场景的搜索”和“聚焦”，通过专用大模型可解决用户痛点或刚需，这存在巨大机遇，在GPT强大能力下重新定义场景，并找新产品出路，这或许是大模型发展的长期、正确方向。

　　实际上，OpenAI目前面临着流量增长乏力的局面。

　　自去年ChatGPT推出后，在2023年5月达到流量峰值，网络访问量达到18亿次，但之后流量出现下滑情况。2024年3月，ChatGPT的访问量依然稳定在了18亿次，不再有明显增长。

　　如今，OpenAI已聚焦到音视频、终端和搜索场景。此次现场环境和演示当中，OpenAI重点突出了端侧模型和代码生成能力等场景化应用。

　　值得一提的是，在此之前，前加拿大魁北克省人工智能研究中心（Mila）研究员、麻省理工学院讲师Lior S也在社交平台X上爆料称：OpenAI最新的 SSL证书日志显示，OpenAI已经创建了search.chatgpt.com子域名。

　　“OpenAI即将追赶谷歌搜索，这可能是谷歌有史以来面临的最大的威胁。”Lior S说。

　　随着5月14日谷歌举行I/O开发者大会，因此，一旦未来ChatGPT Search AI搜索产品发布，或将会冲击到谷歌搜索业务——如今市场占有率高达90%。

　　周鸿祎认为，未来OpenAI一定会诞生 AI 搜索类型的产品。

　　截至目前，OpenAI 方面对此拒绝置评。

　　早前奥尔特曼称，未来的AI发展不应是一场数据和算力的军备竞赛，真正的突破需要在算法效率、芯片性能、能源供给等方面取得根本性进展。OpenAI期待在算法上实现重大创新，以提高模型的运行效率。他透露，OpenAI计划在2024年夏天推出更先进的GPT-5模型。

　　针对中国不断追赶OpenAI技术更迭趋势，5月13日，创新工场董事长兼CEO、零一万物CEO李开复向钛媒体App表示，零一万物的新模型Yi-XLarge MoE已训练一半，之后会朝着美国大模型继续进步。

　　“我们不能保证一定赶上它（美国模型）、超过它，或者gap有多少，但是我们用适合我们的方法快速推进，既然我们不能用10万张GPU来训练，我们就会寻找别的方式，依然能做出非常好的效果。”李开复表示。

　　科大讯飞董事长刘庆峰曾透露，目前中美大模型差距在一年至1.5年左右。

　　奥尔特曼：预见一个激动人心的未来，我对此感到自豪

　　值得注意的是，在发布会结束后，奥尔特曼发布了一条博客，来阐述他对GPT-4o的看法。

　　他认为，这是用最低的价格甚至是免费，将最好的模型提供给世界上所有人，同时达到与人类相似的响应速度和表达能力，标志着一个重大的转变，并预见到一个激动人心的未来。

　　以下是全文内容：

　　首先，我们的使命是向人们免费（或以非常优惠的价格）提供功能强大的AI工具。

　　我为我们能在ChatGPT中免费提供世界上最先进的模型感到非常自豪，这一切都没有广告或其他干扰。

　　最初，OpenAI的设想是开发AI技术，并利用它为全球带来益处。然而，现实是我们开发了AI技术，而其他人则利用这些技术创造了令全世界受益的杰出成果。作为一家企业，我们有很多服务是需要收费的，这也支持我们向全球数十亿用户提供免费的顶尖AI服务。

　　其次，新推出的语音（及视频）模式是我使用过的最佳计算界面。它给人一种电影中AI的感觉，让人不禁惊叹这竟是真的。达到与人类相似的响应速度和表达能力，标志着一个重大的转变。

　　最初的ChatGPT已经展示了语言界面的潜力；而这一新技术则在体验上有了质的飞跃。它反应迅速、智能、有趣、自然且实用。以前，我与计算机对话从未感觉如此自然；但现在，我终于有了这种感觉。

　　随着我们逐步增加个性化选项、获取个人信息的权限、代表用户执行操作的能力等功能，我真的可以预见到一个激动人心的未来：我们能够利用计算机完成以往无法想象的更多事务。

　　最后，非常感谢我们团队的每一位成员，是他们的辛勤工作让这一切成为可能！

海量资讯、精准解读，尽在新浪财经APP

责任编辑：尉旖涵

相关专题： OpenAI 发布最新旗舰模型GPT-4o 语音功能震撼登场专题

VIP课程推荐

加载中...

APP专享直播

1/10

新浪财经公众号

24小时滚动播报最新的财经资讯和视频，更多粉丝福利扫描二维码关注（sinafinance）

杀疯了！地表最强模型GPT-4o登场，速度提升200%、价格便宜50%，或将颠覆实时翻译等行业

VIP课程推荐

APP专享直播

股市直播

7X24小时

杀疯了！地表最强模型GPT-4o登场，速度提升200%、价格便宜50%，或将颠覆实时翻译等行业

VIP课程推荐

APP专享直播

热门推荐

股市直播

7X24小时