在LLM方面Google取得成功,而Meta和OpenAI则跌跌撞撞

在LLM方面Google取得成功,而Meta和OpenAI则跌跌撞撞
2025年04月25日 15:38 电子产品世界

大型语言模型 的早期历史由 OpenAI 主导,在较小程度上由 Meta 主导。OpenAI 的早期 GPT 模型确立了 LLM 性能的前沿,而 Meta 则通过提供强大性能的开放权重模型开辟了一个健康的利基市场。开放权重模型具有可公开访问的代码,任何人都可以自由使用、修改和部署这些代码。

本文引用地址:

这使得包括谷歌在内的一些科技巨头落后了。2017 年,谷歌发表了一篇关于支撑大型语言模型的 transformer 架构的突破性研究论文,但该公司往往因其在 2023 年推出的拙劣产品而被人们记住,而不是其创新的人工智能研究。

Google 强大的新 LLM,以及 MetaOpenAI 的失误,正在改变这种氛围。

Llama 4 Herd 走错了蹄子

4 月 5 日星期六,Meta 出人意料地传出了 Llama 4 发布的消息。

如果在周末发布主要型号的决定让您感到奇怪,那么您并不孤单。这个时机让每个人都措手不及,并在一定程度上掩盖了接下来一周的新闻周期中的公告。

Meta 的新型开放重量级 LLM 确实有其优势。Llama 4 是多模态的,这意味着它可以处理图像、音频和其他模态。它有三种口味,Llama 4 Behemoth、Maverick 和 Scout,它们有不同的大小和强度。Llama 4 Scout 还拥有高达 1000 万个代币的巨大上下文窗口。标记是 LLM 处理和生成的小文本单元,上下文窗口是模型一次可以处理的标记数。更大的上下文窗口有助于模型 “记住” 并在单个会话中处理大量文本。大多数模型的上下文窗口为 100 万个或更少。

但是,当批评者注意到 Meta 在 LMArena 上狡猾地进行排名时,接受度变得更糟,LMArena 是一个根据用户投票对 LLM 进行排名的网站。Meta 用于排名的特定 Llama 4 模型与其通用版本的一部分提供的模型不同。 LMArena 在一份声明中表示,Meta 提供了“一个定制的模型来优化人类偏好”。

Meta 还因吹嘘 Llama 4 Scout 的 1000 万代币上下文窗口而受到抨击。虽然这个数字在技术上似乎是准确的,但长期上下文性能的基准发现 Llama 4 落后于竞争模型。

Meta 也没有发布 Llama 4 的“推理”或“思考”模型,并保留了较小的变体,尽管 Meta 表示将提供推理模型。

“他们偏离了更系统地发布的规范,在这种版本中,他们把所有的鸭子都排成一排,”AI 咨询公司 Gradient Flow 的创始人 Ben Lorika 说。“这似乎是想让人们放心,他们有一个新模型,即使他们没有所有组件,比如推理模型和更小的版本。”

GPT-4.5 被迫撤退

近几个月来,OpenAI 也遇到了困难。

GPT-4.5 于 2 月 27 日作为研究预览版发布,被吹捧为该公司“迄今为止最大和最好的聊天模型”。OpenAI 发现,事实上,它在基准测试中的表现通常优于之前的模型 GPT-4o。

然而,该模型的成本招致了批评。OpenAI 将模型的 API 访问定价为每百万个输出令牌 150 美元。这比 GPT-15o 高出惊人的 4 倍,后者的价格仅为每百万个代币 10 美元。API 是 OpenAI 为希望在其应用程序和服务中使用 OpenAI 模型的开发人员提供的方法。

“GPT-4.5 可能是 2025 年第一季度发布的最大的传统 LLM。我估计它是一个包含 5.4 万亿个参数的专家混合模型,“Life Architect 的 AI 顾问兼分析师 Alan D. Thompson 说。“这种原始规模很难用我们当前的硬件限制来证明是合理的,现在要为庞大的用户群提供服务更具挑战性。”

4 月 14 日,OpenAI 宣布将在不到三个月的时间内逐步减少通过 API 的 GPT-4.5 访问。GPT 4.5 仍然可用,但只能通过 ChatGPT 界面提供给 ChatGPT 用户。

OpenAI 在发布 GPT-4.1 的同时宣布了这一消息,GPT-4.1 是一种更经济的模型,价格为每百万个代币 8 美元。OpenAI 的基准测试表明,GPT-4.1 总体上不如 GPT 4.5 强大,尽管它在某些编码基准测试中确实表现得更好。

OpenAI 上周还发布了新的推理模型:o3 和 o4-mini。o3 模型在基准测试中的得分特别高。然而,成本再次成为一个问题,因为通过 API 访问 o3 的价格为每百万个输出代币 40 美元。

在竞争对手苦苦挣扎时,Google 崛起

Llama 4 和 ChatGPT-4.5 的中等接受度为竞争对手留下了机会——他们已经扩大了自己的优势。

Meta 艰难地推出 Llama 4 不太可能让开发人员远离 DeepSeek-V3、谷歌的 Gemma 和阿里巴巴的 Qwen2.5。这些 LLM 于 2024 年底问世,现在是 LMArena 和 HuggingFace 排行榜上的首选开放重量级模型。在流行的基准测试中,它们与 Llama 4 竞争或优于 Llama 4,通过 API 访问成本低廉,并且在某些情况下可以在消费级计算机硬件上下载和使用。

但真正引起人们眼球的是 Google 新的领先 LLM Gemini 2.5 Pro。

3 月 25 日发布的 Google Gemini 2.5 Pro 是一个“思维模型”,类似于 GPT-o1 和 DeepSeek-R1,它使用自我提示来推理任务。Gemini 2.5 Pro 是多模态的,具有 100 万个代币的上下文窗口,并支持深度研究。

Gemini 2.5 很快就赢得了基准测试的胜利,包括 SimpleBench 的头把交椅(尽管它在 4 月 16 日输给了 OpenAI 的 o3)和 Artificial Analysis 的综合 AI 智能指数。Gemini 2.5 Pro 目前也位于 LMArena 的顶部。截至 4 月 14 日,谷歌型号已经占据了 LMArena 前 10 名中的 5 个(这包括 Gemini 2.5 Pro、Gemini 2.0 的三个变体和 Gemma 3-27B)。

强劲的表现足以吸引注意力,但谷歌也是价格领导者。Google Gemini 2.5 目前可通过 Google 的 Gemini 应用程序和 Google 的 AI Studio 网站免费使用。Google 的 API 定价也很有竞争力;Gemini 2.5 Pro 的定价为每 100 万个输出代币 10 美元,而 Gemini 2.0 Flash 的定价仅为每 100 万个代币 40 美分。

“老实说,当谈到高容量时,我可能最终会使用 DeepSeek-R1 或 Google Gemini 进行推理。我会使用 OpenAI,但我觉得我必须更加注意价格,“Lolica 说。

当然,这并不是说 Meta 和 OpenAI 沉没了。由于 ChatGPT 的流行,OpenAI 尤其有回旋余地,据报道,ChatGPT 现在拥有 10 亿用户。尽管如此,Gemini 的强劲排名和基准表现表明,LLM 领域正在吹动变革之风——他们目前更青睐 Google。

MetaGoogle谷歌
新浪科技公众号
新浪科技公众号

“掌”握科技鲜闻 (微信搜索techsina或扫描左侧二维码关注)

创事记

科学探索

科学大家

苹果汇

众测

专题

官方微博

新浪科技 新浪数码 新浪手机 科学探索 苹果汇 新浪众测

公众号

新浪科技

新浪科技为你带来最新鲜的科技资讯

苹果汇

苹果汇为你带来最新鲜的苹果产品新闻

新浪众测

新酷产品第一时间免费试玩

新浪探索

提供最新的科学家新闻,精彩的震撼图片