在LLM方面Google取得成功，而Meta和OpenAI则跌跌撞撞|Meta|Google|谷歌_新浪科技

大型语言模型的早期历史由 OpenAI 主导，在较小程度上由 Meta 主导。OpenAI 的早期 GPT 模型确立了 LLM 性能的前沿，而 Meta 则通过提供强大性能的开放权重模型开辟了一个健康的利基市场。开放权重模型具有可公开访问的代码，任何人都可以自由使用、修改和部署这些代码。

本文引用地址：

这使得包括谷歌在内的一些科技巨头落后了。2017 年，谷歌发表了一篇关于支撑大型语言模型的 transformer 架构的突破性研究论文，但该公司往往因其在 2023 年推出的拙劣产品而被人们记住，而不是其创新的人工智能研究。

但 Google 强大的新 LLM，以及 Meta 和 OpenAI 的失误，正在改变这种氛围。

Llama 4 Herd 走错了蹄子

4 月 5 日星期六，Meta 出人意料地传出了 Llama 4 发布的消息。

如果在周末发布主要型号的决定让您感到奇怪，那么您并不孤单。这个时机让每个人都措手不及，并在一定程度上掩盖了接下来一周的新闻周期中的公告。

Meta 的新型开放重量级 LLM 确实有其优势。Llama 4 是多模态的，这意味着它可以处理图像、音频和其他模态。它有三种口味，Llama 4 Behemoth、Maverick 和 Scout，它们有不同的大小和强度。Llama 4 Scout 还拥有高达 1000 万个代币的巨大上下文窗口。标记是 LLM 处理和生成的小文本单元，上下文窗口是模型一次可以处理的标记数。更大的上下文窗口有助于模型 “记住” 并在单个会话中处理大量文本。大多数模型的上下文窗口为 100 万个或更少。

但是，当批评者注意到 Meta 在 LMArena 上狡猾地进行排名时，接受度变得更糟，LMArena 是一个根据用户投票对 LLM 进行排名的网站。Meta 用于排名的特定 Llama 4 模型与其通用版本的一部分提供的模型不同。 LMArena 在一份声明中表示，Meta 提供了“一个定制的模型来优化人类偏好”。

Meta 还因吹嘘 Llama 4 Scout 的 1000 万代币上下文窗口而受到抨击。虽然这个数字在技术上似乎是准确的，但长期上下文性能的基准发现 Llama 4 落后于竞争模型。

Meta 也没有发布 Llama 4 的“推理”或“思考”模型，并保留了较小的变体，尽管 Meta 表示将提供推理模型。

“他们偏离了更系统地发布的规范，在这种版本中，他们把所有的鸭子都排成一排，”AI 咨询公司 Gradient Flow 的创始人 Ben Lorika 说。“这似乎是想让人们放心，他们有一个新模型，即使他们没有所有组件，比如推理模型和更小的版本。”

GPT-4.5 被迫撤退

近几个月来，OpenAI 也遇到了困难。

GPT-4.5 于 2 月 27 日作为研究预览版发布，被吹捧为该公司“迄今为止最大和最好的聊天模型”。OpenAI 发现，事实上，它在基准测试中的表现通常优于之前的模型 GPT-4o。

然而，该模型的成本招致了批评。OpenAI 将模型的 API 访问定价为每百万个输出令牌 150 美元。这比 GPT-15o 高出惊人的 4 倍，后者的价格仅为每百万个代币 10 美元。API 是 OpenAI 为希望在其应用程序和服务中使用 OpenAI 模型的开发人员提供的方法。

“GPT-4.5 可能是 2025 年第一季度发布的最大的传统 LLM。我估计它是一个包含 5.4 万亿个参数的专家混合模型，“Life Architect 的 AI 顾问兼分析师 Alan D. Thompson 说。“这种原始规模很难用我们当前的硬件限制来证明是合理的，现在要为庞大的用户群提供服务更具挑战性。”

4 月 14 日，OpenAI 宣布将在不到三个月的时间内逐步减少通过 API 的 GPT-4.5 访问。GPT 4.5 仍然可用，但只能通过 ChatGPT 界面提供给 ChatGPT 用户。

OpenAI 在发布 GPT-4.1 的同时宣布了这一消息，GPT-4.1 是一种更经济的模型，价格为每百万个代币 8 美元。OpenAI 的基准测试表明，GPT-4.1 总体上不如 GPT 4.5 强大，尽管它在某些编码基准测试中确实表现得更好。

OpenAI 上周还发布了新的推理模型：o3 和 o4-mini。o3 模型在基准测试中的得分特别高。然而，成本再次成为一个问题，因为通过 API 访问 o3 的价格为每百万个输出代币 40 美元。

在竞争对手苦苦挣扎时，Google 崛起

Llama 4 和 ChatGPT-4.5 的中等接受度为竞争对手留下了机会——他们已经扩大了自己的优势。

Meta 艰难地推出 Llama 4 不太可能让开发人员远离 DeepSeek-V3、谷歌的 Gemma 和阿里巴巴的 Qwen2.5。这些 LLM 于 2024 年底问世，现在是 LMArena 和 HuggingFace 排行榜上的首选开放重量级模型。在流行的基准测试中，它们与 Llama 4 竞争或优于 Llama 4，通过 API 访问成本低廉，并且在某些情况下可以在消费级计算机硬件上下载和使用。

但真正引起人们眼球的是 Google 新的领先 LLM Gemini 2.5 Pro。

3 月 25 日发布的 Google Gemini 2.5 Pro 是一个“思维模型”，类似于 GPT-o1 和 DeepSeek-R1，它使用自我提示来推理任务。Gemini 2.5 Pro 是多模态的，具有 100 万个代币的上下文窗口，并支持深度研究。

Gemini 2.5 很快就赢得了基准测试的胜利，包括 SimpleBench 的头把交椅（尽管它在 4 月 16 日输给了 OpenAI 的 o3）和 Artificial Analysis 的综合 AI 智能指数。Gemini 2.5 Pro 目前也位于 LMArena 的顶部。截至 4 月 14 日，谷歌型号已经占据了 LMArena 前 10 名中的 5 个（这包括 Gemini 2.5 Pro、Gemini 2.0 的三个变体和 Gemma 3-27B）。

强劲的表现足以吸引注意力，但谷歌也是价格领导者。Google Gemini 2.5 目前可通过 Google 的 Gemini 应用程序和 Google 的 AI Studio 网站免费使用。Google 的 API 定价也很有竞争力;Gemini 2.5 Pro 的定价为每 100 万个输出代币 10 美元，而 Gemini 2.0 Flash 的定价仅为每 100 万个代币 40 美分。

“老实说，当谈到高容量时，我可能最终会使用 DeepSeek-R1 或 Google Gemini 进行推理。我会使用 OpenAI，但我觉得我必须更加注意价格，“Lolica 说。

当然，这并不是说 Meta 和 OpenAI 沉没了。由于 ChatGPT 的流行，OpenAI 尤其有回旋余地，据报道，ChatGPT 现在拥有 10 亿用户。尽管如此，Gemini 的强劲排名和基准表现表明，LLM 领域正在吹动变革之风——他们目前更青睐 Google。