DeepSeek惊艳全球，美国大模型两巨头齐发声：并不比我们先进|AI_新浪财经

来源：华尔街见闻

Anthropic CEO阿莫迪认为DeepSeek的训练成本降低符合行业趋势，并不代表突破性的技术成就：假设AI训练成本的下降趋势是每年4 倍，如果DeepSeek-V3的训练成本比一年前开发的美国当前模型低约8倍，那其实完全符合正常趋势......即使接受 DeepSeek 的训练成本数据，他们也只是处于趋势线上，甚至可能还未完全达到。

DeepSeek R1的横空出世给全球AI行业带来了新的变数。面对冲击，美国两大AI巨头Anthropic与OpenAI迅速做出回应，试图淡化市场对其技术领先地位的担忧。

周三，Anthropic 首席执行官达里奥·阿莫迪 (Dario Amodei) 发布了一篇长文讨论了DeepSeek的进展，他指出DeepSeek 并没有“用 600 万美元做到美国 AI 公司花费数十亿美元才能实现的事情”。以 Anthropic 为例，Claude 3.5 Sonnet 是一个中等规模的模型，训练成本达数千万美元，远不是数十亿美元级别。

他认为DeepSeek的训练成本降低符合行业趋势，并不代表突破性的技术成就：

如果 AI 训练成本的下降趋势是每年 4 倍，如果 DeepSeek-V3 的训练成本比一年前开发的美国当前模型低约 8 倍，那其实完全符合正常趋势......即使接受 DeepSeek 的训练成本数据，他们也只是处于趋势线上，甚至可能还未完全达到。

此前一天，OpenAI首席研究员Mark Chen也对DeepSeek R1做出回应，其态度既肯定又带有一丝微妙。

Chen承认DeepSeek"独立发现了OpenAI在o1模型研发过程中的一些核心理念"，然而，Chen随即将焦点转移到成本问题上，认为"外界对成本优势的解读有些过头"。

但纽约大学教授、AI专家Gary Marcus认为，DeepSeek对OpenAI的影响可能比想象中更大。

Anthropic CEO：DeepSeek并未打破行业趋势

阿莫迪先系统拆解了AI发展的三大定律：

规模法则

AI 的一个核心特性是规模驱动性能提升。我和我的联合创始人在 OpenAI 工作时，曾是最早记录这一特性的人之一。在其他条件相同的情况下，训练规模越大，AI 在一系列认知任务上的表现越稳定、越出色。例如，100 万美元训练的模型可能能解决 20% 的关键编码任务，而 1000 万美元的模型可能达到 40%，1 亿美元的模型则可能提高到 60%。这种差距往往极具实际影响——再增加 10 倍的计算量，可能意味着从本科生的水平跃升至博士生的能力。因此，各公司正投入巨额资金训练更大规模的模型。

计算成本的下降

AI 领域不断涌现新的优化思路，使模型训练更高效。这可能是架构上的改进（例如对 Transformer 的优化），也可能是底层硬件的效率提升。这些创新会降低训练成本：如果某项技术创新带来 2 倍的计算效率提升，那么本需要 1000 万美元的训练任务，如今只需 500 万美元即可完成。

每家前沿 AI 公司都在不断发现这样的优化方案，通常提升幅度为 1.2 倍，有时是 2 倍，偶尔甚至能达到 10 倍。由于更智能的 AI 价值极高，成本效率的提升几乎总是被用于训练更强的模型，而不是降低总支出——换句话说，公司只会在更大的规模上投入更多资源。

从历史趋势来看，由于算法和硬件的改进，AI 训练的计算成本每年下降约 4 倍。这意味着，仅靠行业的正常发展，2024 年训练一个模型的成本，理应比 2023 年低 3 到 4 倍。

同时，训练成本的下降也带动了推理成本的下降。比如，Claude 3.5 Sonnet 相较 GPT-4 晚了 15 个月发布，但几乎在所有基准测试中都胜出，同时 API 价格也下降了约 10 倍。

训练范式的变化

AI 训练方法也在不断演变。从 2020 年到 2023 年，行业的主要扩展方式是增加预训练规模，即在海量互联网文本上训练模型，然后辅以少量额外训练。而 2024 年，强化学习（RL）训练成为了新的关键突破口。这一方法显著提升了 AI 在数学、编程竞赛等推理任务上的表现。例如，OpenAI 在 9 月发布的 o1-preview 模型，就采用了这一技术。

我们仍处于 RL 训练扩展的早期阶段。现阶段，即便只额外投入 100 万美元进行 RL 训练，也能带来巨大收益。公司们正加速扩大 RL 训练规模，但目前 AI 仍处于一个独特的拐点——这意味着只要起点足够强，短期内多个公司都能推出性能相近的模型。

阿莫迪指出以上三点有助于理解 DeepSeek 最近的发布。大约一个月前，DeepSeek 推出了 DeepSeek-V3，一个仅进行预训练的模型。随后，上周他们发布了 R1，加入了第二阶段的强化学习训练。

阿莫迪表示，DeepSeek-V3 其实是一个值得关注的创新。作为预训练模型，它在某些任务上接近了美国最先进模型的性能，同时训练成本显著降低，尽管在现实世界任务，如编码能力等方面，Claude 3.5 Sonnet 仍遥遥领先。DeepSeek 团队在键值缓存管理和专家混合架构等方面做出了一些真正出色的工程优化。

但阿莫迪认为，有几点需要澄清：

DeepSeek 并没有“用 600 万美元做到美国 AI 公司花费数十亿美元才能实现的事情”。以 Anthropic 为例，Claude 3.5 Sonnet 是一个中等规模的模型，训练成本达数千万美元，远不是数十亿美元级别。并且，Claude 3.5 Sonnet 训练于 9-12 个月前，而 DeepSeek 的模型训练于 2023 年 11 月至 12 月，即便如此，Claude 3.5 Sonnet 在多个关键评估中仍明显领先。

DeepSeek 的训练成本并未突破行业趋势。如果成本曲线下降的历史趋势是每年约 4 倍，那么按照正常业务发展——即 2023 年和 2024 年的成本下降趋势——我们现在应该会看到一个比 3.5 Sonnet/GPT-4 便宜 3 到 4 倍的模型。然而，DeepSeek-V3 的性能比这些美国前沿模型差一些——假设在扩展曲线上差约 2 倍，这已经是对 DeepSeek-V3 相当慷慨的估计了——这意味着，如果 DeepSeek-V3 的训练成本比一年前开发的美国当前模型低约 8 倍，那其实完全符合正常趋势。我虽不便给出确切数字，但从前面的分析可以看出，即使接受 DeepSeek 的训练成本数据，他们也只是处于趋势线上，甚至可能还未完全达到。比如，这比原始 GPT-4 到 Claude 3.5 Sonnet 的推理价格差异（10 倍）要小，而且 3.5 Sonnet 本身也是一个比 GPT-4 更好的模型。这些都表明，DeepSeek-V3 并非独特的突破，也没有从根本上改变 LLM 的经济性，它只是持续成本降低曲线上一个预期的点。不同的是，这次第一个展示预期成本降低的公司是中国的，这在以往从未有过，具有重大的地缘政治意义。不过，美国公司很快也会跟上这一趋势——他们不会通过抄袭 DeepSeek 来实现成本降低，而是因为他们自身也在沿着常规的成本降低趋势发展。

DeepSeek 不是第一个实现成本优化的公司，但它是第一个来自中国的公司。这一点在地缘政治上意义重大。但同样，美国 AI 公司也会很快跟进——并不是通过抄袭 DeepSeek，而是因为它们本就沿着同样的技术路线前进。

此外，阿莫迪指出，DeepSeek 拥有50000 颗 Hopper 代 GPU，估值约 10 亿美元，与主要美国 AI 公司持有的芯片规模相差 2-3 倍。这意味着 DeepSeek 的整体投入并不比美国 AI 实验室少太多。

阿莫迪表示，上周发布的 R1 之所以引发关注（甚至导致英伟达股价下跌 17%），并不是因为它在技术上比 V3 更具创新性。它的强化学习训练本质上只是复制了 OpenAI 在 o1-preview 模型中的做法。由于 AI 训练仍处于 RL 扩展的早期，几家公司目前能产出相似水平的模型，但这一状况不会持续太久，随着扩展规模的扩大，领先者很快会拉开差距

OpenAI高管：外界对成本优势的解读有些过头

OpenAI首席研究员Mark Chen在社交媒体上对DeepSeek的成就表示祝贺：