移动客户端

滚动新闻 > 正文

刚刚，DeepSeek开源V3.2-Exp，公开新稀疏注意力机制DSA

刚刚，DeepSeek开源V3.2-Exp，公开新稀疏注意力机制DSA

2025年09月29日 18:29 市场资讯

新浪财经APP 缩小字体放大字体收藏微博微信

　　来源：机器之心

　　还是熟悉的节奏！

　　在假期前一天，DeepSeek 果然搞事了。

　　刚刚，DeepSeek-V3.2-Exp 开源了！

　　该模型参数量为 685B，HuggingFace 链接：

　　https：//huggingface.co/deepseek-ai/DeepSeek-V3.2-Exp

　　此外，此次发布竟然也同步公开了论文，公开了 DeepSeek 新的稀疏注意力机制，为我们提供了更多结束细节：

　　https：//github.com/deepseek-ai/DeepSeek-V3.2-Exp/blob/main/DeepSeek_V3_2.pdf

　　DeepSeek Sparse Attention（DSA）稀疏注意力机制

　　在官方介绍中，DeepSeek 表示 DeepSeek-V3.2-Exp 是实验版本。作为迈向下一代架构的过渡，V3.2-Exp 在 V3.1-Terminus 的基础上引入了 DeepSeek 稀疏注意力机制（DeepSeek Sparse Attention，DSA）—— 一种旨在探索和验证在长上下文场景下训练和推理效率优化的稀疏注意力机制。

　　DSA 也是 3.2 版本的唯一架构改进。

　　DeepSeek-V3.2-Exp 的架构，其中 DSA 在 MLA 下实例化。

　　重点要说的是，DeepSeek 称该实验版本代表了他们对更高效的 Transformer 架构的持续研究，特别注重提高处理扩展文本序列时的计算效率。

　　在 v3.2 版本中，DeepSeek 稀疏注意力（DSA）首次实现了细粒度稀疏注意力，在保持几乎相同的模型输出质量的同时，显著提高了长上下文训练和推理效率。

　　为了严格评估引入稀疏注意力机制的影响，DeepSeek 特意将 DeepSeek-V3.2-Exp 的训练配置与 9 月 22 日刚刚推出的 V3.1-Terminus 进行了对比。在各个领域的公开基准测试中，DeepSeek-V3.2-Exp 的表现与 V3.1-Terminus 相当。

　　更多信息，读者们可以查阅 DeepSeek-V3.2-Exp 的 huggingface 介绍。

　　值得一提的是，智谱的 GLM-4.6 也即将发布，在 Z.ai 官网可以看到，GLM-4.5 标识为上一代旗舰模型。

　　最后，有一波小节奏。在模型发布前，已经有网友在 Community 里发帖称：国庆是休息日，请给我们关注的同学一点休息时间。

　　对此，你怎么看？

海量资讯、精准解读，尽在新浪财经APP

责任编辑：何俊熹

文章关键词：注意力

VIP课程推荐

加载中...

APP专享直播

上一页下一页

1/10

新浪财经公众号

新浪财经公众号

24小时滚动播报最新的财经资讯和视频，更多粉丝福利扫描二维码关注（sinafinance）

股市直播

7X24小时

新浪首页语音播报返回顶部