DeepSeek发布梁文锋署名新论文:提出mHC新架构 提升大模型训练稳定性

DeepSeek发布梁文锋署名新论文:提出mHC新架构 提升大模型训练稳定性
2026年01月01日 17:34 格隆汇APP

格隆汇1月1日|DeepSeek发布新论文,提出了一种名为流形约束超连接(mHC)的新架构,旨在解决超连接网络(HC)技术因破坏恒等映射特性而导致的训练不稳定和可扩展性受限等问题。该架构通过将HC的残差连接空间映射至特定流形以恢复恒等映射特性,同时结合严格的基础设施优化以确保效率,实现了显著的性能改进和优越的可扩展性。DeepSeek预计,mHC作为HC的一种灵活实用拓展,将有助于更深入地理解拓扑架构设计,并为基座模型的演进指明有前景的方向。该论文由Zhenda Xie(解振达)、Yixuan Wei(韦毅轩)、Huanqi Cao共同担任第一作者,梁文锋也在作者名单之中。

海量资讯、精准解读,尽在新浪财经APP

VIP课程推荐

加载中...

APP专享直播

1/10

热门推荐

收起
新浪财经公众号
新浪财经公众号

24小时滚动播报最新的财经资讯和视频,更多粉丝福利扫描二维码关注(sinafinance)

股市直播

  • 图文直播间
  • 视频直播间

7X24小时

  • 01-06 至信股份 603352 --
  • 01-06 科马材料 920086 11.66
  • 12-23 蘅东光 920045 31.59
  • 12-22 新广益 301687 21.93
  • 12-22 陕西旅游 603402 80.44
  • 新浪首页 语音播报 相关新闻 返回顶部