南大团队基于华为昇腾突破 MoE 模型优化瓶颈:推理速度提升 2 倍以上,显存占用减半

南大团队基于华为昇腾突破 MoE 模型优化瓶颈:推理速度提升 2 倍以上,显存占用减半
2026年02月04日 20:02 IT之家

IT之家 2 月 4 日消息,据“华为计算”今日消息,随着大语言模型迅猛发展,参数量已迈入千亿甚至万亿级别,MoE(IT之家注:混合专家)稀疏架构凭借兼顾模型容量与计算效率的优势,成为 AI 领域核心研究方向。

在此背景下,南京大学李猛博士团队,依托南京大学鲲鹏昇腾科教创新孵化中心的算力支持,基于华为昇腾,开展专家等价性驱动的 MoE 无损显存高效优化研究,成功攻克系列技术瓶颈,实现显存消耗降低 50% 以上、推理延迟显著提升的重要突破

项目聚焦 MoE 模型部署的核心痛点:大参数量模型部署时,高显存占用导致仅能驻留少量热专家,大量参数需频繁在内存与显存间切换,引发严重推理延迟;同时,自主化硬件适配需求日益迫切。

团队基于对 MoE 专家冗余性与等价性的创新观察,提出软硬件协同优化方案,通过四项核心技术构建异构推理混合部署框架,实现全链路效率提升

依托昇腾的硬件特性与 CANN 软件栈,团队针对性研发异构推理加速引擎 MoE-Ascend,涵盖动态专家路由管理、专家预测预取、算子适配等核心功能模块,实现昇腾平台的深度适配与优化。

该引擎可支持昇腾等多硬件环境,在保持模型精度无损的前提下,不仅将显存消耗降至原方案的一半,推理速度也较同类方法提升 2 倍以上,提升显存缓存命中率到 70% 以上,破解 MoE 模型对国外高端硬件的依赖。

该项目构建的推理优化工具链计划开源至昇腾社区、DeepModeling 社区及 GitHub,供科研与工程开发者复用扩展。

未来,项目成果将应用于 AI 推理平台、智能客服、语音生成等多个场景,尤其适配昇腾等自主 NPU 部署环境,为边缘侧智能服务提供支撑。

新浪科技公众号
新浪科技公众号

“掌”握科技鲜闻 (微信搜索techsina或扫描左侧二维码关注)

创事记

科学探索

科学大家

苹果汇

众测

专题

官方微博

新浪科技 新浪数码 新浪手机 科学探索 苹果汇 新浪众测

公众号

新浪科技

新浪科技为你带来最新鲜的科技资讯

苹果汇

苹果汇为你带来最新鲜的苹果产品新闻

新浪众测

新酷产品第一时间免费试玩

新浪探索

提供最新的科学家新闻,精彩的震撼图片