南大团队基于华为昇腾突破 MoE 模型优化瓶颈：推理速度提升 2 倍以上，显存占用减半_新浪科技

IT之家 2 月 4 日消息，据“华为计算”今日消息，随着大语言模型迅猛发展，参数量已迈入千亿甚至万亿级别，MoE（IT之家注：混合专家）稀疏架构凭借兼顾模型容量与计算效率的优势，成为 AI 领域核心研究方向。

在此背景下，南京大学李猛博士团队，依托南京大学鲲鹏昇腾科教创新孵化中心的算力支持，基于华为昇腾，开展专家等价性驱动的 MoE 无损显存高效优化研究，成功攻克系列技术瓶颈，实现显存消耗降低 50% 以上、推理延迟显著提升的重要突破。

项目聚焦 MoE 模型部署的核心痛点：大参数量模型部署时，高显存占用导致仅能驻留少量热专家，大量参数需频繁在内存与显存间切换，引发严重推理延迟；同时，自主化硬件适配需求日益迫切。

团队基于对 MoE 专家冗余性与等价性的创新观察，提出软硬件协同优化方案，通过四项核心技术构建异构推理混合部署框架，实现全链路效率提升。

依托昇腾的硬件特性与 CANN 软件栈，团队针对性研发异构推理加速引擎 MoE-Ascend，涵盖动态专家路由管理、专家预测预取、算子适配等核心功能模块，实现昇腾平台的深度适配与优化。

该引擎可支持昇腾等多硬件环境，在保持模型精度无损的前提下，不仅将显存消耗降至原方案的一半，推理速度也较同类方法提升 2 倍以上，提升显存缓存命中率到 70% 以上，破解 MoE 模型对国外高端硬件的依赖。

该项目构建的推理优化工具链计划开源至昇腾社区、DeepModeling 社区及 GitHub，供科研与工程开发者复用扩展。

未来，项目成果将应用于 AI 推理平台、智能客服、语音生成等多个场景，尤其适配昇腾等自主 NPU 部署环境，为边缘侧智能服务提供支撑。

新浪科技公众号

“掌”握科技鲜闻（微信搜索techsina或扫描左侧二维码关注）

新浪科技

新浪科技为你带来最新鲜的科技资讯

苹果汇

苹果汇为你带来最新鲜的苹果产品新闻

新浪众测

新酷产品第一时间免费试玩

新浪探索

提供最新的科学家新闻，精彩的震撼图片

南大团队基于华为昇腾突破 MoE 模型优化瓶颈：推理速度提升 2 倍以上，显存占用减半