腾讯混元开源两大新模型：3890 亿参数最大 MoE，3D 大模型生成资产仅需 10 秒|腾讯|闭源_新浪科技

摘要

面向实用场景，腾讯混元两大核心模型开源。

关于大模型开源还是闭源，业界争议已久。有认为同样参数规模下，开源模型能力不如闭源的，坚定看好闭源路线的，也有认为只有开源才能在推动了技术的发展，促进产业整体繁荣的。

腾讯则又一次选择了开源。在5月开源混元文生图大模型后，11月5日，腾讯又开源了两款大模型，分别是最新的MoE模型“混元Large“以及混元3D生成大模型“ Hunyuan3D-1.0”，支持企业及开发者精调、部署等不同场景的使用需求，可在HuggingFace、Github等技术社区直接下载，免费可商用。

腾讯机器学习技术总监，混元算法负责人康战辉认为，不同的业务需求决定了是否采用开源或闭源策略。对于一些超级复杂的业务，闭源模型更能提供高效的解决方案，因为它能在成本和用户能力的提升上做到更优。相比之下，开源模型则面向不同类型的开发者，尤其是中小企业和个人开发者，降低了他们的技术门槛，并且能够通过广泛的社区合作来推动技术的不断发展。

他强调，腾讯的战略是基于长期主义，不急功近利。尽管大模型的开源在市场上如火如荼，但腾讯并不认为开源有“早晚之分”。此次开源也是在经过一年多的探索，在闭源模式下，将产品和技术积累到一定程度后，才选择了开源。他们的目标是深耕AI时代的基础设施建设，将大模型打磨成熟后开放给开发者，并通过不断完善与优化来增强社区的信任和认可。

开源Hunyuan-Large：最大参数的MoE架构模型

腾讯Hunyuan-Large（混元Large）模型总参数量 389B，激活参数量 52B ，上下文长度高达256K，公开测评结果显示，在CMMLU、MMLU、CEval、MATH等多学科综合评测集以及中英文NLP任务、代码和数学等9大维度上，腾讯混元Large全面领先，超过Llama3.1、Mixtral等一流的开源大模型。

此外，混元Large模型，与腾讯混元Pro、混元Turbo等不同尺寸的模型共享基础架构，源自腾讯同一技术体系。

混元Large 在各类测试集上得分领先现有主流开源模型｜图片来源：腾讯

混元Large在模型结构和训练策略上进行了全面的技术突破。首先，在结构创新上，混元Large深入探索了MoE（混合专家）Scaling Law，推出了共享专家路由和回收路由等优化策略，并采用专家特化的学习率调整策略，显著提升了不同专家的利用效率和模型的稳定性，从而带来了效果上的提升。

MoE模型的优势在于它通过专家路由机制，只激活部分专家进行计算，因此能够以较低的计算成本处理更大规模的任务。与Dense模型相比，MoE在训练和推理时的计算效率更高，同时可以通过增加专家数量，扩展模型的容量和智能水平。

虽然MoE有很多优势，但它在业界应用不多，主要是因为实现起来很难。MoE也有一些挑战，比如MoE的训练稳定性较差，涉及多个专家时容易出现负载不均衡，训练起来非常复杂。其次，由于专家之间的负载差异，某些专家可能训练不足，导致模型收敛困难，最终影响预测准确性。

在模型后期训练（Post-Train）中，混元Large也做了大量优化。它通过分类提升了数学、逻辑推理、代码等方面的能力，应对了SFT（监督微调）领域多样、数学和代码高质量数据难获取等挑战，并在一阶段离线DPO（离线偏好优化）基础上，增设了二阶段的在线强化策略，进一步优化了模型的表现。

数据方面，腾讯混元Large建立了涵盖数十个类目、具备高质量和多样性的中英文数据集，使模型在多方面的效果有明显提升，尤其在数学和代码处理方面，性能提高超过10%。为应对长文阅读理解和多文档总结等领域的测评难题，腾讯还基于公开数据开发了企鹅卷轴（PenguinScrolls）数据集，计划对外开放，以支持长文方向的技术研究。

这些长文处理能力已应用到腾讯AI助手腾讯元宝中，支持最多256K长度的上下文处理，相当于整本《三国演义》的文字量。用户可以一次上传10个文档，或解析多个微信公众号链接与网址，让元宝具备深度解析的独特能力。

在工程平台方面，腾讯自研的Angel机器学习平台为混元Large提供了强大的训练和推理支持。针对MoE模型的通信效率问题，AngelPTM框架进行了多项优化，使训练速度达到了主流框架DeepSpeed的2.6倍。推理方面，腾讯还推出了AngelHCF-vLLM框架，在保证精度的前提下节省了50%以上的显存，相较于BF16主流框架提升了1倍以上的吞吐量。

目前，混元Large模型已上架腾讯云的TI平台。TI平台不仅配备了大模型精调工具链，支持灵活的数据标注，还提供Angel加速能力，让用户可以便捷地启动混元Large的精调，帮助企业快速训练出符合业务需求的专属大模型，显著提升研发效率。

同时，腾讯还开放了混元大模型PaaS平台，支持十余种API服务，涵盖了文字生成、图像生成、角色扮演、FunctionCall、代码等多种需求，满足不同场景下的模型应用。

经过在腾讯内部广泛应用和验证，混元大模型的能力已嵌入到包括腾讯元宝、微信公众号、小程序、微信读书、腾讯广告、腾讯游戏、腾讯会议等近700个内部业务和场景中。

混元3D-1.0模型：3D生成开源先锋

腾讯这次开源的混元3D生成大模型则是业界首个同时支持文字、图像生成3D的开源大模型，可以帮助 3D 创作者和艺术家实现 3D 资产的自动化生成。

此前，Stability AI先后与VAST合作开源了快速3D物体重建模型TripoSR、与Tripo AI联合开源了Stable Fast 3D模型，但整体而言，业界3D生成大模型的开源依旧较为稀缺，这主要是因为3D生成技术在计算资源、技术门槛和数据获取方面的要求远高于2D模型。

混元3D-1.0模型生成的3D资产｜图片来源：腾讯

3D生成大模型的开发对计算资源要求高，且技术和成本门槛远超2D模型；同时，3D数据获取难度大、数据稀缺，进一步限制了开源的可行性。此外，由于3D生成模型应用市场较窄，企业倾向于保留技术优势，腾讯此次开源Hunyuan3D，成为了推动行业进步的一个重要突破。

此次首批开源模型包含轻量版和标准版，轻量版仅需10s即可生成高质量3D资产，现已在技术社区公开，包含模型权重、推理代码、模型算法等完整模型，可供开发者、研究者等各类用户免费使用。

此外，Hunyuan3D-1.0也已登陆腾讯云HAI平台，利用其高性价比的GPU算力和一键部署功能，降低了模型的使用和部署门槛。通过HAI的可视化WebUI界面，用户能够更轻松地使用该模型，为3D资产创作提供了更多可能。

Hunyuan3D-1.0解决了现有3D生成模型在生成速度和泛化能力上的不足，能够帮助3D创作者和艺术家自动化生产3D资产。该模型不仅具备强大的泛化能力和可控性，还能重建各种尺度的物体，从建筑到小型工具或花草都能轻松处理。根据定性和定量的多维度评估，Hunyuan3D-1.0的生成质量已达到开源模型中的领先水平。

在两个公开的3D数据集——GSO和OmniObject3D上，Hunyuan3D-1.0的表现优于主流开源模型，整体能力属于国际领先水平。从细节层面看，该模型在几何、纹理、纹理-几何一致性、3D合理性和指令遵循等方面的表现都非常出色。

在应用方面，3D生成技术已经开始在腾讯的多个业务中落地。例如，腾讯地图基于混元3D大模型发布了自定义3D导航车标功能，用户可以创作个性化的3D车标，相比传统方案，生成速度提高了91%。此外，腾讯元宝APP也上线了“3D角色梦工厂”功能，支持个性化的UGC 3D人物生成。

之所以在这个时间点选择开源3D生成大模型，腾讯混元3D模型负责人郭春超谈到，一方面是因为腾讯业务非常丰富，从公司自身业务出发做3D生成是极其有必要的，毕竟动漫、游戏、影视这种偏娱乐类的项目都离不开3D资产，另一方面则是因为3D生成还处于前半程发展阶段，它要进一步发展，需要社区一起努力，需要有更好的模型、更强的生成能力释放出来，所以这次开源也是为了推动这一领域的进一步发展。

随着腾讯在自研大模型技术上的不断进步和应用经验的积累，开源已成为混元大模型的战略之一。可以看出，腾讯开源战略的核心是从公司自身的业务需求出发，逐步开放具有核心竞争力的模型。开源的大模型首先要考虑的是腾讯的内部技术积累和业务需求，确保技术的可用性和商业价值。在确保核心模型得到充分应用后，会再逐步推出一些更为小型的模型，以适应多样化的市场需求，并为更广泛的开发者提供支持。

另外，此次大模型开源的是参数权重，并不涉及到数据和代码，但是接下来混元会往前走一步，会把训练的代码开源出来，同时会把评估期开源出来，康战辉称，「希望向业界展示更多的诚意」。