WAIC 最具技术想象力成果发布：新架构面壁小钢炮又一次验证并加速了面壁定律|推理|凯尔·洛瑞|定律_新浪科技

2020 年，1750 亿参数规模的 GPT-3 问世。彼时，完整训练 1750 亿参数的模型需要 3.14E11（TFLOPS）的每秒浮点运算量。如果使用英伟达 80GB A100 GPU（16位浮点算力有 312 TFLOPS，但在分布式环境中很难达到峰值），按照每张显卡 1.5 刀每小时的租赁价格来算，则需要使用一千张 A100 、花费81.6 万刀、用 22 天才能完成整个训练过程。

2024 年，大模型只需使用 2B 的参数规模即可达到和 2020 年的 GPT-3 一样的性能表现。

这一现象，类似于半导体领域中的「摩尔定律」——集成电路上可容纳的晶体管数目约每隔两年便会增加一倍，芯片性能因此持续提升。芯片制程带来终端算力持续增强，模型制程带来模型知识密度持续增强，两者交汇揭示端侧智能巨大潜力。

面壁此前推出的端侧多模态大模型—— MiniCPM-Llama3-V 2.5 ，实现了「以最小参数，撬动最强性能」的最佳平衡点。

而大模型行业也有自己的摩尔定律，纵观 OpenAI 的 GPT 系列大模型和各类开源大模型，会发现大家都在“默契”地按照如此轨迹演化。

基于这一发现，面壁智能提出了面壁定律——大模型的知识密度平均每 8 个月提升一倍。

其中，知识密度=模型能力 / 推理算力能耗。

当前，大模型架构-算法-数据等多重因素交织的技术⽅案仍在⾼速迭代，模型制程仍有极大的改进空间，实现知识密度的极致提升。

面壁定律图

正如面壁定律所揭示的知识密度发展趋势，面壁持续贯彻高效Scaliing，通过模型沙盒，在小模型中寻找最优数据和超参配置再外推至大模型，推出了知识密度极高的 MiniCPM 小钢炮旗舰端侧大模型系列，主要包括以小博大的 MiniCPM 2.4B + 1.2B 的基座模型、可对标 GPT-4V 的 MiniCPM -V 端侧多模态模型以及最小 128K 长文本模型和高性能 MOE 模型。

数据表明，相比 GPT-3，参数规模小的多的 MiniCPM2.4B 具备同等性能，整体知识密度提高了约86倍。

面壁高效大模型还在持续进化中。在今年的世界人工智能大会（WAIC 2024）上，面壁发布了高效稀疏模型 MiniCPM-S 和助力开发者打造 SuperAPP 的全栈式工坊 MobileCPM。

MiniCPM-S 不仅完美承接过去面壁智能一系列高效端侧大模型工作，更体现面壁在坚定地按照其所提出的高效 Scaling 路径持续发力，同时又一次验证并加速了面壁定律。

从最初出圈的 AI Infra 到小钢炮端侧大模型，面壁智能无一不是在非共识阶段就打出「先手」，走在 AGI 技术研究的前沿，预测大模型发展趋势，成为大模型行业发展风向标。

一、 MiniCPM-S：2.8倍推理速度提升，FFN 模块 84% 成本降低

在以 LLaMA2 7B 为代表的主流开源大模型中，就存在稀疏激活现象。LLaMA2 FFN 模块稀疏度为 70% 左右，每个词元（token）保留输出数值较大的 30% 神经元参与计算即可让下游任务表现不发生显著下降。稀疏度越高，每个词元激活的神经元越少，模型推理所需的计算量就越少。

与采用稠密计算的模型相比，采用稀疏计算的模型对给定的词元输出的「激活值」有很多为0、或者非零但对结果影响很小，这些激活值所对应的神经元可称为处于「未激活」状态，在推理时跳过这些未激活的神经元，可实现显著加速。

然而，现有主流大模型在稀疏激活上面临两个困境：一方面，稀疏模型大都基于 Swish、GELU 等无法输出大量零元素的激活函数，需要进行激活阈值搜索方可界定神经元的激活与否，其稀疏激活特性利用起来较为复杂，且在推理时强制跳过阈值下的非零神经元容易造成性能损失；另一方面，其稀疏度仍相对有限，如 LLaMA2 停留在 70% 左右。

对此，面壁的 MiniCPM-S 提出了 ProSparse 的稀疏激活解决方案：

首先，将激活函数从 Swish 重新替换为 ReLU（最初的Transformer即采用ReLU激活），使激活值自然地存在大量零元素，跳过这些零激活值的神经元严格无损。

然后，通过渐进式的、带约束的稀疏感知训练，提升稀疏度。

结果显示，性能持平，且将神经元激活比例降至约 10%。

论⽂地址：https://arxiv.org/pdf/2402.13516.pdf

模型地址：https://huggingface.co/openbmb/MiniCPM-S-1B-llama-format

PowerInfer

可运⾏ GGUF 地址：https://huggingface.co/openbmb/MiniCPM-S-1B-sft-gguf

基于此，面壁推出 MiniCPM-S 高效稀疏激活模型。具体而言，这一模型有三大特点：

Sparse：高度稀疏。MiniCPM-S 的 FFN 模块具有极高的稀疏度，平均可达到 87.89%，FFN FLOPS 下降 84%，大模型能耗与推理成本显著降低。

Speed：高效推理。相比采用稠密计算模式的模型，能使用更少计算量进行更快速的推理，在纯 CPU 环境下推理时，结合Powerinfer推理框架，decode 速度提升 2.8 倍。

Strong：强大性能。虽然计算量变少，但无损于下游任务性能，其中，神经元激活比例降至12.1% ，知识密度相比稠密模型提升 2.57 倍、相比Mistral-7B 提升 12.1 倍。

可以说， MiniCPM-S 又一次验证了过去基于面壁定律发布的 MiniCPM 1.2B 和 MiniCPM 2.4B ，并且在时间上进行了加速，高效 Scaling Law 仍在持续演化。

二、MobileCPM：降低开发者门槛，一键集成端侧大模型到APP

随着大模型赛道的进一步演进，一个共识是：基座大模型只属于资源充足的少数玩家，普通创业者的机会更多是在上层应用。基于此，涌现了诸多AI 原生应用和 Agent 产品，以及与其相对应的能够起到强大支撑能力的 APP 开发工具和平台。

目前市面上的大模型 APP 开发平台的共性是易用、精度高、易部署、安全可靠等特点，而其中能做到提供端侧大模型接口的则少之又少。然而，除了共性的「一键集成、开箱即用」优势，面壁智能基于团队本身强大的高效端侧模型能力推出了 MobileCPM ，如此一来即无需云端 GPU ，实现真正的零推理成本，100 万 tokens 只需要 0 元。