Llama 3.1 会助推这波「小模型」热潮吗？|Meta|AI_新浪科技

机器之心PRO · 会员通讯 Week 30

---- 本周为您解读 ③个值得细品的 AI & Robotics 业内要事 ----

1. Llama 3.1 会助推这波「小模型」热潮吗？

Llama 3.1 405B 训的小模型为什么更强？今年哪些头部AI公司在做小模型？Meta 还提出了哪些做小模型的技巧？提到了哪些小模型相关的工作？都在做小模型，Scaling law 还重要吗？小模型相比大模型优势在哪？更强的小模型要如何「炼」？...

2. AI 视频生成赛道：谁有机会吃蛋糕？谁在陪跑？

今年出现了哪些 AI 视频生成工具？新工具/模型追上Sora了吗？视频生成赛道哪些玩家拿到钱了？视频生成的 PMF 有苗头了吗？哪些火过的团队没动静了？...

3. 一站式 LLM 指南：论文深度剖析大型语言模型全貌

Cosmo IMD 的高级研究科学家 Giorgio Roffo 的论文都盘了LLM的哪些方面？重点讲了哪些内容？提升LLM性能的关键技术有哪些？在资源受限环境中下，如何更好地部署大模型？...

...本期完整版通讯含 3 项专题解读 + 29 项本周 AI & Robotics 赛道要事速递，其中技术方面 13 项，国内方面 7 项，国外方面 9 项。

本期通讯总计 26447 字，可免费试读至 8%

消耗 99 微信豆即可兑换完整本期解读（约合人民币 9.9 元）

要事解读① Llama 3.1 会助推这波「小模型」热潮吗？

日期：7 月 24 日

事件：2024年以来，OpenAI、微软、Mistral AI 等机构开卷「小模型」赛道，陆续推出小参数规模模型。与此同时，Meta 推出开源模型 Llama 3.1 405B，扎克伯格希望基于 405B 模型的开源特性，使其成为微调和蒸馏小型模型的最佳选择。

大小模型的分岔口？Llama 3.1 405B 「大号」模型会是未来小模型的新起点吗？

在发布Llama 3.1 405B 开源大模型时，扎克伯格其文章《Open Source AI Is the Path Forward》中特别提到：「较于闭源模型，这些开源模型在成本效益上显著提升，特别是 405B 模型的开源特性，使其成为微调和蒸馏小型模型的最佳选择。」

1、Meta 于近期发布的 Llama 3.1 405B 因尺寸为开源模型中最大，性能媲美顶尖闭源模型等特征而引起了业内热议。在该模型发布前，多家头部机构发布了小尺寸模型，掀起了一阵「小模型」工作的热潮。然而，Llama 3.1 405B 虽然「庞大」，但似乎并不会阻止小模型热潮的延展。

① 自今年以来，Meta 发布了 350M 的 MobileLLM；微软推出了 Phi-3 系列小模型；谷歌开源 Gemma 2 为 9B 和 27B 两种参数规模；苹果开发了 DCLM-7B；Hugging Face 推出了135M、360M 和 1.7B 规模的 SmolLM，OpenAI 推出 GPT-4o mini；Mistral AI 和英伟达共同开发了12B 参数的 Mistral NeMo。

2、Meta 发布 Llama 3.1 405B 版本对比此前的 Llama 系列模型，在参数、预训练数据等方面均有提升。[9]

① Llama 3.1 405B 支持多种语言，上下文长度达到 128K，在常识、可操纵性、数学、工具使用和多语言翻译等方面可与顶级 AI 模型相媲美，其在一系列关键基准测试上的性能与 GPT-4o 十分接近。

② Llama 3.1 在大约 15 万亿的多语言 Token 语料库上进行了预训练，而 Llama 2 只使用了 1.8 万亿 Token。

③ Meta为此优化了整个训练堆栈，预训练采用超过 16,000 个 H100 GPU ，3.8 × 10²⁵ 次浮点运算（FLOPs），超过 Llama 2 的最大版本近 50 倍。

3、除了 Llama 3.1 405B ，Meta 还推出了 8B 和 70B 模型的升级版本，并在《The Llama 3 Herd of Models》论文中强调了在小模型上的投入，称其对较小模型进行的训练时间远超了计算最优的时长。

① Meta 在论文中表示，这些较小模型在相同推理预算下的表现优于计算最优模型，他们在后训练阶段使用了 Llama 3.1 405B 进一步提高了 70B 和 8B 模型这些较小模型的质量。

② 升级后的 8B、70B 两个版本同样支持多种语言，上下文长度达到 128K，并与具有相似数量参数的闭源和开源模型具有竞争力。

③ Llama 3 8B 几乎在每个任务类别中都优于竞争模型；Llama 3 70B 在大多数基准测试中都优于 Llama 2 70B。

4、Meta 还在论文中分享了数据对小模型能力的关键作用。

① 在后训练中，Meta 通过多轮对齐来完善 Chat 模型，涉及监督微调（SFT）、拒绝采样和直接偏好优化。大多数 SFT 样本由合成数据生成。其中，大多数 SFT 样本均采用合成数据。

② Meta 还重点介绍了退火数据（Annealing Data）的作用。通过在少量高质量代码和数学数据上进行退火处理，可以显著提升预训练模型在关键基准测试上的性能。该方法对 8B 小模型在逻辑代码能力方面有明显提升。在 15T Tokens 的预训练中，占比分别为知识 50%、数学 25%、代码 17%、多语言 8%。

表：2024年以来头部AI机构发布的小模型汇总。[1] - [9]