前瞻|LLaMA3开源发布,喂入海量训练数据效果远超预期

前瞻|LLaMA3开源发布,喂入海量训练数据效果远超预期
2024年04月23日 08:16 市场资讯

登录新浪财经APP 搜索【信披】查看更多考评等级

  炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会!

陈俊云  贾凯方  刘锐  高飞翔

Meta于北京时间2024年4月18日开源了最新的大语言模型LLaMA-3,提供了8B、70B和400B+三个版本的Dense模型。其中70B版本的性能已达GPT-3.5+水平,逼近GPT-4,而400B+版本有望进一步缩小与GPT-4的差距。LLaMA-3打破了业界对Chinchilla定律的认知,证实了通过持续喂入海量优质数据,即使是8B和70B的小模型也能获得超出预期的能力提升。这为通过小模型+大数据的模式在性能和效率间取得更好平衡提供了新思路。LLaMA-3创新性地使用LLaMA-2模型对训练数据进行质量把控,但代价在于更加高昂的成本。在明确增加训练数据量是提升性能的最好方法的前提下,合成数据或将成为高质量数据获取的主要途径,其发展情况将直接影响开源与闭源模型的差距。商业化方面,Meta已将LLaMA-3应用于全新AI助手,并将通过Facebook、Instagram等平台和AR眼镜推出服务。国内厂商可通过中文化微调迅速获得接近GPT-4水准的基础模型。综上,我们看好LLaMA-3引领的从应用层到算力层的认知智能变革,建议未来两个季度内年重点配置高质量训练数据构建、多模态大模型研发、MoE等新型架构创新、算力基础设施升级等领域的优质标的。

事件背景:

北京时间2024年4月18日,Meta开源了其最新版本的大语言模型LLaMA-3。LLaMA-3提供了三个版本的模型:参数量分别为80亿、700亿和4000亿的预训练模型和指令微调模型。值得注意的是,LLaMA-3的所有版本目前均采用Dense架构,并未如外界预期的那样使用类似GPT-4的MoE(Mixture of Experts)架构。

技术迭代:架构小幅更新,性能显著提升。

LLaMA-3在总体架构上延续了前代的Transformer结构,主要改进包括:1)Token词典从32K扩展到128K,增强编码效率2)支持长达8K tokens的上下文输入,但仍不及竞品3)引入Grouped Query Attention (GQA),提高推理效率。根据在MMLU、GPQA、HumanEval等数据集上的评测,LLaMA-3-70B的分数分别达到了82.0分、39.5分、81.7分表现已经超越了Claude-Sonnet、Mistral-Medium等同级别模型,基本达到GPT-3.5+的水平,逼近GPT-4。随后的LLaMA-3-400B+版本有望进一步缩小与GPT-4的差距,对标Gemini Ultra以及Claude3等模型。

重要突破:打破Chinchilla定律,小模型高效利用海量数据(维权)

LLaMA-3颠覆了业界对Chinchilla定律的认知。其8B、70B版本的训练数据规模分别高达15T和50T tokens,远超Chinchilla定律预测的8B规模最优数据量160B和70B规模最优数据量(1.4T)。这意味着,即使是固定规模的小模型,只要持续喂入优质数据也能获得类似对数线性的能力提升。这为性价比优化和开源生态发展开辟了新的思路,即通过小模型+海量数据的模式,也有望实现性能和效率的兼顾。在有足够优质数据喂养的前提下,中小模型未来的上限可能远超预期。

数据处理:创新性使用前代模型做质量把关,但成本高昂。

LLaMA-3的训练数据来自Meta内部和外部,并经过了极其缜密的筛选、清洗流程,尤其创新性地使用了LLaMA-2模型本身作为数据质量分类器进行再次清洗。以LLaMA-2-70B的推理成本$1/1M tokens估算,光是对15T规模的数据进行质量把控,就需要耗资1500万美元。可以预见,随着后续参数的急剧增长,传统的人工数据采集和清洗方式将难以为继,在高昂成本的推动下利用模型合成与清洗新数据是最有效的手段。LLaMA-3已经向我们表明对于当前的参数规模,不断扩大训练集大小仍然是最有效的Scaling手段,因此后续合成数据技术的发展情况直接决定了开源模型与闭源模型的差距。如果合成数据技术快速成熟,闭源模型公司能够通过资源与资本的优势不断扩充自己的数据集,在高质量合成数据方面与普通的开源模型拉开差距。

商业化落地:结合LLaMA-3发布新一代AI助手Meta AI。

Meta已经将LLaMA-3应用到了其最新的AI助手产品Meta AI中。用户可以通过Facebook、Instagram等平台,以及即将推出的AR眼镜Ray-Ban,体验由LLaMA-3驱动的智能对话与任务协助服务。参考LLaMA3 8B模型对于同业其他小模型的显著优势,我们认为对于Meta在边缘端的布局可以投入更高的期待。对于国内厂商而言,LLaMA-3的开源无疑将是重大利好。通过对模型进行中文化微调改造,有望在较短时间内获得一个接近GPT-4水准的基础模型,用于支撑面向企业和个人用户的大模型应用。

风险因素:

AI核心技术发展不及预期风险;科技领域政策监管持续收紧风险;私有数据相关的政策监管风险;全球宏观经济复苏不及预期风险;宏观经济波动导致欧美企业IT支出不及预期风险;AI潜在伦理、道德、用户隐私风险;企业数据泄露、信息安全风险;行业竞争持续加剧风险等。

投资策略:

LLaMA-3的发布打破了业界对Chinchilla定律的认知,证实了固定规模小模型也能通过增大优质数据量实现显著性能提升。这意味着高质量训练数据的获取成为后续大模型发展的关键。建议关注在合成数据、自动化数据优化等前沿技术领域有突破潜力的企业。随着大模型体量增长,多模态能力和推理效率成为业界竞争新焦点。Dense架构在处理图像、视频等非结构化数据时效率较低,预计未来1-2年MoE等新型架构将成为主流。看好在这一方向有先发优势的厂商。此外,大模型推理成本和工程效率也是掣肘,建议关注算力芯片、加速卡、大算力平台等领域的科技公司。商业化方面,Meta已将LLaMA-3应用于最新AI助手产品,成熟小模型与垂直场景结合有望催生新增长点。综上,看好LLaMA-3引领的大模型技术变革,从应用层到模型层再到算力层,认知智能提升将带来新一轮行业增长机会。未来3-5年,建议重点配置高质量训练数据构建、多模态大模型研发、MoE等新型架构创新、算力基础设施升级等领域的优质标的。

本文节选自中信证券研究部已于2024年4月22日发布的《前瞻研究行业重大事项点评—LLaMA3开源发布,喂入海量训练数据效果远超预期》报告,具体分析内容(包括相关风险提示等)请详见报告。若因对报告的摘编而产生歧义,应以报告发布当日的完整内容为准。

重要声明:

本资料定位为“投资信息参考服务”,而非具体的“投资决策服务”,并不涉及对具体证券或金融工具在具体价位、具体时点、具体市场表现的判断。需特别关注的是(1)本资料的接收者应当仔细阅读所附的各项声明、信息披露事项及风险提示,关注相关的分析、预测能够成立的关键假设条件,关注投资评级和证券目标价格的预测时间周期,并准确理解投资评级的含义。(2)本资料所载的信息来源被认为是可靠的,但是中信证券不保证其准确性或完整,同时其相关的分析意见及推测可能会根据中信证券研究部后续发布的证券研究报告在不发出通知的情形下做出更改,也可能会因为使用不同的假设和标准、采用不同观点和分析方法而与中信证券其它业务部门、单位或附属机构在制作类似的其他材料时所给出的意见不同或者相反。(3)投资者在进行具体投资决策前,还须结合自身风险偏好、资金特点等具体情况并配合包括“选股”、“择时”分析在内的各种其它辅助分析手段形成自主决策。为避免对本资料所涉及的研究方法、投资评级、目标价格等内容产生理解上的歧义,进而造成投资损失,在必要时应寻求专业投资顾问的指导。(4)上述列示的风险事项并未囊括不当使用本资料所涉及的全部风险。投资者不应单纯依靠所接收的相关信息而取代自身的独立判断,须充分了解各类投资风险,自主作出投资决策并自行承担投资风险。

股市回暖,抄底炒股先开户!智能定投、条件单、个股雷达……送给你>>
海量资讯、精准解读,尽在新浪财经APP
Meta 定律 AI

VIP课程推荐

加载中...

APP专享直播

1/10

热门推荐

收起
新浪财经公众号
新浪财经公众号

24小时滚动播报最新的财经资讯和视频,更多粉丝福利扫描二维码关注(sinafinance)

股市直播

  • 图文直播间
  • 视频直播间

7X24小时

  • 04-25 欧莱新材 688530 --
  • 04-01 宏鑫科技 301539 10.64
  • 03-29 灿芯股份 688691 19.86
  • 03-27 无锡鼎邦 872931 6.2
  • 03-25 中瑞股份 301587 21.73
  • 新浪首页 语音播报 相关新闻 返回顶部