【西部计算机】（深度）推理芯片：生成式AI驱动，或迎来重大机遇|芯片_新浪财经

　　炒股就看金麒麟分析师研报，权威，专业，及时，全面，助您挖掘潜力主题机会！

特别声明

特别声明《证券期货投资者适当性管理办法》、《证券经营机构投资者适当性管理实施指引(试行)》于2017年7月1日起正式实施。通过新媒体形式制作的本公众号推送信息仅面向西部证券的专业投资者。若您并非西部证券的专业投资者。请取消关注本公众号，不再订阅、接收或使用本公众号中的任何推送信息。因本公众号受限于访问权限的设置，若给您造成不便，烦请谅解!感谢您给予的理解与配合。

· 生成式AI模型性能不断提升，或处于更大规模放量前夕，推理需求有望高速增长。

OpenAI于2022年11月推出生成式AI应用ChatGPT，在不到两个月的时间内，月活跃用户数突破1亿人。以ChatGPT为代表的生成式AI应用快速迭代、落地，模型推理的算力需求逐渐显现。随着生成式AI模型参数和Token数量不断增加，模型单次推理所需的算力持续攀升。同时，ChatGPT、Gemini、Kimi等聊天机器人的用户数逐步上升，Microsoft Copilot、Adobe Firefly、WPS AI等办公助手持续落地，用户侧的流量不断上升，推理算力未来有望超过训练算力，最终训练芯片与推理芯片数量之比或达到2：8。

· 量化技术（Quantization）是决定生成式AI推理成本的关键因素

量化技术的迭代升级有望降低推理门槛，为CPU+ASIC、CPU+FPGA等技术路线的发展，以及国产算力的放量提供了技术基础。人工智能模型的量化技术从最初的FP16量化快速发展到目前应用最成熟的INT8量化，再到正在进一步研究中的INT4量化，呈现出数据精度逐步降低，内存或显存占用不断减少的趋势。这一趋势有助于CPU+ASIC、CPU+FPGA等技术路线通过软硬件的优化提高推理能力，也有助于国产算力通过增加低精度计算单元等方式，以较成熟的制程工艺实现可用的推理算力。

· 消费级GPU产品和海外CSP企业的自研芯片同样被用于推理场景。

英伟达和AMD的消费级GPU产品，同样具备接近千亿参数量级的生成式AI模型的推理能力，从侧面说明推理芯片的门槛相对较低。谷歌、微软、亚马逊、Meta等海外CSP企业在大规模采购英伟达数据中心GPU的同时，也在积极自研用于模型训练和推理的芯片，有望成为满足推理算力需求的另一种途径。

我们认为：生成式AI的发展是一个不断迭代升级的过程，随着国内生成式AI模型的质量持续提升，有望出现更多优质应用，从而带动推理算力需求快速上升。在推理场景下，算力的性价比显得更为重要。在供给端有所限制的情况下，国产推理芯片有望受益于国内生成式AI应用的落地，迎来重大发展机遇。

1）AI推理芯片：寒武纪、海光信息。

2）算力服务器：浪潮信息、中科曙光、神州数码、工业富联。

人工智能技术落地和商业化不及预期；产业政策转变；宏观经济不及预期。

一、生成式AI推理需求旺盛，量化技术升级降低推理门槛

1.1 生成式AI模型持续迭代，推理需求旺盛

生成式AI模型性能不断提升，或处于更大规模放量前夕，推理需求有望高速增长。OpenAI于2022年11月推出生成式AI应用ChatGPT，在不到两个月的时间内，月活跃用户数突破1亿人。以ChatGPT为代表的生成式AI应用快速迭代、落地，模型推理的算力需求逐渐显现。随着生成式AI模型参数和Token数量不断增加，模型单次推理所需的算力持续攀升。同时，ChatGPT、Gemini、Kimi等聊天机器人的用户数逐步上升，Microsoft Copilot、Adobe Firefly、WPS AI等办公助手持续落地，用户侧的流量不断上升，推理算力需求有望高速增长。

推理算力未来有望超过训练算力，最终训练芯片与推理芯片数量之比或达到2：8。目前生成式AI模型仍处于快速迭代，各厂商相互追赶的阶段，随着模型性能的逐步稳定和应用的陆续落地，算力的推理需求有望超过训练需求。而推理需求与训练需求在计算量、精度要求以及部署位置上存在差异。一方面，训练需求的精度要求较推理需求更高，因此训练芯片也就要求有更高的精度范围，在高精度场景下同样需要具备较强的性能。另一方面，训练芯片主要部署在数据中心（云侧），推理芯片则会兼顾云侧与边缘侧的算力需求。根据施耐德电气的测算，到2028年人工智能的推理负载有望占比达到85%。我们认为：考虑到云侧和边缘侧巨大的推理需求，训练芯片与推理芯片数量之比或将达到2：8。

1.2 量化技术有助于降低推理的算力门槛

量化技术（Quantization）是决定生成式AI推理成本的关键因素，量化技术的迭代升级有望降低推理门槛。深度神经网络模型存在参数冗余的问题，所有参数均使用32位浮点型数值（FP32），但神经网络模型实际使用的精度远不到FP32所表示的范围。如果针对低位宽的数值计算进行优化，使用低数值进行大规模矩阵运算，模型推理过程会有明显的加速效果。

模型量化指的是通过降低网络模型参数数值表示所需的位宽，在不影响模型任务性能情况下达到降低精度和内存容量的效果。假设将一个参数全部是FP32的神经网络的权值和激活值全部量化到16位整型数值（INT16）或8位整型数值（INT8），其内存占用和精度理论上均可减少至原先的四分之一，如果部署的处理器低精度运算较快，则能够有效加速推理过程。目前INT8量化技术已比较成熟，Google的TensorFlow、英伟达的TensorRT、Meta的PyTorch等模型部署框架均已支持INT8量化技术。

量化技术快速发展，为CPU+ASIC、CPU+FPGA等技术路线的发展，以及国产算力的放量提供了技术基础。人工智能模型的量化技术从最初的FP16量化快速发展到目前应用最成熟的INT8量化，再到正在进一步研究中的INT4量化，呈现出数据精度逐步降低，内存或显存占用不断减少的趋势。这一趋势有助于CPU+ASIC、CPU+FPGA等技术路线通过软硬件的优化提高推理能力，也有助于国产算力通过增加低精度计算单元等方式，以较成熟的制程工艺实现可用的推理算力。

二、推理芯片多种技术路线齐头并进，推动生成式AI落地

2.1 英伟达、AMD长期关注GPU的推理算力

英伟达和AMD的数据中心GPU产品，在关注训练场景的同时，也始终关注推理场景的技术革新。2022年以来，英伟达先后推出了Hopper、Blackwell两代GPU架构，较此前的Ampere架构增强了FP8甚至是FP4精度下的吞吐量，能够更高效地完成生成式AI模型的推理任务。AMD新推出的MI300X也较H100提升了FP8精度下的计算能力。以英伟达和AMD为代表的数据中心GPU厂商的技术发展趋势，进一步表明量化技术的迭代发展对模型推理算力需求有重要的影响。

另一方面，英伟达和AMD的消费级GPU产品，同样具备接近千亿参数量级的生成式AI模型的推理能力，从侧面说明推理芯片的门槛相对较低。根据公开资料，Llama-2 7B和13B模型能够成功部署在8卡英伟达RTX 3090服务器上，Llama-2 70B则能够在8卡英伟达RTX 4090服务器上进行部署。尽管在推理性能上有一定的损失，但消费级GPU仍有完成接近千亿参数量级的生成式AI模型的能力。

2.2海外CSP自研芯片，或将另辟蹊径

谷歌、微软、亚马逊、Meta等海外CSP企业在大规模采购英伟达数据中心GPU的同时，也在积极自研用于模型训练和推理的芯片，有望成为满足推理算力需求的另一种途径。与英伟达和AMD的数据中心GPU类似，海外CSP自研芯片同样关注算力集群的规模化和扩展性。同时，由于面向AI场景的算力芯片与算法间存在紧密联系，海外CSP重视算法与算力芯片间的协同设计，通过支持新一代量化技术的数据精度、部署模型关键算法的直接专用加速器等方法，进一步提高推理性能。

谷歌于2023年先后发布了TPU（Tensor Processing Unit） v5e和TPU v5p两款ASIC芯片，重点提升了训练速度和推理的性价比，并对PyTorch、TensorFlow等先进框架进行了集成。TPU v5e和TPU v5p相较于TPU v4，在训练速度上都有接近2倍左右的提升，单位美元的推理性能也都提升2倍以上。以TPU v5p为例，每个Pod由8960块芯片组成，芯片间以4800 Gbps的传输速率进行互连。Gemini 1.0在训练时即使用TPU v4和TPU v5e。我们认为：随着TPU性价比的进一步提升，有望在推理芯片市场扩大份额，加速生成式AI模型的落地进程。

微软、亚马逊、Meta同样发力自研芯片，为生成式AI的训练和推理提供更多的算力选择。微软于2023年11月推出Azure Maia 100，目前正在通过搜索引擎Bing和Office AI系列产品进行测试。Azure Maia 100采用台积电5nm工艺，拥有1050亿颗晶体管，能够支持低于8位数据类型。亚马逊于2023年12月推出了Amazon Graviton4 和Amazon Trainium2两款自研芯片，根据亚马逊云科技的测算，Graviton4与目前正在使用的Graviton3处理器相比，性能提升30%，独立核心增加50%以上，内存带宽提升75%以上。Meta也有望推新款自研推理芯片Artemis，或于2024年内完成Artemis在Meta自有数据中心的部署。我们认为：海外CSP企业自研ASIC芯片的尝试，也从侧面说明面对生成式AI巨大的训练和推理需求，海外CSP企业也期望另辟蹊径，探索更具有性价比和计算效率的算力解决方案，从而为多种技术路线的发展创造了可能性。

2.3 国产推理芯片市场潜力大，有望迎来重大机遇

国产推理芯片快速发展，已在推理和部分训练场景下落地，未来有望迎来重大发展机遇。以Kimi和WPS AI为代表的C端和B端应用陆续落地，国内的推理算力需求正在快速上升。衡量算力大小的维度不仅包括集群峰值算力的大小，也要考虑到算力在实际部署中的使用效率和优化程度。实际可使用的算力是工程化的结果，涉及从芯片到开发工具包的多个层次，对算力提供者的工程能力及案例经验都有要求。国产推理芯片在多个场景下的部署，有助于国产算力厂商迭代优化自身产品，根据实际需求优化芯片设计及对应的开发工具包，加速形成软硬件一体的开发生态。

以运营商和国内互联网厂商为代表的需求端正在加速建设AI算力，有望推动国内推理芯片市场快速放量。2023年以来，通信运营商已集中采购超1.5万台AI服务器，采购项目体现了运营商对智算中心建设的重视，同时也反映了国内推理和训练算力已加速部署。在新建成的AI算力基础设施中，国产AI芯片的使用率较高，中国移动智算中心（呼和浩特）部署的AI加速卡国产化率超85%，中国联通则基于华为昇腾AI基础软硬件在北京建立了的全国产化的智算中心。2023年，百度订购了200台8卡服务器，搭配1600块昇腾910B。运营商和国内互联网厂商的持续部署，有助于支撑生成式AI应用在国内落地，从而在实际运用中不断对推理芯片的性能迭代升级。

寒武纪面向模型训练和推理场景推出了MLU370，MLU370采用7nm制程工艺及芯粒（Chiplet）技术，通过封装多颗AI计算芯粒（MLU-Die）增强计算性能。同时，寒武纪为MLU370配备了Cambricon Neuware软件栈和推理加速引擎MagicMind，助力开发者提升部署效率。目前MLU370已向阿里云等客户进行了批量交付。通过深耕行业客户，寒武纪有望推动MLU370等产品在更多标志性应用场景实现商业化落地，进一步拓展业务覆盖范围和客户覆盖领域。

华为于2019年发布昇腾910芯片，此后陆续发布了升级版本昇腾910B、昇腾910C，提升了NPU之间交换数据的能力，对网络接口进行了升级。昇腾910在设计上较为关注低精度的场景，FP16算力达到256 TFLOPS，INT8算力达到512 TOPS。同时，华为还发布了昇腾Ascend C编程语言、昇思MindSpore AI框架等配套软件栈，提供系列工具及套件，支撑模型高效原生开发，构建较为完整的软件生态。

海光信息研发的深算二号已实现批量出货，实现LLaMa、GPT、Bloom、ChatGLM等生成式AI模型的全面应用，与包括文心一言在内的大模型全面适配。沐曦、壁仞、燧原等厂商也陆续推出了满足推理场景需求的计算芯片，部分推理芯片在INT8精度下的计算能力与英伟达对应产品较为接近。其中，部分厂商的推理芯片实现兼容CUDA架构，进一步降低了模型移植成本。

三、建议关注

1）AI推理芯片：寒武纪、海光信息。

2）算力服务器：浪潮信息、中科曙光、神州数码、工业富联。

四、风险提示

人工智能技术落地和商业化不及预期：从长期看，以人工智能技术为支撑的公司需要以事实证明其现阶段的成长潜力，若不能及时将技术转化为长期壁垒和现金流回报，可能影响后续市场对人工智能推理需求的信心。

产业政策转变：生成式人工智能模型的训练需要算力、通信和数据支持，前期投入巨大，需要相关产业政策予以倾斜，若产业政策方向发生转变，可能影响关键领域的技术突破。

宏观经济不及预期：宏观经济影响居民消费，若经济增速放缓，可能导致居民消费信心下降，消费需求受到抑制，消费端相关业务承压。

分析师声明

免责声明

证券研究报告：《人工智能系列报告（四）/算力系列报告（一）-- 推理芯片：生成式AI驱动，或迎来重大机遇》

对外发布时间：2024年5月10日

对外发布机构：西部证券研究发展中心

参与人员信息：

分析师：郑宏达

执业编号：S0800524020001

邮箱：zhenghongda@research.xbmail.com.cn

在任何情况下，本公众号所载的观点、结论和建议仅供投资者参考之用，并非作为购买或出售证券或其他投资标的的邀请或保证。客户不应以本公众号取代其独立判断或根据本报告做出决策。该等观点、建议并未考虑到获取本报告人员的具体投资目的、财务状况以及特定需求，在任何时候均不构成对客户私人投资建议。投资者应当充分考虑自身特定状况，并完整理解和使用本公众号内容，不应视本公众号为做出投资决策的唯一因素，必要时应就法律、商业、财务、税收等方面咨询专业财务顾问的意见。西部证券以往相关研究报告预测与分析的准确，不预示与担保本公众号及西部证券今后相关研究报告的表现。对依据或者使用本公众号及西部证券其他相关研究报告所造成的一切后果，西部证券及作者不承担任何法律责任。

本公众号版权仅为西部证券所有。未经公司书面许可（金麒麟分析师），任何机构或个人不得以翻版、复制、发表、引用或再次分发他人等任何形式侵犯本公众号版权。如征得西部证券同意进行引用、刊发的，需在允许的范围内使用，并注明出处为“西部证券研究发展中心”，且不得对本公众号进行任何有悖原意的引用、删节和修改。如未经西部证券授权，私自转载或者转发本公众号，所引起的一切后果及法律责任由私自转载或转发者承担。西部证券保留追究相关责任的权力。本公司具有中国证监会核准的“证券投资咨询”业务资格，经营许可证编号为：91610000719782242D。