中国大模型要用Infra“降本增效”|AI|芯片|推理_新浪科技

随着AI应用爆发式的增长，模型训练和推理的需求也在大幅提升，算力成本和使用效率这两个指标就变得至关重要，直接影响模型能力升级和AI应用大规模落地的速度。

今年7月世界人工智能大会（WAIC）召开前一天，上海浦东的一家酒店里一场关于AI算力芯片的企业会议上，有两家同样做AI Infra技术的公司高管亮相，引发关注。尽管他们彼此是竞争对手，但此次共同目标，是争夺这家 AI 芯片企业的合作订单。据钛媒体App了解到，其中一家AI Infra公司的CEO在得知对手将出席此次会议后，立即与主办方沟通，希望增加一个演讲名额，并特意从北京海淀飞赴上海，在数百位媒体和合作伙伴面前进行该公司成立半年多来的首次公开演讲。最终，这位CEO的努力得到了回报，他不仅成功赢得与该客户的合作，还在短短三天后WAIC一场AI算力发布会上，顺利拿下了与另一家AI算力企业的合作许可，成果丰硕。这是国内AI Infra行业激烈竞争的一个缩影。所谓AI Infra，定位于算力与应用之间的“桥梁”角色的基础软件设施层，主要利用AI/GPU芯片的算力中心和算力云等的推理、训练形式，为AI大模型应用提供软件系统、数据存储和处理、网络设施等技术，解决美国对华高端 AI 算力限制下模型断训、英伟达与国产算力之间解耦等计算、存储和通讯网络难题。当前AI算力紧缺、美国英伟达GPU对华限制、模型成本“降本增效”等因素下，兴起不足一年的AI Infra行业已经成为中国 AI 大模型产业不可缺少的关键一环，也是与美国 AI 市场之间“别树一帜”的特色，因为硅谷很少有超百亿估值规模的纯AI Infra公司。中金公司指出，目前AI Infra产业处于高速增长的发展早期，未来3-5年内各细分赛道有望保持超过30%的高速增长。而基金管理机构KKR&Co.数据显示，随着AI算力需求增长，全球数据中心投资有望达到每年2500亿美元（约合人民币1.9万亿元）。另据红杉资本、贝恩等机构统计，预计到2027年，全球AI市场规模将飙升至近1万亿美元，AI硬件和服务市场年增长率达40%-55%。在这其中，全球会有超过4万亿元人民币（6000亿美金）投资到 AI 基础设施层，生成式 AI 计算规模增长至109.9亿美元，模型训练成本每年增长240%（2.4倍）以上。过去12个月内，AI Infra已成为热门赛道。阿里、百度百舸、字节火山引擎等公司都在发力AI Infra技术产品；7月，AI Infra公司硅基流动（SiliconFlow）完成总金额近亿元人民币的天使+轮融资，智谱AI、360、水木清华校友基金、耀途资本等机构参与；9月，无问芯穹完成近5亿元A轮融资，成立16个月内累计已完成近10亿元融资，投资方名单相当豪华——社保基金中关村自主创新专项基金、启明创投、联想创投等超过46家机构和实体。无问芯穹联合创始人、CEO夏立雪此前对钛媒体App表示，在一个互联网客户大模型推理的业务场景中，无问芯穹将整体算力使用效率提升了90%，有效地解决了客户大模型业务中算力成本的问题，帮助业务伙伴实现算力成本的大幅下降。他指出，“我们认为（公司未来）3-5年内肯定能够规模化地实现利润”。

超40亿美金算力做ChatGPT，算力争夺战一触即发经过60多年的发展，AI 技术改变了设计、教学、驾驶、医疗，甚至是GPU显卡的价格。随着新一轮 AI 热潮下，作为AI三要素之一，算力已经成为国家间竞争力，具有重大战略性意义。而算力需要与芯片、基础设施、数据三大要素紧密结合：芯片是算力的决定性因素，中央处理器(CPU)、图形处理器(GPU)、存储半导体等芯片尤为重要，决定了计算能力的强弱；5G网络、数据中心、云计算集群、超级计算机等基础设施是推动算力发展因素；数据价值则是算力存在与发展的终极意义。在Scaling Laws（缩放定律）指引下，投入模型的计算资源和数据量越大，模型的能力就越强。过去十多年中，计算资源和数据的规模呈现出指数级增长，这也是AI重新进入公众视野的原因。下面列出的几组数据，很明显说明 AI 大模型规模与算力基础设施成本之间的鸿沟：由此可见，随着AI大模型数据量规模增加，算力需求日益旺盛，但 AI 芯片成本高居不下。4万亿美金AI算力规模投入的背后，算力发展分化与鸿沟问题不断显现。据字节跳动公开的万卡集群大模型训练架构MegaScale的数据，训练拥有1750亿参数的大模型需要在千卡集群上训练接近20天或者万卡集群上训练近2天，按照GPU使用机时计算，单次训练费用超过200万元，其算力利用率仅约为50%-60%。模型大、算力利用率低、投入成本却高达百万至千万元以上，这成为当下 AI 算力现状。正如百度集团执行副总裁、百度智能云事业群总裁沈抖所说，随着 AI 应用爆发式的增长，模型训练和推理的需求也在大幅提升，算力成本和使用效率这两个指标就变得至关重要，直接影响模型能力升级和 AI 应用大规模落地的速度。中国的 AI 算力不仅获取成本高昂，而且“东数西算”导致算力训练慢、且部分GPU芯片长期处于限制状态，因此，提升算力利用率成为了有效提升大模型性能和降低成本的关键，这也是AI Infra存在的根本意义——面向上下游，AI infra把各类模型同各种芯片解耦适配，一方面减少算力资源闲置现象，另一方面则实现模型发展的“提速降本”。“对于AI Infra，作用就是解决其应用开发的上手门槛，以及大规模部署时的使用成本。特别是我们知道有一个阶段是算力紧缺，算力资源相对紧缺且昂贵，有的应用开发者即便对推广产品很有兴趣，也会因为成本过高而却步。我们正是解决了这些问题，帮助用户在使用Token时不再为价格担忧，实现更快、更低成本的操作，这就是AI Infra带来的价值所在。”硅基流动创始人、CEO袁进辉最近在一场论坛上这样说AI Infra作用。从产品层面，多名阿里云技术人员在演讲中提到，数据墙、内存墙、Scaling集群扩展、光互连等问题，都是需要AI Infra解决的。用更加易懂的语言说，AI Infra就是对标英伟达CUDA + NVIDIA DGX SuperCloud的一种综合性服务。中金公司在研报中指出，AI Infra是AI产业必不可少的基础软件堆栈，“掘金卖铲”逻辑强、商业潜质高。其中，AI Infra基础软件工具有较高的商业化潜力。大体来说，AI 算力包括训练、推理两个环节。目前各家提供的AI Infra方案各不相同，如阿里、百度、字节自身都拥有多种算力和服务器产品，所以其AI Infra技术更多是内部使用；而无问芯穹、硅基流动、清程极智这类初创公司更多是服务于芯片和算力中心方，以及模型应用层，提供系统和算力结构性服务。以阿里云为例。阿里云的服务器拥有英伟达、AMD、英特尔、倚天等多种芯片算力，因此，阿里云也构建了Al Infra，名为磐久Al Infra 2.0服务器，且内置ALS（ALink System）。阿里云CTO周靖人曾透露，其磐久AI服务器提供AI算法预测GPU故障，准确率达92%，并且稳定连接超过10万个GPU，模型端到端训练性能提升10%以上，其人工智能平台PAI，已实现万卡级别的训练推理一体化弹性调度，AI算力有效利用率超90%，从而促使基础大模型降价，让更多人使用通义模型技术和阿里云计算服务，通义千问三款主力模型最高降幅85%。除了阿里云，百度智能云则提供百舸AI异构计算平台，即基于AI Infra技术的云计算平台，其将支持多芯混训、多芯适配，在万卡集群上实现了超过99.5%的有效训练时长，而万卡集群运行准备时间也从数周缩减至1小时；字节的火山引擎则拥有AI 全栈云，支持多芯、多云架构，支持万卡集群组网、万亿参数MoE大模型，时延优化最高达75%，文件存储vePFS支持2TB/s吞吐并行存储、自研 mGPU 容器共享方案，GPU 利用率提升100%以上。另外，相对于阿里、字节这些互联网大厂，AI Infra初创公司领域则更细分，经钛媒体App统计，这些AI Infra公司主要提供三类方案：一是通过类似MaaS（模型即服务）软件解决方案提供给模型方，或与算力集群一同提供项目制合作后分成，后者回款更慢；（这写的偏简略易懂，实际要更为复杂）二是提供租用算力云和模型API平台，利用多元异构算力提供一个平台的个性算力和模型服务，能够解决部分中小开发者成本低、算力性能要求高、但场景单一这类需求，无问芯穹、硅基流动、清程极智都已提供相关平台服务；三是提供芯片+软件的端到端方案；比如，无问芯穹正量产无穹LPU专用算力，主要解决端侧模型推理，那么未来，AI Infra公司利用芯片硬件+自身软件平台，可以提供智能硬件、自动驾驶、手机和PC等端侧场景的算力模型服务。如无问芯穹，其主要提供基于多元芯片算力底座打造出Infini-AI异构云平台，包含一站式AI平台（AIStudio）和大模型服务平台；硅基流动则提供高性价比的GenAI云服务SiliconCloud、高性能大模型推理引擎SiliconLLM、OneDiff高性能图像生成引擎。然而目前，全球能够完整提供 AI 算力服务、且做到最好的公司，只有全球科技巨头英伟达（NVIDIA），主要因为A100、H100是全功能GPU处理器，且能利用CUDA软件同时提供AI大模型算力推理、训练服务。因此，国内 AI Infra技术和商业化规模远低于英伟达。“作为一家创业公司，技术只是产品中的一个要素，我现在理解的是一切都要服务于商业化。”袁进辉这句话点明了 AI Infra的实质，这个行业需有市场需求、有技术壁垒、有行业盈利方案。袁进辉表示，从软件产品来看，以前有数据库、操作系统、大数据系统，到今天出现了AI Cloud，“这是我在这方面的理解，工程细节繁多和工程量大不是劣势，反而可能成为标准化产品的壁垒。” 而美国拥有together.ai, fireworks.ai 等AI Infra公司，主要服务微软、亚马逊、戴尔等大互联网厂商。无问芯穹是国内少数选择异构混训这条路径的创企，主要通过异构多种GPU卡来同时混训一个大模型，地方政府、大模型厂商和偏研究型的单位都有这方面需求。目前无问芯穹拥有英伟达、AMD加上国产卡共六种芯片，任意两种都能组合训练，在百卡和千卡这个级别都已经完成混训，整体效率高达97.6%。今年9月，夏立雪对钛媒体App表示，异构混训的难点主要在于，不同的芯片之间有不同的算子库， GPU 性能如何预测，任务怎样拆分让不同硬件各司其职，同时，怎样在通信上实现较好地协调以及打通通信库等多种问题。而无问芯穹的初心是解决国内算力不足的问题，把不同的模型在各类硬件上都能够快速完成高效部署，去让算法和算力之间形成最佳的软硬件联合的优化、软硬协同，让各种各样的算力都能够把自身的价值发挥到最大。“我们在整个产业中属于连接模型和硬件，去让大家能够把算力更好地用起来的基础设施的工作。所以我们确实在成立一开始就和很多重要的合作伙伴已经做了很密切、深入的合作和一些战略协同。”夏立雪表示，在一个互联网客户中，无问芯穹利用软硬协同的核心技术优化客户大模型推理的业务场景，将算力使用成本降低了90%，实现算力资源大幅节省和提效作用。中国AI算力受限下，大模型的未来需要体系结构的变革“人工智能技术潜力为重振美国梦，和重塑美国工业化提供了不可错过的机会”。OpenAI于11月13日公布一份全新由该公司领导的“美国AI基础设施（Infra）蓝图”。OpenAI认为，美国需要定制一项国家战略，确保美国在未来 AI 领域处于领导地位。OpenAI公司全球事务副总裁克里斯·勒哈恩（Chris Lehane）表示，其已经花费“很多时间”与拜登政府和特朗普团队讨论AI基础设施需求，这将是美国未来关注的重要领域之一。事实上，随着算力经济成为全球战略竞争新焦点，AI 算力也成为美国对华打压限制的关键赛道。据报道，美国商务部要求台积电自11月11日起，停止将经常用于人工智能（AI）应用的先进芯片供货给中国大陆客户。美国商务部致函台积电，对出口到中国大陆的某些7nm或更先进设计的精密芯片实施出口限制，这些芯片用于驱动AI加速器和图形处理器（GPU）。不止是台积电。三星同样受到美国禁令限制，目前已向中国大陆客户发布相关通知，无法为提供AI芯片类晶圆代工服务。更早之前，英伟达、AMD等多款先进AI芯片对华限售。目前台积电方面并未直接予以否认。11月8日下午，台积电回应钛媒体App表示：“对于传言，台积公司不予置评。台积公司遵纪守法，严格遵守所有可使用的法律和法规，包括可适用的出口管制法规。”11月13日，国务院台办发言人朱凤莲表示，推进两岸产业合作有利于两岸企业发展，增进两岸同胞民生福祉。有关报道再次证明，美国打“台湾牌”，升高台海紧张局势，目的是“以台遏华”。而民进党当局妄图“倚外谋独”，一味随美起舞搞“脱钩断链”，给两岸有关产业合作设置越来越多的人为障碍，最终损害的是岛内企业的利益，削弱的是台湾相关产业的优势，让台湾进一步错失产业发展的机遇。然而，无论消息真假与否，长期来看，美国一定会对华AI算力进行限制。所以如何在Scaling Law放缓、数据规模到达天花板、算力需求不断增加等因素下，通过 AI 系统化、计算体系结构化解决当前问题，是中国 AI 发展的关键要素。“Meta、OpenAI都朝着10万卡规模往上走，所以数据中心层面一定会朝更大规模增长发展，也许未来的算力增长定律，已经不再局限在单颗芯片的层面，而是整个体系算力层面。跨数据算力体系会支撑未来基础设施的训练，扩张整个算力供给、提高并行计算创新能力，这是未来算力发展的重中之重。”在闭门圆桌中，一位半导体行业人士对钛媒体App表示，如果未来中国缺乏算力，各种行业各个领域一定会受到严重影响。周靖人早前在一场群访中强调，模型更新离不开基础设施，AI 是一个系统化的技术变革，如果没有底层的相关能力的支持，今天模型的研发、迭代就没有承载的地方，这是一个相辅相成、承上启下的关系。事实上，本文写的很粗略，AI Infra基础设施层其实非常庞大，拥有很多很复杂的技术细节，包括AI系统、AI算力框架、编译和计算结构、算子和开发体系等多个专业技术，仅多卡混训、解决并行计算问题，AI Infra行业经历了多年的反复技术积累。一位AI算力公司技术人员告诉钛媒体App，我们这个行业一直都在不断踩坑和反复配合当中，AI Infra行业没有一个先行例子可以复制。

英伟达CEO黄仁勋近期坦言，通用计算诞生60年以来，开始出现向加速计算的转换，通过并行计算，令GPU时代的算力较CPU时期大幅提升。而神经网络和深度学习的发展，亦让电脑获取知识更加快，带来电脑的智能化飞跃。他认为，传统计算方式依赖预设的演算法模型，缺乏学习和理解能力。而结合深度学习，系统可以对资料进行调整最佳化提升算力的使用率。黄仁勋强调，计算技术每十年将进步一百万倍，只需2年，英伟达甚至整个行业都将发生天翻地覆变化，更以“难以置信”形容AI的未来，认为AI 缩小了人类间的技术差距，未来10年算力将再提高100万倍。“我越来越坚定，如果中国想做自己的生态，想做自己的AI，必须全产业链自主可控。我自己在 AI 软硬件优化的基础上积累完，然后我们在AI大模型时代中推动中国把所有算力真的都用起来，然后去跟美国做竞争，这是我自己内心深处特别想干的事情，这是我们做这家企业（无问芯穹）的初心。”无问芯穹发起人、清华大学电子工程系教授、系主任汪玉教授曾表示，算力需要发挥更大作用，从而能推动中国AI发展。