据悉,亚马逊(AWS)推出了第三代AI训练芯片Trainum3,是首款采用3nm工艺节点制造的AWS芯片,首批实例预计将于2025年底上市。
本文引用地址:
一直致力于为客户开发自研的芯片产品,Trainium是专门为超过1000亿个参数模型的深度学习训练打造的机器学习芯片。在2024年re:Invent大会上,AWS宣布Trainium2正式可用,其性能比第一代产品提升4倍,可以在极短的时间内训练基础模型和大语言模型。
亚马逊发起新挑战
亚马逊将推出由数十万颗自研Trainium芯片组成的超级算力集群,该集群将落地美国,2025年建成后将成为世界上最大的人工智能模型训练集群之一。凸显了亚马逊此前对自研芯片Trainium的承诺 —— 将Trainium视为替代英伟达GPU的备选选项,掌握更多的主动权有利于减少对英伟达的依赖,为客户降低成本。
该芯片集群将供由AI初创公司Anthropic使用。在2024年re:Invent全球大会上,Anthropic的联合创始人兼首席计算官Tom Brown宣布了「雷尼尔计划」(Project Rainier),该算力集群就是其中的核心布局。
Anthropic是亚马逊投资的AI初创公司:2023年9月,亚马逊向Anthropic投资40亿美元;今年11月,亚马逊再次向Anthropic追加40亿美元投资。在融资声明中,Anthropic强调双方将合作开发Neuron软件,它类似于芯片与AI模型之间的结缔组织(connective tissue),直接对标英伟达CUDA。
此举背后,通过投资的方式将自研芯片和Anthropic深度绑定,我们可以看到亚马逊在大模型上更大的野心。Anthropic推出的Claude系列模型也已集成在Amazon Bedrock中,从模型能力上看,Claude系列模型是目前市面上几乎少数可以和OpenAI旗下GPT-4对标的模型。
为了争夺更多有大模型和云计算使用需求的客户,亚马逊选择联合Anthropic是对标微软+OpenAI的模式。微软Azure的收入增长,有不少是来自微软提供的GPT-4入口,这意味着OpenAI走红后,其为微软的云服务Azure带来了更多新增客户,亚马逊也可以复制这种模式,即利用AI大模型带来的增量寻求更多的市场份额。
据Synergy Research Group最新公布的数据估算,2024年第三季度,亚马逊在全球云基础设施市场的市场份额达到31%,领先于微软Azure平台的20%和谷歌云的11%。
亚马逊展现出了其在芯片互联技术上的独特优势,秘密武器是其网络技术NeuronLink,这项技术可以使所有四个服务器相互通信。与英伟达基于Blackwell架构芯片打造的服务器相比,能够更灵活地将更多芯片连接在一起,从而大幅度提升运算速度,为用户带来更加流畅、高效的AI运算体验。
值得一提的是,苹果作为科技行业的巨头,也选择了与亚马逊AWS合作,采用其定制的AI芯片来支持其搜索等关键服务。苹果机器学习与人工智能高级总监贝诺伊·杜平(Benoit Dupin)表示苹果内部正在测试Trainium2芯片,预计可节省约50%的成本。同时,苹果还在积极评估最新的AI芯片是否可用于预训练其Apple Intelligence模型,这无疑为AWS的AI芯片技术注入了更多的期待和可能性。
历数亚马逊云科技如今的自研产品阵容不难发现,他们已经拥有包括通用处理器Graviton、AI训练芯片Amazon Trainium、AI推理芯片Amazon Inferentia,以及网络系统Nitro在内的至少四大类自研硬件/芯片家族。
根据云成本管理和优化平台Vantage的一项调查显示,在实例类型的成本支出方面,在2024第一季度的Amazon EC2 M7系列通用实例类型上,采用Graviton的M7g系列达到了34.5%;到了2024年第二季度,在Amazon RDS、Amazon ElastiCache和Amazon OpenSearch托管服务所采用的实例类型中,Graviton已经超越了Intel。
不难看出,作为持续的行业领导者,亚马逊云科技不只是拥有客观上更多的自研芯片种类。更为重要的是,他们是真的将自研芯片投入到了主力云计算业务中,并已取得了客观上的巨大成功。
亚马逊自研芯片的优势
在云厂商自研芯片的浪潮中,亚马逊无疑是最早践行这一趋势的先驱:硬件自研之路始于2012年,并且从2013年就被确立为重要的业务策略,同年研发出了第一款自研芯片Nitro。
Nitro并非如今的通用处理器或AI芯片,它本质上其实是一个专用硬件系统,主要用于高性能网络处理和虚拟化卸载,将服务器的更多CPU算力解放出来、让这些CPU性能能够被更多客户所使用。
亚马逊自主完成的所有自研芯片均由Annapurna Labs团队设计和制造。Annapurna Labs是亚马逊于2015年收购的半导体微电子公司,早在收购之前,双方就在Nitro系统的开发方面紧密合作。目前,Annapurna Labs团队成员分布在全球多个地点,包括以色列的特拉维夫、加拿大的多伦多,以及德克萨斯州奥斯汀的实验室。
亚马逊的自研硬件更是成为了其云服务性价比不断攀升背后的重要因素。2021年Prime Day期间,亚马逊首次使用Amazon Graviton2支持的Amazon EC2实例;2024年Prime-Day期间,亚马逊使用了超过25万个Graviton芯片为超过5800种不同的亚马逊电商服务提供支持。
自从2006年推出第一代公有云服务以来,亚马逊至今已主动降价100次以上,甚至有时降价幅度极其巨大。比如就在今年10月,亚马逊云科技刚刚宣布将Amazon DynamoDB按需吞吐量的价格降低50%、将全球表(Global Tables)的价格降低多达67%。很显然,这种持续、主动的降价行为,很大程度是得益于了亚马逊的自研硬件体系。
亚马逊自己也受益于自研芯片“性价比”所带来的规模优势。此前亚马逊云科技副总裁Jeff Barr曾展示了一张Graviton4开发时的实例集群快照,充分利用自研处理器的规模优势,使用了多达数十万个内核加速EDA电子设计自动化流程,峰值规模为正常使用规模的5倍。
随着生成式AI需求的持续增长,芯片将会成为争夺AI霸权的下一个战场。在AI硬件领域,英伟达的确独霸天下。无数人在问:在未来几个月甚至几年内英伟达还能保持高增长吗?竞争对手能不能找到办法缩小差距?
除了亚马逊,还有很多厂商正在开发自己的AI芯片,比如微软、Meta、OpenAI、谷歌、AMD、英特尔。年初时有消息称,英特尔、高通、谷歌及其它一些科技企业准备联手应战,合作围绕软件展开。但英伟达CUDA的地位不是一夜之间可以撼动的,不单只是软件能力,还以为它15年的使用历史,现在许多代码是围绕CUDA开发的,CUDA与很多AI及高性能计算项目深度连接在一起。
值得注意的是,AI半导体市场实际上分成两大块 —— 训练和推理,数据中心用GPU训练AI,推理发生在服务器或者边缘设备上。在训练市场,英伟达占据98%的市场份额,这种优势短期内不会消失,因此边缘AI推理市场是竞争对手可以重点关注的领域。
其中NPU(Neural Processing Units)就是部分厂商的研究重点,它的能耗更低、更加专业化。NPU能加速处理AI任务,包括深度学习和推理任务,并行处理海量数据,还可以用专门的片上存储器快速执行复杂的人工智能算法,以实现高效数据存储和检索。虽然GPU处理能力更强、功能更多,但NPU更小、更便宜、更节能,在执行专业AI任务时,由于NPU采用特殊架构,性能反而有可能高于CPU。
“掌”握科技鲜闻 (微信搜索techsina或扫描左侧二维码关注)