来源:新智元
最近,IBM推出一款14nm模拟AI芯片,能效已达最先进GPU的14倍。英伟达的芯片垄断,或许有望被打破了?
最近,IBM推出一款全新的14nm模拟AI芯片,效率达到了最领先GPU的14倍,可以让H100物有所值。

论文地址:https://www.nature.com/articles/s41928-023-01010-1
目前,生成式AI发展道路上最大的拦路虎,就是它惊人的耗电量。AI所需的资源,是不可持续增长的。
而IBM,一直在研究重塑AI计算的方法。他们的一大成就,就是模拟内存计算/模拟人工智能方法,就可以借助神经网络在生物大脑中运行的关键特征,来减少能耗。
这种方法,可以最大限度地减少我们在计算上花费的时间和精力。
英伟达的垄断,要被颠覆了?

IBM AI未来的最新蓝图:模拟AI芯片能效高出14倍
根据外媒Insider的报道,半导体研究公司SemiAnalysis的首席分析师Dylan Patel分析,ChatGPT每天的运行成本超过了70万美元。
ChatGPT需要大量算力,才能根据用户的提示生成回答。绝大部分成本,都是在昂贵的服务器上产生的。
在往后,训练模型和运行基础设施的成本只会越来越飙升。

IBM在Nature上发文表示,这款全新芯片能够通过削减能耗,来缓解构建和运营Midjourney或GPT-4等生成式AI企业的压力。
这些模拟芯片与数字芯片有不同的构建方式,数字芯片可以操作模拟信号,理解0到1之间的渐变,但只适用于不同的二进制信号。
模拟内存计算/模拟AI
而IBM的全新方法,就是模拟内存计算,或简称模拟AI。它借助神经网络在生物大脑中运行的关键特征,来减轻了能耗。
在人类和其他动物的大脑中,突触的强度(或‘权重’)决定了神经元之间的交流。
对于模拟AI系统,IBM将这些突触权重存储在纳米级电阻存储器器件(如相变存储器PCM)的电导值中,并利用电路定律,减少在存储器和处理器之间不断发送数据的需求,执行乘法累加(MAC)运算——DNN中的主要运算。
现在为很多生成式AI平台提供动力的,是英伟达的H100和A100。
然而,如果IBM对芯片原型进行迭代,并且成功推向了大众市场,这种新型芯片就很有可能取代英伟达,成为全新的支柱。
这款14nm模拟AI芯片,可以为每个组件编码3500万个相变存储设备,可以模拟多达1700万个参数。
并且,这款芯片模仿了人脑的运作方式,由微芯片直接在内存中执行计算。
这款芯片的系统能够实现高效的语音识别和转录,准确性接近了数字硬件设施。
而这款芯片大约达到了14倍,而之前的模拟表明,这种硬件的能效甚至达到了当今最领先GPU的40倍到140倍。

这场生成式AI革命,才刚刚开始。而深度神经网络(DNN)彻底改变了AI领域,随着基础模型和生成式AI的发展而日益突出。
然而,在传统的数学计算架构上运行这些模型,会限制它们的性能和能源效率。
虽然在开发用于AI推理的硬件方面,也取得了不少进展,但其中许多架构,在物理上拆分了内存和处理单元。
这就意味着,AI模型通常存储在离散的内存位置,要完成计算任务,就需要在内存和处理单元之间不断打乱数据。这个过程会大大减慢计算速度,限制可实现的最大能效。

PCM设备的性能特点、使用相位配置和导纳来存储模拟式的突触权重
IBM的基于相变存储器(PCM)的人工智能加速芯片,摆脱了这种限制。
相变存储器(PCM)可以实现计算存储融合,在存储器内直接进行矩阵向量乘法,避免了数据传输的问题。
同时,IBM的模拟AI芯片通过硬件级的计算存储融合,实现了高效的人工智能推理加速,是这一领域的重要进展。
模拟AI的两大关键挑战
为了将模拟AI的概念变为现实,需要克服两个关键挑战:
1. 存储器阵列的计算精度必须与现有数字系统相当
2. 存储器阵列能与其他数字计算单元以及模拟人工智能芯片上的数字通信结构无缝对接
IBM在Albany Nano的技术中心制造了着这种基于相变内存的人工智能加速芯片。
该芯片由64个模拟内存计算内核组成,每个内核包含256×256的交叉条阵突触单元。
并且,每个芯片中都集成了紧凑的时基模数转换器,用于在模拟和数字世界之间进行转换。
而芯片中的轻量级数字处理单元,也可执行简单的非线性神经元激活函数和缩放操作。
每个核心可看作一个tile,可以进行与深度神经网络(DNN)模型的一个层(比如卷积层)相关的矩阵向量乘法及其他运算。
权重矩阵被编码成PCM器件的模拟电导值存于芯片上。
在芯片的核心阵列中间集成了一个全局数字处理单元,用来实现一些比矩阵向量乘法更复杂的运算,这对某些类型的神经网络(如LSTM)执行是关键的。
芯片上在所有核心以及全局数字处理单元之间集成了数字通信通路,用于核心之间以及核心与全局单元之间的数据传输。
用该芯片,IBM对模拟内存计算的计算精度进行了全面的研究,并在CIFAR-10图像数据集上获得了92.81%的精确度。
这是目前所报道的使用类似技术的芯片中精度最高的。
IBM还将模拟内存计算与多个数字处理单元和数字通信结构无缝结合。
该芯片8位输入输出矩阵乘法的单位面积吞吐量为400 GOPS/mm2,比以前基于电阻式存储器的多核内存计算芯片高出15倍以上,同时实现了相当的能效。
而在字符预测任务和图像标注生成任务中,IBM通过在硬件上测量的结果与其他方法的比较,展示了相关任务在模拟AI芯片上运行的网络结构、权重编程以及测量结果的信息。
权重编程过程
英伟达的护城河深不见底?
英伟达的垄断,有这么容易打破吗?
Naveen Rao是一名神经科学出身的科技企业家,他曾试图与全球领先的人工智能制造商英伟达竞争。
‘每个人都是基于英伟达进行开发的。’Rao说,‘如果你想推出新的硬件,你就得赶上去和英伟达竞争。’
Rao在英特尔收购的一家初创企业中致力开发旨在取代英伟达GPU的芯片,但在离开英特尔后,他在自己领导的软件初创公司MosaicML里使用了英伟达的芯片。
Rao表示,英伟达不仅在芯片上与其他产品拉开了巨大的差距,还通过创建一个大型的AI程序员社区,实现了芯片之外的差异化——
AI程序员一直在使用该公司的技术进行创新。
十多年来,英伟达在生产能够执行复杂AI任务(如图像、面部和语音识别)以及为ChatGPT等聊天机器人(21.000, 1.63, 8.42%)生成文本的芯片方面,建立了几乎无法撼动的领先地位。
这家曾经的行业新贵之所以能够取得AI芯片制造的主导地位,是因为它很早就认识到了AI发展的趋势,为这些任务专门定制了芯片,并开发了促进AI开发的关键软件。
从那时起,英伟达的联合创始人兼CEO黄仁勋,就在不断地提高英伟达标准。
这使得英伟达成为了人工智能开发的一站式供应商。
据研究公司Omdia调查,虽然谷歌、亚马逊、Meta、IBM和其他公司也生产人工智能芯片,但到目前,英伟达占人工智能芯片销售额的70%以上。
今年6月,英伟达的市值已突破1万亿美元,成为全球市值最高的芯片制造商。
FuturumGroup分析师表示:‘客户会等18个月才购买英伟达系统,而不是从初创企业或其他竞争对手那里购买现成的芯片。这太不可思议了。’
英伟达,重塑计算方式
1993年,黄仁勋联合创立了英伟达,主要的业务是制造在电子游戏中渲染图像的芯片。当时的标准微处理器擅长按顺序执行复杂的计算,但英伟达生产的GPU可以同时处理多个简单任务。
2006年,黄仁勋进一步推进了这一进程。他发布了名为CUDA的软件技术,该技术可帮助GPU为新任务编程,使GPU从单一用途的芯片转变为更通用的芯片,能承担物理和化学模拟等领域的其他工作。

2012年,研究人员利用GPU在识别图像中的猫等任务中实现了与人类相似的准确度,这是一项重大突破,也是根据文本提示生成图像等最新发展的先驱。
而据该英伟达估计,这项工作在十年间耗资超过300亿美元,使英伟达不再仅仅是一个零部件供应商。除了与顶尖科学家和初创企业合作,公司还组建了一支团队,直接参与人工智能活动,如创建和训练语言模型。
此外,从业者的需要导致英伟达开发了CUDA以外的多层关键软件,其中也包括数百条预构建代码的库。
在硬件方面,英伟达因每两三年就能持续提供更快的芯片而赢得声誉。2017年英伟达开始调整GPU以处理特定的AI计算。
去年9月,英伟达宣布生产名为H100的新型芯片,并对其进行了改进,以处理所谓的Transformer运算。这种运算被证明是ChatGPT等服务的基础,黄仁勋称之为生成式人工智能的‘iPhone时刻’。

如今,除非有其他厂家的产品能和英伟达的GPU形成正面竞争,才有可能打破目前英伟达对AI算力的垄断格局。
IBM的模拟AI芯片,有这个可能吗?
本文来自新智元,原文标题:《挑战英伟达H100霸权!IBM模拟人脑造神经网络芯片,效率提升14倍,破解AI模型耗电难题》
风险提示及免责条款
市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。

责任编辑:周唯






APP专享直播
热门推荐
特朗普批评泽连斯基:三年前就该结束这一切 收起特朗普批评泽连斯基:三年前就该结束这一切
- 2025年02月19日
- 00:27
- APP专享
- 扒圈小记
11,592
事发上海!妻子被撞,丈夫拦停酒驾肇事逃逸者,致其十级伤残,被索赔30万,法院判了
- 2025年02月18日
- 14:18
- APP专享
- 扒圈小记
3,537
明查|德国防长称对美副总统万斯的讲话“感到恶心”?假
- 2025年02月18日
- 23:16
- APP专享
- 北京时间
3,265

24小时滚动播报最新的财经资讯和视频,更多粉丝福利扫描二维码关注(sinafinance)
投资研报 扫码订阅
股市直播
-
趋势领涨今天 10:23:29
捷昌驱动(sh603583)公告称,公司股票连续三个交易日内日收盘价格涨幅偏离值累计超过20%,属于股票交易异常波动情形。经自查,公司目前生产经营活动正常,市场环境、行业政策未发生重大调整,生产成本和销售等情况没有出现大幅波动。公司控股股东及实际控制人不存在应披露而未披露的影响公司股价异常波动的重大信息。公司专注于线性驱动行业,生产的线性驱动系统广泛应用于智慧办公、医疗康护、智能家居等领域。公司主持的“领雁”研发攻关计划项目仍处于研发和测试阶段,目前尚未对市场进行批量供货,暂未形成收入。 -
趋势领涨今天 10:23:05
=加入潜伏擒牛VIP,享四大顶级服务=【1】购买VIP自动加入私密小直播间!【2】每周3-5只超短金股调入调出服务,适合实时看盘的投资者!【3】每周一份高端内部绝密文章:包含近期布局、热点版块、指数预判!【4】每月2~3只高端中线金股服务!(VIP超短、中线个股均有涉足,让上班族也能跟上VIP节奏!)现月课7.5折,1288元!季课6.9折,3558元,续费季度更划算!新朋友可先月课体验!点网址,直接买,订购地址:【更多独家重磅股市观点请点击】【更多独家重磅股市观点请点击】 -
趋势领涨今天 10:04:53
【南向资金今日净买入超103亿港元 阿里巴巴获净买入居前】南向资金净买入103.24亿港元。其中,阿里巴巴-W、快手-W、华虹半导体分别合计获净买入约28.30亿港元、8.13亿港元、7.35亿港元;美团-W、晶泰控股-P合计遭净卖出13.31亿港元、0.49亿港元。 -
数字江恩今天 09:45:35
这里昨日的急跌、今日的急涨都属于宽幅震荡结构,哪怕略为突破3366也不改变这个事实。宽幅震荡中,急跌不杀跌、急涨不追涨,今天修复之后,等待再次回踩,配合5分钟底背离和轮峰线的支持寻找机会。 -
数字江恩今天 09:45:27
这里先不看细节,直接看15分钟图。图上的3464-3418蓝色轮峰线是核心,3140的反弹abc突破蓝色轮峰线之后,只要不有效跌破轮峰线,维持之上震荡,其实都是宽幅震荡结构。【更多独家重磅股市观点请点击】 -
数字江恩今天 09:45:17
今日最瞩目的板块当属人形机器人(sz300024)机器人(sz300024),此外,deepseek各个细分行业也在修复。无论是大盘,还是双创,还是国政2000都反V了昨日的中阴线实体部分。市场大悲后迎来大喜,大悲大喜后自然是各种观点的混乱。 -
数字江恩今天 09:45:11
A股两市今日成交6751 + 10459 = 17210 亿人民币,相比昨日缩量近800亿。大盘早盘1小时左右强力拉升,然后全天在20点内的小区间窄幅震荡,收涨27个点。个股方面,和昨日想法,超过85%的个股收红。7%以上大幅上涨个股家数也超过了昨日大幅下跌个股家数。 -
数字江恩今天 09:45:07
宽幅震荡忌追涨杀跌 -
趋势领涨今天 09:25:41
盘后再放利好,两部门:鼓励外资在华开展股权投资 引导更多优质外资长期投资我国上市公司;适时进一步扩大电信、医疗领域开放试点 研究制定有序扩大教育、文化领域自主开放实施方案。五部门印发《优化消费环境三年行动方案(2025—2027年)》 -
北京红竹今天 08:47:20
3、指数调整还没到位目前沪指五分钟级别三买还是没有出现,恒生科技指数和创业板也没有跌破防守线,昨天第一次洗盘,今天快速修复。对于指数来说,调整还没有完成,至少五个新低还没有。如果你是纯指数交易者,还要继续等。不过我在直播中也大家说过了,指数会有回落,但不谈大风险,定义为洗盘。目前指数的洗盘还没结束。