Zen 5对比初代已提升85%!AMD CPU/GPU/NPU三大新架构揭秘

Zen 5对比初代已提升85%!AMD CPU/GPU/NPU三大新架构揭秘
2024年07月15日 22:41 快科技

6月初的台北电脑展上,AMD正式发布了基于新一代Zen 5架构的锐龙AI 300系列笔记本处理器、锐龙9000系列桌面处理器,均将在7月份上市。

当时,AMD比较罕见地大方公布了具体型号命名、规格参数(隔壁的Lunar Lake还只有架构和技术),不过关于新的CPU/GPU/NPU架构并没有讲太多,桌面上的新一代主板芯片组也只说了一个大概,算是留了一些悬念。

上周,AMD特意在美国举办了一场Zen 5 Tech Day技术活动,终于揭开了新架构的神秘面纱,并公布了更多性能数据、技术特性,尤其是新的处理器与内存超频。

至于确切的上市时间,锐龙AI 300笔记本是7月28日,锐龙9000系列是7月31日。

【Zen 5架构:整体加宽加大、独享Intel秘笈】

Zen架构诞生于2017年,相比于此前的推土机架构IPC大幅提升52%,远超当初设定的40%目标,在整个微处理器历史上都是极为罕见的进步。

7年来,Zen架构不断深入打磨,如今已经演化到第五代,是一次相当大幅度的变革,包括增加每时钟周期指令数、拓展指令分派与执行带宽、翻倍缓存数据带宽、AI加速等等。

CPU架构设计是一个极为复杂的工程,哪怕是个升级版本。

Mike Clark已经在AMD工作了31年之久,如今是AMD院士、芯片设计工程师,也是历年来Zen架构研发的灵魂人物,被称为“Zen之父”(Father of Zen)、“Zen老爹”(Zen Daddy)。

他动情地表示,人们往往意识不到CPU架构设计有多难,需要多么漫长的时间,比如Zen 5的研发,就是全球多地大量的设计、验证、软件等团队多年来全身心投入的心血结晶,它甚至已经融入了大家的血液之中,很多人吃饭甚至做梦的时候都想着它,而最终看到自己的努力开花结果,是一件相当了不起的事情。

接下来我们就看看Zen 5架构在不同模块的变化,当然我们只能大略地讲一讲高级层面的,不涉及太深入的细节。

其实,现代CPU架构都有着成熟的体系,整体可分为前端、后端两大部分,细分包括指令预取与解码、整数执行、浮点执行、载入存储、缓存等不同单元模块。

除非出现完全颠覆性的计算体系,CPU架构设计师要做的,就是根据预设目标,确定不同单元模块的规格规模,然后有机地组合为一个整体,发挥出最大效率,既不能造成浪费,也不能出现瓶颈。

就像一条水渠或者水管,一般情况下自然是水流量越大越好,但也不能一味地加宽加粗,从源头到末端要整体协调一致,既不能让水不够了,也不能让水堵住了,讲究的就是一个平衡。

Zen 5的整体思路就是适当放大规模,很多地方甚至翻番,比如前端部分改成了双预取、双解码流水线,可以更高效地处理各种负载,打个比方就是源头水闸更开放,能释放的水流量更足。

同时,分支预测也做了极大提升,吞吐量更大,精度更高,延迟更低,而且指令缓存的延迟和带宽同样得到了提升,就像是水渠也更宽敞了,面对更多的水流不会出现溢出情况。

整数执行单元加宽了指令的分派与执行通道,包括分派与引退增加到8个宽度,执行窗口增大,一体化ALU调度器数量更多,包括六个ALU与四个AGU。

浮点与矢量执行单元那部分,最核心变化就是在Zen 4架构引入AVX-512指令集的基础上,从仅支持256位数据宽度,强化为支持完整的512位。

256位下的灵活性更高,因为不是所有的指令都需要用到512位这么宽,而现在加入512位满血版之后,可长可短,可以在保持灵活性的同时,大大提升执行效率和性能。

更耐人寻味的是,Intel方面由于异构混合架构设计的缘故,新一代的Lunar Lake、Arrow Lake都不支持AVX-512,何时能够回归也不一定。

谁能想到,Intel当年的独门武器,如今反而成了AMD的私房菜。

另外,浮点单元的流水线有6条,FADD指令的延迟只有2个时钟周期。

载入存储单元部分大大提升了数据带宽,其中一级数据缓存容量从32KB增大到48KB,同时从8路增强为12路。

通往一级缓存、浮点单元的最大带宽,也比上代翻了一番,并改进了相应的数据预取。

另外,数学加速单元的性能有了突飞猛进,单核心执行数学学习、AES-XTS指令的速度分别可提升最多32%、35%。

这有啥好处?当然是可以极大地加速AI运算的效率,更适应当下环境,特别是在EPYC处理器中搭配Instinct加速器,效果更是相得益彰。

凭借这一系列改进,Zen 5架构的IPC提升平均多达16%(可以理解为同频性能提升),部分场景提升甚至高达35%。

其中贡献最大的是指令执行与引退部分的改进,然后是数据带宽、指令解码与OP缓存的提升,最后是指令预取与分支预测的变化。

根据历年的官方数据,Zen+、Zen 2、Zen 3、Zen 4相比前代的IPC提升平均幅度分别为3%、15%、19%、13%。

五代六个版本演进累积下来,Zen 5相比于初代Zen IPC平均提升幅度已经高达约85%!

别忘了频率也在不断拉高,初代最高只有4.0GHz,如今已经高达5.7GHz,提升幅度约43%。

产品方面,面向台式机的锐龙9000系列,会使用纯粹的Zen 5,还是CCD+IOD的组合。

CCD部分工艺从5nm升级为4nm,每个里边最多8核心,总计最多16核心。

IOD部分沿用锐龙7000系列的,因此还是6nm,集成两个RDNA 2架构的GPU图形核心。

移动端的锐龙AI 300系列全部都是Zen 5、Zen 5c的组合,如上图右下角部分,下方四个橙色调的是Zen 5,上方八个紫红色调的是Zen 5c。

不同于Intel异构架构,Zen 5、Zen 5c还是完全相同的架构设计、IPC性能、ISA指令集,不同之处只是后者缓存更小、频率更低(但能效更高)。

锐龙AI 300系列的制造工艺为4nm,和上代锐龙7000/8000系列一样。

在数据中心端,第五代Turin EPYC将在今年下半年发布,使用先进的4nm、3nm工艺组合,这也是AMD第一次引入3nm。

Turin EPYC将升级到多达192核心384线程,新特性方面官方特别提到了基于Trust IO功能的AI加密,无疑可以更好地满足当今的云端AI部署需求。

接下来,我们将会看到Zen 6、Zen 6c,后续的Zen 7也在研发之中,你猜都会用什么工艺?

ZenAMD指令gpucpu
新浪科技公众号
新浪科技公众号

“掌”握科技鲜闻 (微信搜索techsina或扫描左侧二维码关注)

创事记

科学探索

科学大家

苹果汇

众测

专题

官方微博

新浪科技 新浪数码 新浪手机 科学探索 苹果汇 新浪众测

公众号

新浪科技

新浪科技为你带来最新鲜的科技资讯

苹果汇

苹果汇为你带来最新鲜的苹果产品新闻

新浪众测

新酷产品第一时间免费试玩

新浪探索

提供最新的科学家新闻,精彩的震撼图片