Arm终端计算子系统为AI用户体验提供计算平台

Arm终端计算子系统为AI用户体验提供计算平台
2024年06月14日 09:07 电子产品世界

人工智能 (AI)正在改变消费电子设备,并且革新生产力、创造力和娱乐体验,这将带来更高程度的自动化、沉浸感和个性化,为开发者和最终用户提供海量机会。随着推动移动端系统级芯片 (SoC) 的设备端生成式 AI 的发展,AI 技术正持续演进。

本文引用地址:

依托于Arm全面计算解决方案的成功,我们宣布推出面向消费电子设备的全新计算子系统,即Arm 终端计算子系统 (CSS)。作为 AI 体验的计算基础,它能在最广泛类别的消费电子设备中,实现性能、效率和可扩展性的跨越式提升。

Arm终端CSS囊括最新的Armv9.2 Cortex CPU集群和 Arm Immortalis 与 Arm Mali GPU、CoreLink 互连系统 IP,以及知名代工厂采用三纳米工艺生产就绪的 CPU 和 GPU 物理实现。该平台为我们的合作伙伴提供了生产芯片的最快途径。通过物理实现,Arm 的合作伙伴能够利用前沿三纳米工艺的各种优势,同时实现高度灵活、可定制的芯片设计。

深入了解Arm终端CSS

Arm 终端 CSS 采用最新 Armv9.2 CPU 集群,其中集成了 Arm 目前最高性能的 Arm Cortex-X925 CPU、最高效的 Cortex-A725 CPU 和更新后的 Cortex-A520 CPU。这为AI和其他实际用例计算工作负载提供出色的性能和效率。

图 Arm终端CSS涵盖哪些要素?图 Arm终端CSS涵盖哪些要素?

最新的CoreLink互连实现了Arm终端CSS的系统集成和扩展。集成的系统级缓存 (SLC) 通过减少 DRAM 带宽和访问来实现更出色的系统能效。系统内存管理单元(SMMU)通过第二阶段转换加强安全性,以便支持如安卓虚拟化框架 (AVF) 等虚拟化安全框架。

凭借基于第五代 GPU 架构、面向旗舰智能手机所设计的 Arm Immortalis-G925,Arm 终端 CSS 实现了惊人的图形和主机级别的游戏性能。通过增强的性能和能效,用户可以在移动设备上享受更长时间、更沉浸式的游戏体验。

Arm 终端 CSS 将成为第一代采用三纳米工艺节点的安卓 SoC 的一部分,从而在芯片中实现出色的功耗、性能和面积 (PPA)。作为终端 CSS 的一部分,Arm 的物理实现能够全面释放三纳米工艺技术的潜力,为高端平台充分发挥 PPA 优势,并为我们的合作伙伴打造芯片创建最快途径。

我们携手领先的代工厂合作伙伴,协同设计并交付 CPU 和 GPU 物理实现,其中包括流片就绪的 Cortex-X925 CPU 以及 Immortalis-G925 三纳米工艺的物理实现。这将有助于我们的合作伙伴在三纳米工艺上取得 PPA 优势,同时通过生产就绪的芯片解决方案来缩短芯片的开发与部署时间。此外,我们的合作伙伴能够灵活地使用 Arm 终端 CSS 来构建特定市场、具差异化特色的 CPU 集群和 GPU。

突破计算和AI性能的极限

终端 CSS 是 Arm 目前面向安卓系统速度最快的平台,与 2023 Arm 全面计算解决方案 (TCS23) 平台相比,在关键基准和一般计算用例方面取得了显著改进。其中包括:

●   通过 Geekbench 6 单核分数测量可知,得益于新的 Cortex-X925,峰值性能提高 36%;

●   在前十大应用中,五款应用的平均启动时间加快了 33%,不仅提高了生产力,也带来了流畅的移动体验;

●   通过Speedometer 2.1浏览器基准测量时,网页浏览速度加快了 60%;

●   在包括光线追踪和可变速率着色 (VRS) 基准等七项图形基准中,峰值图形性能平均提高 30%。

图 Arm终端CSS的一些性能优势图 Arm终端CSS的一些性能优势

Arm 终端 CSS 平台提供由 AI 驱动的消费电子设备体验。今年早些时候,我们展示了大语言模型 (LLM) 如何在移动设备上的 Arm CPU 进行本地运行。借助终端 CSS,LLM 将得以在 Arm CPU 上更好地运行,带来更快的响应速度。当运行 Llama 3 LLM 和 Phi-3 LLM时,该平台可将词元 (Token) 首次响应时间分别缩短 42% 以及 46%。

图 通过Arm终端CSS在Arm CPU上运行LLM图 通过Arm终端CSS在Arm CPU上运行LLM

此外,得益于新Arm CPU和GPU所取得的技术进展,在广泛的通用 AI 网络上,Arm 终端 CSS 的 AI 推理性能获得了显著的提升。例如,采用 Cortex-X925 时,推理速度加快 59%;采用 Immortalis-G925 时,AI 推理速度加快 36%。此外,通过在终端 CSS 的 CPU 集群配置中利用一颗额外的 Cortex-X925 CPU,我们观察到在 17 个主流网络中,针对 int8 和 fp16 数据类型的 AI 推理性能提高了惊人的 2.7 倍。这些在 AI 推理方面的改进可在一系列 AI 用例中实现无缝顺畅的用户体验。

图 Arm终端CSS提升AI推理图 Arm终端CSS提升AI推理

Arm终端CSS在计算摄影和AI摄像头等AI用例中的表现尤为优异。要想拍摄出美轮美奂且具有逼真焦外成像效果(让背景模糊并聚焦所选主体)的照片和视频,这并非易事。AI 摄像头的焦外成像管线由深度估计、分割、抠图和混合等多个阶段组成,可生成高质量的影像结果。与 TCS23 相比,通过 CPU 上针对焦外成像工作负载的 AI 处理,终端 CSS 的焦外成像性能提升了 24%。这意味着用户可以在不影响电池续航时间的前提下,在照片和视频上获得更快、更顺畅的焦外成像效果。

图 通过Arm终端CSS提升AI摄像头性能图 通过Arm终端CSS提升AI摄像头性能

此外,通过软件和工具的结合,Arm 终端 CSS 的性能与功耗得以获得进一步优化。Arm 新推出的 Kleidi包含了经高度优化的机器学习 (ML) 软件内核集合 KleidiAI,能让开发者在通过高度优化的生成式 AI 框架运行 AI 工作负载时,全面释放 Arm CPU 的潜力。这意味着开发者能够面向各类设备,基于尽可能高的性能,快速构建 AI 应用。

为了获得更具沉浸感和更长时间的游戏体验,Arm 终端 CSS 实现了两位数的性能和能效提升,其中包括在一系列热门的手游中,平均以每秒 120 帧的速度运行时,在相同功耗下可带来 37% 的平均性能提升,同时 GPU 功耗降低 30%。

可扩展的性能覆盖各类消费电子设备市场

Arm 致力于让每个人都能享有 AI,并通过可应用在各类和各种不同外观设计的消费电子设备的终端 CSS,不断提升性能和效率。

Arm 终端 CSS 可扩展应用至市面上最高性能的消费电子设备,包括新一代 AI PC。其中的 Cortex-X925 与 Cortex-X4 CPU 相比,其TOPS 提高 50%。终端 CSS 为 PC 市场提供专用的可扩展平台。该平台采用 Cortex-X925 以提供一流的单线程性能,并通过近期更新的 DSU-120(在单个 CPU 集群内提供多达 14 个 CPU 核心)提供最佳的性能可扩展性。除了 SVE2,更多的 Armv9 架构的功能,包括已在移动端生态系统验证的安全性技术,如指针验证 (PAC)、分支目标识别 (BTI) 和内存标记扩展 (MTE) 等,也将引入 PC 市场。

通过终端 CSS,Arm 可为消费电子设备市场的各类性能和成本需求提供可获取的 AI 技术。Cortex-A725 是实现高能效 AI 吞吐量的主要处理器,在对成本更敏感的大众消费电子技术市场领域,它是 AI 处理的主力和主要开发者目标。例如,我们曾在一个虚拟助手演示中,展示了在搭载三核 Cortex-A700 系列 CPU 核心的现有安卓智能手机上,运行 Llama2-7B 和 Phi-3-mini (Phi-3 3.8B) LLM 的性能。与此同时,面积经优化的 Cortex-A725 可在广泛的消费电子技术领域中,以高面积效率实现生成式 AI 工作负载的部署。

消费电子技术的AI根基

Arm终端CSS是为各类消费电子设备打造新一代 AI 体验的专用平台。终端 CSS 是 Arm 针对安卓系统速度最快的计算平台,这将使得用户能够在其移动设备上获得前所未有的安卓体验。该平台的 PPA 优势通过物理实现得以达成,助力我们的芯片合作伙伴缩短产品上市时间并顺畅部署。终端 CSS 的可扩展性能有助于在各种类型、不同外观设计的设备的所有成本点上释放 AI 性能,使得人人都能享有 AI。

Arm 终端 CSS 使得我们的生态系统能够实现更多突破,无论是释放更多性能、实现更多 AI 功能和应用体验,还是打造更先进的芯片,Arm 平台是这一切的基础。凭借终端 CSS,Arm 为当前和未来的 AI 体验构建消费电子计算的未来。

新浪科技公众号
新浪科技公众号

“掌”握科技鲜闻 (微信搜索techsina或扫描左侧二维码关注)

创事记

科学探索

科学大家

苹果汇

众测

专题

官方微博

新浪科技 新浪数码 新浪手机 科学探索 苹果汇 新浪众测

公众号

新浪科技

新浪科技为你带来最新鲜的科技资讯

苹果汇

苹果汇为你带来最新鲜的苹果产品新闻

新浪众测

新酷产品第一时间免费试玩

新浪探索

提供最新的科学家新闻,精彩的震撼图片