苹果 iPhone 17 Pro 成功运行 4000 亿参数大模型,但速度令人抓狂

苹果 iPhone 17 Pro 成功运行 4000 亿参数大模型,但速度令人抓狂
2026年03月23日 18:46 IT之家

IT之家 3 月 23 日消息,拥有 4000 亿参数的大语言模型只能在配备大容量内存、性能强劲的硬件上运行,因为即使是量化或压缩版本,也至少需要 200GB 内存。从这些苛刻的配置要求来看,iPhone 17 Pro 绝对不会是运行 4000 亿参数大模型的首选,但有人已经证明,苹果这一代旗舰机型完成了这件看似不可能的事。不过IT之家需要说明的是,这离不开一些巧妙的技术手段。

一个名为 Flash‑MoE 的开源项目已在 iPhone 17 Pro 上成功运行,据网友 @anemll 展示,这款旗舰机虽然能运行这个算力需求极高的模型,但也存在明显短板,其 Token 生成速度慢得惊人,仅 0.6 个 Token / 秒,大约每 1.5 到 2 秒才能生成一个单词。

不过话又说回来,无论速度如何,一部智能手机能跑起来 4000 亿参数的大语言模型,这一事实本身就说明:只要再做一些优化,未来在手机端本地运行大语言模型完全是有可能实现的。

至于实现原理:iPhone 17 Pro 仅配备 12GB LPDDR5X 内存,根本不可能把整个大模型全部载入内存,而 Flash‑MoE 则利用了设备的固态硬盘(SSD),直接向 GPU 流式传输数据。此外,“MoE”代表混合专家模型(Mixture of Experts),这意味着其每生成一个单词,只需要调用 4000 亿参数中的一小部分。

在本地运行大语言模型还有一个好处:完全保护隐私,且无需联网就能获得回复,只不过 iPhone 17 Pro 的电池会被严重消耗。开发者们也会使用大语言模型的压缩版,也就是“量化版”,但即便是量化后的 4000 亿参数模型,最低仍需 200GB 内存,这在 iPhone 17 Pro 上原本是无法实现的。

简而言之,这次最新演示证明:只要你能忍受每秒仅 0.6 个 Token 的缓慢生成过程,就可以在智能手机上运行 4000 亿参数的大语言模型。但也要清楚,“能跑起来”和“能流畅、可用地使用”完全是两码事。

内存
新浪科技公众号
新浪科技公众号

“掌”握科技鲜闻 (微信搜索techsina或扫描左侧二维码关注)

创事记

科学探索

科学大家

苹果汇

众测

专题

官方微博

新浪科技 新浪数码 新浪手机 科学探索 苹果汇 新浪众测

公众号

新浪科技

新浪科技为你带来最新鲜的科技资讯

苹果汇

苹果汇为你带来最新鲜的苹果产品新闻

新浪众测

新酷产品第一时间免费试玩

新浪探索

提供最新的科学家新闻,精彩的震撼图片