4 台苹果 Mac Studio 池化 1.5TB 内存，DeepSeek V3.1 AI 推理速度提高 122.6%|内存|集群|推理_新浪科技

IT之家 12 月 23 日消息，科技博主 Jeff Geerling 于 12 月 18 日发布评测视频，利用苹果提供的四台 Mac Studio（搭载 M3 Ultra 芯片）搭建计算集群，实测了 macOS Tahoe 26.2 中 Thunderbolt 5 与 RDMA 技术对 AI 性能的提升。

这套“豪华”集群由四台搭载 M3 Ultra 芯片的 Mac Studio 组成（两台配备 512GB 内存，两台配备 256GB 内存），通过 Thunderbolt 5 连接，构建了总容量达 1.5TB 的统一内存池，硬件总价值近 4 万美元（现汇率约合 28.2 万元人民币）。

在多机集群中，节点间的通信速度往往决定了整体性能。传统的以太网连接通常受限于 10Gb/s 的带宽，而此次测试启用的 Thunderbolt 5 支持将带宽上限提升至 80Gb/s。

更为关键的是，苹果在新系统中引入了 RDMA 技术。该技术无需经过对方 CPU 的繁琐处理，允许集群中的某个 CPU 节点直接读取其他节点的内存数据。

这意味着四台 Mac 的内存资源被整合成一个巨大的共享池，极大地降低了延迟，为运行单个设备无法承载的超大语言模型（LLM）提供了硬件基础。

Geerling 使用支持 RDMA 的开源工具 Exo 与不支持该技术的 Llama.cpp，对比测试大模型推理速度。在运行 Qwen3 235B 模型时，单节点下 Llama.cpp 略占优势；但扩展至四节点后，Llama.cpp 性能跌至 15.2 tokens/s，而开启 RDMA 的 Exo 则升至 31.9 tokens/s，性能实现翻倍。

在测试 DeepSeek V3.1（671B 参数）时，Exo 的推理速度从单节点的 21.1 tokens/s 稳步提升至四节点的 32.5 tokens/s，增幅 54.03%。在相同四节点情况下，Llama.cpp 的推理速度为 14.6 tokens/s，开启 RDMA 后提升 122.6%。