十万块英伟达 H100 打造,马斯克宣布“全球最大 AI 训练集群”投入使用

十万块英伟达 H100 打造,马斯克宣布“全球最大 AI 训练集群”投入使用
2024年07月23日 10:06 IT之家

感谢IT之家网友 西窗旧事 的线索投递!

IT之家 7 月 23 日消息,马斯克现宣布,孟菲斯超级计算机集群(Memphis Supercluster)于当地时间凌晨  4:20 开始进行训练,感谢 xAI 团队、X 团队、英伟达及其支持公司所做的贡献。(IT之家注:孟菲斯是田纳西州人口第二大城市)。

据马斯克介绍,该集群配备了 10 万个英伟达 H100 GPU,采用液冷散热,并使用单一的 RDMA 网络互连架构,是全世界最强大的 AI 训练集群。

从 GPU 规模上来看,这一集群已经全面超越了最新 Top500 榜单上的任何一台超级计算机,包括世界上最强的 Frontier(37888 个 AMD GPU)、Aurora(60000 个 Intel GPU)和微软 Eagle(14400 个 Nvidia H100 GPU)。

马斯克还透露,其目标是“在今年 12 月前训练出世界上最强大的人工智能(Grok3)”,而孟菲斯超级计算机集群正是其实现这一目标的优势所在。

在今年 3 月敲定协议后,这一“超级计算机工厂(Gigafactory of Compute)”几乎是立即开工。上个月,经济发展组织大孟菲斯商会也证实马斯克旗下 xAI 全新“超级计算机工厂”正在筹备中。

为了达成这项协议,xAI 已经口头承诺将改善孟菲斯的公共基础设施,以支持数据中心的发展,包括兴建一个新的变电站和一个污水处理设施。

孟菲斯电力、天然气和水务公司的首席执行官估计,xAI 孟菲斯工厂每小时可能使用高达 150 兆瓦的电力,相当于 10 万户家庭所需电量,而 XAI  预计每天至少需要 100 万加仑的散热水。

孟菲斯市议会议员 Pearl Walker 上周表示:“民众很害怕。他们担心水资源可能出现问题,也担心能源供应(出现问题)。”

实际上,早在 5 月份,xAI 就表示已获得 60 亿美元(IT之家备注:当前约 437.14 亿元人民币)的资金用于 AI 开发。该公司目前为其孟菲斯超级计算站点发布了六个招聘信息,职位包括光纤工头、网络工程师和项目经理等。

新浪科技公众号
新浪科技公众号

“掌”握科技鲜闻 (微信搜索techsina或扫描左侧二维码关注)

创事记

科学探索

科学大家

苹果汇

众测

专题

官方微博

新浪科技 新浪数码 新浪手机 科学探索 苹果汇 新浪众测

公众号

新浪科技

新浪科技为你带来最新鲜的科技资讯

苹果汇

苹果汇为你带来最新鲜的苹果产品新闻

新浪众测

新酷产品第一时间免费试玩

新浪探索

提供最新的科学家新闻,精彩的震撼图片