GMI Cloud：为AI出海企业提供高稳定的GPU云解决方案

来源：钛媒体

GMI Cloud亚太区总裁King Cui

“与互联网技术和移动互联网技术相比，如今的GPT4 / ChatGPT影响的用户还非常有限，AI技术还远远未到‘技术普惠点’，我们正处在‘1995年的互联网’时代。”

12月7日，GMI Cloud亚太区总裁King Cui出席参加了2024T-EDGE创新大会暨钛媒体财经年会的平行论坛EDGE Founders Demo Day，在现场分享了他们在AI出海大潮中的趋势洞察，并介绍了GMI Cloud在GPU云平台构建方面的探索。

以下为King 演讲精华：

AI出海大潮与算力需求

King Cui将云计算的发展分为三个阶段，每个阶段都标志着技术和社会的一次重大飞跃。

Cloud 1.0（2010-2015）：Cloud Base，企业开始将传统的IDC业务迁移到云端，这一时期的云服务主要以裸金属形态存在，企业开始尝试和适应云的新模式。
Cloud 2.0（2016-2022）：Cloud Native，用户和企业从简单的云上云转变为深度用云，PaaS 产品从裸金属 base 转变为VM及Container Base，客户开始更多地使用云厂商提供的PaaS产品，专注于自身业务的研发提效。
Cloud 3.0（2023年至今）：Cloud 3.0标志着AI Native Cloud时代的到来，以 OpenAI发布 GPT 为起点，AI浪潮席卷全球。这一阶段的云产品形态与前两个阶段有显著不同，计算、存储和网络产品都发生了重大变化，如从CPU计算转向GPU计算，存储需求也从传统的文件存储、对象存储转变为需要更高速的存储，如GPFS，网络也同样需要适应GPU集群的高速网络需求。

AI推动了云计算的发展。然而，在这个AI时代，AI企业在全球的发展将是一个确定性趋势，未来三年将进入高速发展阶段。AI技术的发展速度和对人类生活的影响日益增强，尽管AI 技术的发展处于早期阶段，但已经展现出巨大的潜力和机会。截止至2024年8月，全球AI WEB产品总数共1717个，其中中国AI WEB产品数量280个，出海AI WEB 产品数量95个。也就是说，有34%的AI产品从一开始的定位就是全球化。

中国 AI 企业在海外市场的布局正在加速。然而，机会与挑战并存，在“AI三要素”（数据、算法和算力）中，算力——因其高昂的硬件成本和稳定运维的高难度，都是一个初创AI企业没有能力去自己承担的核心生产资料。

目前在AI出海过程中，以算力为中心的生产矛盾逐渐增多。具体矛盾主要表现在以下几个方面：

1、国内高端算力资源不足，导致业务进展缓慢；

2、AI Infra的建设经验不足，软件和硬件基础设施构建需消耗大量时间及经济成本；

3、供应商（机房、能源、设备等）可靠性、稳定性难保障，选型困难。

而所有上述问题产生的直接结果就是——AI Infra稳定性不足，导致公司承担了更多的经济以及时间成本。

以Meta为例，其披露的报告显示，为期54天的预训练阶段中，总共出现了466次工作中断，其中47次是计划内的自动维护，419 次是意外的，且大部分都来自硬件问题，GPU又是最多的，占了其中的 58.7％。

然而，维持AI Infra层的稳定性并不是一件简单的事情。所以，这就意味着我们需要在组网、硬件、软件、工程化等方面做大量工作，以减少GPU的掉卡率，保持任务的连续性，最大化GPU的使用效率！

很多AI企业在选择Infra团队的时候，优先考虑的往往是单价最低的GPU。但其实，GPU集群的稳定性才是更为重要的考虑因素。稳定性越高，模型训练、研发整体成本才会下降。

所以，选择具有软件加持和极强运营能力的云平台，一定比单纯选择价格低的GPU硬件更具性价比。

GMI Cloud的解决方案

作为一个全栈AI应用平台，GMI Cloud在GPU硬件架构层和IaaS层拥有完全自研和掌控的硬件和云平台。在Iaas层GMI Cloud会基于硬件构建自己的Cloud云平台，把计算、存储、网络这些能力通过API的方式更好地提供给Paas层的客户。而在硬件层GMI Cloud会提供高端的GPU服务器，包括高速存储和高速网络能力。

GMI Cloud致力于支持AI应用开发者，提供高稳定性的GPU集群，以提高AI应用的研发效率和产品竞争力。

在Cluster Engine层面，GMI Cloud的Cluster Engine是一个端到端的全栈AI应用平台，从底层GPU硬件架构层到应用层，提供统一的资源管理和调度。GMI Cloud 通过Kubernetes和HPC Slurm开展工作。GMI Cloud将Slurm应用到容器化中，实现硬件资源（尤其是GPU资源）像任务一样灵活调度和分配，并由云集群引擎统一管理，满足AI和HPC的资源需求。

除了软件能力，“验证体系”也是保证用户体验关键因素之一。GMI Cloud具有独特的双验证体系。作为NCP（Nvidia Cloud Partner），GMI Cloud的集群设计要首先通过经过Nvidia认证，从一开始构建集群的时候，构建方案就需要Nvidia review。GMI的集群构建完毕之后，英伟达会进行再次的check，形成一个双重的Nvidia认证体系。另一方面，GMI Cloud在给客户构建私有集群之前，自己也会对于整个硬件和系统做测试。包括单机和跨机的这种分布式模型的训练，GMI Cloud会做一些压力和功能测试。确保这个集群交给客户是完全可以运行的。在这套双验证体系的加持之下，GMI Cloud可以保证交付给客户的集群是一个完全可用的状态。

云服务不可能说永远不出问题，但是GMI Cloud会关注一旦出现问题，响应速度是否足够快，对问题的定位是否足够快，集群的恢复是否足够快。

GMI Cloud与GPU供应商、IDC合作伙伴间共筑了三角合作的关系，为客户提供更高水平的服务、更贴近源头的问题追溯。GMI Cloud提供24x7x365的全年全天候的监控和支持服务。一旦出现问题，GMI会以最快速度恢复我们的集群，减少故障时间，确保系统稳定性。

GMI Cloud目前为AI Infra选型提供两种方案，第一种是PRIVATE CLOUD，如果企业需要长期占有一个独立集群，GMI Cloud会推荐这种私有的PRIVATE CLOUD，GMI Cloud会帮助完成模型从底层到上层的全部优化，让企业“拎包入住”。如果只是临时使用一两张卡、用几天，那就推荐用ON-DEMAND来节约成本。

GMI Cloud的融资情况与发展规划

由Google X 的AI专家与硅谷精英共同参与创立的GMI Cloud是一家领先的AI Native Cloud 服务商，拥有遍布全球的数据中心网络，为企业AI应用提供最新、最优的GPU资源，为全球新创公司、研究机构和大型企业提供稳定安全、高效经济的AI云服务解决方案。

GMI Cloud凭借高稳定性的技术架构、强大的GPU供应链以及令人瞩目的GPU产品阵容（如拥有AI 强大算力的H100；能够精准平衡AI 成本与效率的H200；以及未来即将上线的具有卓越性能的GB200等），确保企业客户在高度数据安全与计算效能的基础上，高效低本地完成 AI 落地。

据悉，GMI Cloud在10月完成了A 轮8200 万美元融资，由Headline Asia领投，同时获得亚太区智能能源解决方案提供商Banpu （BANPU.BK）以及全球科技大厂纬创资通（3231.TW）的战略投资。这笔资金将用于科罗拉多州数据中心的建设，以强化GMI Cloud 在全球AI算力服务方面的布局。

在接下来的一年内，GMI Cloud的主要发展目标是继续提升GPU云服务的性能和稳定性，除了Cluster Engine以外，还将重点发展Inference Engine，解决AI推理相关需求。（本文首发于钛媒体APP，作者｜郭虹妘，编辑｜陶天宇）

特别声明：以上内容仅代表作者本人的观点或立场，不代表新浪财经头条的观点或立场。如因作品内容、版权或其他问题需要与新浪财经头条联系的，请于上述内容发布后的30天内进行。