万卡时代,一家IT企业的智算革命 |甲子光年

万卡时代,一家IT企业的智算革命 |甲子光年
2024年12月27日 15:22 甲子光年

通过硬件和软件的双重布局,蓝耘呈现了一个经过时间检验的答案。

作者|田思奇

在ChatGPT度过2岁生日后,生成式人工智能行业内弥漫着焦虑。

市场繁荣的表象之下,AI发展的能源成本急剧攀升,更大、更强的模型迭代也不像过去那般容易。各方对于AI发展“撞南墙”的担忧不绝于耳。

算力方面,投资者从英伟达和AMD等芯片巨头上赚得盆满钵满,但这些公司也需要在巨大的业绩压力下不断回应质疑。例如英伟达在11月末公布的三季度财报中交出了亮眼的表现,其股价的反应却依然受制于投资者对算力泡沫的恐慌。

然而,AI的故事还没有走到终局。OpenAI首席执行官萨姆·奥尔特曼近日发出一条意味深长的推文:“这里没有墙。”

显然,AI技术和需求的边界并非无法突破,只是突破所需的创新比以往任何时候都更加复杂且富有挑战性。

甲子光年智库此前提出,未来大模型的产业化发展是一套复杂的系统工程,构建高效稳定的算力平台是核心要义,成熟的算法、数据工具链,配套工具链及丰富的生态链是关键因素,亟需以系统的方式寻找最优解。

在这一背景下,“万卡集群”正在成为下一代技术革命的象征。作为AI时代的引擎,超大规模的智算集群不仅是推动AI技术进步的核心动力,也是实现智能化转型和创新的关键资源。

然而广大企业和个人开发者对于稳定性、灵活性以及可持续性的要求也与日俱增,运营规模更大的智算集群所需要的复杂能力,也并非短时间可以追平。

作为一家从IT系统集成转型而来的新三板企业,蓝耘科技正凭借深厚的行业资源积累和卓越的整合能力,将自己的角色从幕后推向了AI时代的舞台中央。11月28日,在初冬的杭州西湖畔,拥有20年历史的蓝耘科技发布了其标志性的“元生代”智算平台。

自2019年部署算力云服务以来,蓝耘已构建规模超万P的算力资源,公司在算力资源管理调度、性能调优及运维运营等方面具备可复制的工程化能力,这让蓝耘不仅服务于企业级客户,也让个人开发者能够从蓝耘轻松获得与巨头同等水平的算力支持。

蓝耘科技创始人李健在发布会现场表示:“我们坚信 AI 就是未来人类文明的重要组成部分。算力就是能源和养分,源源不断地供给智能体和通用人工智能的发展。”

同时,蓝耘的目光超越了技术本身。蓝耘科技宣布将以此次战略与产品发布会为起点,全面启动生态合作计划与集团化产业战略,用技术驱动产业,用生态赋能行业。

当AI技术从实验室步入现实应用的爆发期,蓝耘“元生代”智算云平台成为破解算力迷局的关键钥匙。平台基于 Kubernetes 原生云设计, 依托行业领先的灵活基础设施和大规模 GPU 算力资源,实现从数据准备、代码开发、模型训练到推理部署等全场景覆盖,高效赋能用户 AI 研发全流程。 

在不远的未来,这种从平台到生态的探索,或许将重新定义人类与智能的交互方式。

1.在AI浪潮中重塑

蓝耘公司的发展始于信息系统集成领域。21世纪的第一个十年,中国正经历大规模信息化建设,蓝耘凭借技术实力和市场敏锐度,在这一领域迅速崭露头角。然而,2014年的技术变革成为公司发展的转折点。云计算和大数据的崛起,让李健意识到,一个智能化的时代即将到来。

由此,李健决定调整公司的发展方向,期望在即将到来的人工智能浪潮中持续发挥公司的优势。然而在如此广阔的领域中,蓝耘应如何在AI的世界重新找到自己的定位?

依托多年来积累的系统集成经验,李健团队深刻认识到,蓝耘的优势在于IT基础设施的建设能力。在调研北美市场后,他们发现IT基础设施按需付费的云计算模式已经初露端倪,这也坚定了他们的判断:云计算将成为未来社会不可或缺的基础服务,而在智能化浪潮中,算力的重要性将进一步凸显。

2018年,蓝耘迎来了新的转折点。李健在业务探索中发现,芯片制程的指数级进步正在放缓,资产的重要性稳步提升。这一现实促使李健下定决心,开始投资建设自有算力基础设施。在这一过程中,李健看到了英伟达等先进GPU的市场潜力,尤其是NVLink技术的应用前景。公司果断购入大量相关设备,在市场需求尚未全面爆发时,完成了关键的资产布局。

“当时所有机构都在问我们,买资产的核心目的是什么?” 李健对「甲子光年」表示,“我们说我们在赌大模型。”

蓝耘科技创始人李健,图片来源:蓝耘蓝耘科技创始人李健,图片来源:蓝耘

业务转型升级难言一帆风顺。当公司选择切断之前的业务,深入探索新领域时,许多团队成员就此离开。李健最终回购大量股份,孤注一掷地投入新业务中。事实证明,当大模型行业在2021年随着GPT-3.5的发布迎来爆发时,蓝耘2020年重金买入的资产迅速升值三倍,为公司赢得了发展的主动权。

除了对未来的精准判断,蓝耘的成功也得益于对市场和技术的深刻理解。在早期阶段,蓝耘就与国内大模型“六小龙”之一达成深度合作,通过为其提供算力服务,积累了大量技术和业务经验,对方后来也成为蓝耘的股东。与此同时,蓝耘也在推理应用领域未雨绸缪。早在市场还集中于大模型训练时,蓝耘便着手布局推理场景。随着市场逐步转向推理需求,蓝耘凭借高性价比的服务进一步扩大了竞争优势。

领先的资产布局和对推理领域的洞察,奠定了李健的信心,也让蓝耘在市场上站稳脚跟。财报显示,蓝耘2023年度营收4.08亿元,接近2018年转型期营收的7倍;仅2024年上半年,蓝耘营收就达5.3亿元,同比增加289%。

CTO安江华在蓝耘业务升级的时刻选择加入,也是因为在多年合作中看到了李健的前瞻性思维。

安江华对「甲子光年」指出,自2021年以来,全球算力需求经历了显著的转型阶段。“GPU的需求最早集中在基础大模型训练上,但这些年我们看到推理和应用层面的需求迅速增加。”

可是大规模算力的部署、运维以及计算资源的调度使用,是算力行业难以突破的重大门槛。如何在此基础上为广大AI应用开发者进一步降低使用成本,提供满足多方需求的灵活服务,也是一个难题。安江华提到,相较于传统的通用计算服务器,高性能计算领域在技术和资源管理上,面临截然不同的挑战。

李健也提到类似的看法,并且认为中国的算力市场并不存在所谓的痛点:“我们更关心的是算力服务商需要具备什么能力?我认为就是大规模交付以及交付效率与稳定运维的能力。国内真正能提供这些能力的算力服务商并不多,但一旦具备这些能力,就不会缺少市场的认可。”

安江华指出,蓝耘科技相较于大厂,有其独特的竞争优势。从平台功能设计架构来看,大厂一般是从CPU 虚拟化转型而来,而蓝耘从进入算力行业之初就专注做 GPU 计算,产品设计更加轻盈。在产品功能上,蓝耘从最初的裸金属、容器云到 AI 协作开发平台,都依据一线需求与用户深度理解应用场景来设计,如弹性裸金属和容器的易用性相对更好,AI 协作开发平台针对训练场景的团队协作功能设计更完善。

从产品上线方面,无论是集成项目的私有化部署、混合云部署还是在公有云上开专区,蓝耘的决策链条非常短,例如新建数据中心项目,蓝耘上线速度可能只有传统大厂的一半甚至更少时间,部门协作效率更高。

通过硬件和软件的双重布局,蓝耘给市场呈现了一个经过时间检验的答案。

2.算力时代的技术桥梁

无论是对算力资源的调度效率还是对用户需求的敏锐把控,蓝耘的目标很明确:不仅仅提供算力资源,而是搭建一座桥梁,将AI开发从高成本的技术壁垒中解放出来。

在硬件方面,蓝耘在全国有多座合作的智算中心,可提供算力资源超万P。这样的规模不仅令人瞩目,更重要的是它承载了行业领先的管理效率。

但硬件的规模只是这场竞赛的起点。蓝耘的真正优势在于其自主开发的“元生代”平台。这一平台不仅能够高效地协调大规模团队的资源需求,也为中小型开发者提供灵活的个性化解决方案。从企业级用户的大规模团队协作应用场景到学生等个人用户的轻度使用,蓝耘的服务模式足够灵活且具有竞争力。按需计费、节点弹性增减等功能,让蓝耘的算力平台可以适配多元的开发场景。无论是面向大B、小B还是C端用户,“元生代”都能根据不同的业务场景,依托专业设计、精细优化的工作流体系,将复杂的流程简化为直观操作,真正实现简单高效、方便易用。

蓝耘对客户需求的深入理解还体现在其平台的生态支持上。“不同企业对框架的选择千差万别,”蓝耘科技产品总监顾瑞泉对「甲子光年」指出,“我们希望为客户提供更多的选择,包括模型定价和框架适配,在最大限度上满足他们的需求。”通过这种全方位的支持,客户无需再为硬件调度或技术适配操心,从而专注于模型和应用开发本身。

但低廉的价格和门槛不是用户的最终诉求。尤其是对于规模更大的B端客户来说,他们更在意服务的性能和稳定性是否能满足预期。

运维能力的提升并不总是线性的,随着服务器数量的增加,运维的复杂度可能会呈指数级增长。应用开发者通常需要快速部署大规模GPU资源,甚至在一夜之间推动数千甚至数万张GPU卡的部署,而这一过程中涉及的硬件采购、部署调度、系统维护等问题,往往让许多团队望而却步。只有真正经历过大规模运维的服务商,才能深刻理解并避免潜在的问题,” 安江华强调。

顾瑞泉进一步介绍说,运营一个万卡集群最大的挑战在于定位问题的所在,无论是网络闪断还是GPU卡本身的问题。而解决问题也需要流程化的制度、先进的工具,再辅以成熟的经验,才能迅速采取正确的行动。这刚好是蓝耘在过去20年中的沉淀。

近年来,蓝耘将更多资源投入技术研发。顾瑞泉表示,蓝耘持续的平台迭代更新和最新推出的分布式训推平台可以保持蓝耘的技术领先性,满足不同客户的需求。公开资料显示,蓝耘研发人员占公司员工比例从2023年初的16%快速提升至2024年中的40%,2024年上半年的研发费用也同比增加50%。

这样的策略不仅让蓝耘在竞争激烈的算力服务市场中站稳了脚跟,也让公司逐步积累了行业中的技术口碑。“我们的目标是让用户在使用算力的过程中,尽可能地减少对硬件配置和调度细节的关注,”安江华说道,“相比于传统大厂的标准化,蓝耘在智算中心场景中做得更加灵活,更加完善,从而提供最易用的算力云服务。”

此外,算力服务提供商在资源管理方面的专业能力同样至关重要。这要求他们必须紧密贴合业务实际,深刻洞察用户的实际需求和操作习惯。其中,对C端消费者市场和B端企业市场的细致理解尤为关键,因为不同用户群体的需求可能存在显著差异。

根据部署方式和服务对象的不同,“元生代”智算云平台可提供公有云、私有化部署和按年度订阅三种服务模式:面向中小型商业客户和各类C端AIGC开发者,平台以公有云形式提供弹性算力服务,用户按需购买或订阅资源,无需自建硬件;针对数据安全和性能要求较高的大型企业用户,平台可在其内部进行私有化部署,以完善高效的算力平台解决方案,为数据隐私和自主运营保驾护航;此外,对于算力资源丰富但技术能力相对薄弱的伙伴,“元生代”平台在授权许可下,免费向其开放使用权限,蓝耘按年收取技术服务费。借助蓝耘前沿的技术框架,用户能够轻松实现独立运营,构建属于自己的服务生态。

蓝耘的客户群体涵盖广泛,从智能基础模型训练用户到智能驾驶车企,再到高校师生与社区开发者,各个层次的用户都能在蓝耘的服务体系中找到自己的位置。“我们做的是算力运营,业务决策非常明确,”安江华说道,“平台的通用性让它不局限于特定场景,无论是云用户还是行业用户都能灵活使用。”他特别提到,蓝耘坚定地专注于算力资源的优化,而非涉足具体应用开发,从而为用户提供更纯粹、更高效的技术支持。

一系列技术迭代,让蓝耘巩固了其行业地位。顾瑞泉表示,随着AI技术的普及,蓝耘科技将更加专注于AI服务商的角色。他表示,公司未来的目标是在基础架构层做到极致,成为AI应用客户的坚实后盾。

3.AI OS与合作共赢

但基础设施层,并不一定是生态位中的最底层。

“虽然以前我们管它叫基础设施,但是在 AI 时代,基础设施反倒不是最底层的那一层,再往下还有能源层。我们是连接下层的数据中心和上层的模型应用的中间一层。所以我们首先要保持自身的灵活性,同时也要做好我们的生态,” 顾瑞泉表示。

这种思路体现在蓝耘技术平台的模块化设计中。“元生代”智算云平台不仅仅是算力的集合,更是合作伙伴的工具箱。蓝耘的技术团队从一开始就认识到,合作伙伴的独立运营需求至关重要。模块化设计和快速部署能力,让这些伙伴能够专注于自己的业务,直接嵌入蓝耘的功能流,而不必担心底层技术的复杂性。这种设计赋予了蓝耘一种“隐形之手”的力量:推动而不干涉,连接而不捆绑

在发布会现场演示中,安江华介绍说,通过这种设计,蓝耘能够为拥有闲置算力的合作伙伴提供快速部署服务,即将他们的GPU服务器迅速放入蓝耘的数据中心,或者将蓝耘的模块化应用部署到合作伙伴算力服务器所在的机房。这些资源可以被统一纳入蓝耘的资源池中,用户在蓝耘的平台上就能直观地看到并使用这些GPU资源,从而帮助合作伙伴立即产生收益。

作为高效的算力资源与 AI 开发工具集成平台,“元生代”还可赋予用户更广阔的自定义空间,对于有用户需求但缺乏算力的合作伙伴,“元生代”可以帮助伙伴实现快速构建,以分钟级别的速度打造出一个专属品牌的算力平台,合作伙伴仅需提供企业品牌 LOGO,网址以及负责人信息,即可轻松完成。 

在最新举行的发布会上,李健还公布了蓝耘的集团化战略,涵盖合作板块与投融资板块。在上游,蓝耘将通过投资垂直领域模型,强化技术积累。同时,与浙大科创集团合作成立的拱墅人才科创基金一期,标志着蓝耘对行业发展的深度参与,也为AI技术的未来发展注入了更多可能性。

与此同时,李健阐释了一个更高的概念:AI OS。这个位于算力之上的操作系统,将成为未来技术栈的枢纽,链接Maas(模型即服务)以及模型层。李健将这一构想视为蓝耘的核心使命——为客户提供场景化的工程实现能力,使客户的系统越来越强壮,这样才能适应多元化的需求:

AI OS将为不同应用提供统一的接口和服务,确保底层的网络和存储硬件能够为AI生态提供坚实的物理基础。通过高速且稳定的网络环境实现数据的快速传输与存储,使得设备和节点之间的协同工作更加高效;

模型工厂负责生产和提供各种个性化的AI模型,覆盖图像识别、自然语言处理、智能推荐、自动驾驶等多个应用领域;

数据工厂则专注于数据的生产和合成,并做详尽的标注,成为 AI 时代最有价值的财富资源。

在这一过程中,蓝耘“元生代”智算云平台成为链接智算生态的纽带。其核心功能为聚合资源,整合上下游,从基础到应用,为终端用户提供优质 AI 算力服务。基于 GPU 优势,蓝耘将全面开放“元生代”平台的智算能力,以高效集约、开放兼容为宗旨,打造集AI开发工具、数据集管理、预训练大模型工作流管理、模型镜像管理、应用市场等多功能的 “算力即服务” 生态。

“基于对产业的深度理解,对服务生态的强烈意识以及成熟技术的能力积累,蓝耘深刻认识到,在 AI 时代独立的发展是无法长久的。只有构建良好的生态系统,实现上下游生态的协同合作,才能共同推动行业进步,” 李健在发布会现场表示。

然而,足以缓解行业焦虑的下一个需求爆点会从哪里来?

李健认为,会是AI视频生成的爆发式发展。但要想实现这一点,还需要全双工模式的出现。与你问我答的传统半双工相比,全双工的模型将使人机交互更加自由流畅,为迎接AGI时代做好铺垫。李健指出,这一爆点会在未来两至三年内得以实现。

顾瑞泉也提及了泛娱乐产业的潜力。他认为,AI生成视频的便捷性和创造性,将彻底改变内容创作的生态。网络写手甚至可以通过AI模型快速创作短剧,让更多人参与到内容生产中。他感慨道,“谁能率先推出一个高质量的AI短视频模型,谁就能引领这一领域的发展。”

对于AI服务未来的演进,顾瑞泉认为,人工智能即服务(AIaaS)正在成为一种新型服务模式,其核心在于将AI技术与传统应用深度融合。他提到,比如现如今的线上会议工具中,AI助手可以总结会议内容,甚至协助引导讨论流程。他预测,未来AI将成为这些服务的主角,为传统应用赋能,而不是完全取代它们。

这种革新在自动驾驶技术领域同样显而易见。顾瑞泉期待,机器视觉技术不仅会推动智能汽车,还将在盲人辅助设备、家庭机器人等场景中释放潜力。这些设想无不指向一个更加智能化的世界,而蓝耘正是这场未来变革中的重要推手。

然而,当前的算力资源却远远不足以应对这一需求,更遑论支撑通用人工智能(AGI)甚至超级人工智能(ASI)的长远发展。对于未来两三年的市场策略,安江华透露,蓝耘将坚定建设算力资源池,并致力于让开发者和应用市场能够更轻松地获取这些资源。为此,他们在人员招聘上重点关注贴近用户的算法工程师,以及具备强大运维能力的技术团队。

与此同时,蓝耘对算力资源未来的理解也在不断深化。随着能源密度的增加,李健预期智算中心的建设成本将会下降。从长远来看,算力资源将成为AI时代的关键资产,其运营模式将逐步向能源行业的生产、分配与高效管理模式靠拢。并且蓝耘的愿景不仅在于提供强大的算力资源,更在于以前瞻布局和战略远见,构建一个以算力为核心,深度赋能上下游产业的创新生态体系。

对「甲子光年」谈及蓝耘的终极愿景时,李健表示,蓝耘将不仅局限于成为中国最值得信赖的算力服务提供商,其目标是通过能源与算力的有机结合,为推动科技产业升级注入强劲动能,借助技术创新引领整个行业迈向新高度。

在探索未来的进程中,蓝耘以技术为核心,以创新为导向,勇于涉足全新的领域。蓝耘不只是AI时代专注于算力服务的供应商,还致力于构建一个生态体系,为上下游合作伙伴全方位赋能,助力行业协同发展。

这种信念和追求,或许正是蓝耘能够在激烈的市场竞争中保持领先,不断前进的动力源泉。

海量资讯、精准解读,尽在新浪财经APP

VIP课程推荐

加载中...

APP专享直播

1/10

热门推荐

收起
新浪财经公众号
新浪财经公众号

24小时滚动播报最新的财经资讯和视频,更多粉丝福利扫描二维码关注(sinafinance)

股市直播

  • 图文直播间
  • 视频直播间

7X24小时

  • 01-06 惠通科技 301601 --
  • 01-06 思看科技 688583 --
  • 12-30 赛分科技 688758 4.32
  • 12-30 钧崴电子 301458 10.4
  • 12-24 星图测控 920116 6.92
  • 新浪首页 语音播报 相关新闻 返回顶部