“2023中国AIGC产业发展论坛”于9月4日在北京召开。戴尔科技集团人工智能首席技术架构师吴跃出席并演讲。
他表示,智能时代AI应用落地在制造、零售、金融、交通、教育等各个领域正加大探索与实践,面向AI大模型的AI基础架构平台是一个多维度的系统工程,包括计算、存储、网络、分布式训练、集群管理与资源编排,是一个综合性的平台。戴尔科技集团正在积极打造面向中国AI应用合作伙伴生态,为客户提供面向AI应用场景化的解决方案。
以下为本次发言摘录:
过去几年我们对于AI基础架构技术发展,AI行业落地一直在做持续的观察和研究,同时我们也在戴尔科技集团内部积极应用各种AI技术,来改善我们的生产和运营,并应用于自己的产品和解决方案之中。
比如我们中国研究院的同事设计的生成式AI应用开发平台,把我们过去若干年积累的知识文档数据,通过矢量数据库和LangChain与大模型相结合,通过自然语言处理、人机对话的方式进行知识管理和检索。我们也在将AI技术应用到Dell产品的自动化运维,通过Dell服务器、存储等产品内置传感器和定时数据采集,通过AI算法对设备的使用率、运行状况、健康状况进行实时监控和主动性的维护。
前几年戴尔科技中国研究院和国家赛艇队、皮划艇队共同成立AI与大数据联合实验室,通过人工智能、实时视频分析技术,结合生物力学模型,对运动员训练过程中动作力度、角度、稳定性偏差进行评判和打分,辅助国家队科学训练。
在行业应用中,戴尔科技集团也在积极协同国内AI应用合作伙伴,为国内用户提供面向AI应用场景化的解决方案。在制造业领域里,我们过去几年在光伏、新能源、智能驾驶等先进制造业领域都有一些落地的AI项目。以光伏行业为例,中国光伏装机量和生产量都位列全球第一。国内一些光伏的头部用户,基于GPU计算平台,通过AI机器视觉算法,对光伏组件生产过程中的各类缺陷进行AI质检,目前整套系统识别准确率已经超过99.95%。在零售商超行业,在自助结算台,通过摄像头结合AI算法,进行结算商品的分类识别,与用户扫描的二维码进行匹配,帮助商家在日常结算过程中减少流水损失。
无论是过去几年做过的AI应用,还是今天我们讨论的基于AI大模型的生成式AI应用,背后都离不开AI算力、AI基础架构的支持。过去传统AI模型参数规模可能是千万级别,到亿级别;今天的AI大模型参数动辄十亿级别,很多商业化应用模型已经达到百亿、千亿甚至更大级别,训练和部署这样的AI大模型需要更高的算力支持。
同时,越是大的模型需要更多的训练数据集、行业语料库的支持。戴尔科技集团董事长Michael Dell先生曾经说过:如果AI是火箭的话,那么数据就是火箭的燃料。训练数据决定了AI模型的上限,我们所设计的算法只是尽可能去逼近上限。随着数据的增加,我们也需要有一个更高性能、扩展性更强的数据平台。
我们今天面向AI大模型的AI基础架构平台,是一个多维度的系统工程,包括计算、存储、网络、集群管理与资源编排,是一个综合性的平台。如果将AI基础架构平台比喻成一辆汽车,AI芯片、数据存储、网络、数据中心基础设施就像是发动机、油箱、传动系统、汽车底盘这些关键部件,我们希望实现这些部件的协同耦合,避免任何其中一点成为我们AI系统的关键短板。
从目前来讲,随着生成式AI的逐渐发展,对算力平台特别是对于AI异构加速需求越来越旺盛,从我们戴尔科技集团来讲,我们在这个领域里面重点在关注几个方向:
第一,针对GPU的异构加速平台的设计。在Dell PowerEdge服务器产品家族中,我们推出了多款专门针对GPU设计和优化的计算服务器,在包括供电、散热、GPU高速通信技术等,均体现在服务器硬件设计之中。我们最近也在参加一些全球知名的AI计算性能的基准测试,例如MLPerf。Dell在今年最新的MLPerf Training和Inference基准测试中,Dell提交的GPU服务器效能数据均处于第一梯队。
针对AI大模型训练中的GPU集群分布式训练技术,去年我们也在国内发布了戴尔科技AI GPU分布式训练技术白皮书。 戴尔科技集团内部,我们的AI&HPC创新实验室,内部建有一个相当规模的GPU计算集群,主要用于内部研究和测试工作,在2021年全球HPC TOP500的排名中,我们创新实验室的这套GPU集群排在第233位。
面向边缘AI的计算平台设计。边缘计算的场景会更加复杂,有时在边缘很难有像数据中心这样完善的数据中心环境。Dell基于边缘计算打造的平台,对温度、抗震等环境有更强的适应能力,之前也通过了像电信、海事一些特殊的行业标准。
位于AI计算行业前沿的AI专用加速芯片技术。戴尔此前投资了AI专用加速芯片提供商Graphcore,目前是欧洲估值最高的AI独角兽企业之一。Graphcore IPU加速芯片目前已经量产,在国内外AI行业用户有正式商用。我们也希望通过专用的AI加速芯片,未来可以给大家提供多元化、更高性价比的解决方案。
第二,针对AI数据存储平台的设计与优化。针对AI全生命周期的数据管理,包括数据加载、数据治理、AI训练与推理,我们希望可以为大家提供可根据未来AI平台实际的性能和容量需求,横向按需扩展的数据存储解决方案。通过硬件存储节点的增加,存储性能和容量可以横向线性扩展;支持多协议的访问,可以通过不同的协议同时访问我们后端存储的数据,而不需要数据的横向搬迁。针对AI GPU计算场景,现在可以支持以图形化界面,一键式开启GPU Direct Storage加速。开启这项功能后,存储在外置存储系统中的数据,可以直接加载到GPU服务器的显存,而不需要首先通过CPU服务器的内存进行预处理,可以提供更高的存储带宽和更低的访问延迟。
第三,除了硬件平台之外,我们也在关注如何对现在越来越大的GPU计算集群进行统一管理,以及支持AI大模型的工程化部署。在今年的早先时候,戴尔科技集团的COO Jeff Clarke和NVIDIA CEO黄仁勋,一起发布了面向企业级的生成式AI平台解决方案Helix,在提供的预训练AI大模型基础上,帮助用户可以自动化进行模型拆分与运行在多GPU加速环境下。同时,平台可以提供大模型的安全护栏机制,控制大模型的调用和数据输出。
作为持续深耕数实融合、以“务实的创新”为根本的践行者,戴尔科技希望与众多数字决策者们一起深度挖掘数字业务的新动能,预见技术世界的新秩序,开辟数实融合的新格局。
责任编辑:梁斌 SF055
VIP课程推荐
APP专享直播
热门推荐
收起24小时滚动播报最新的财经资讯和视频,更多粉丝福利扫描二维码关注(sinafinance)