戴尔科技集团吴跃：随着生成式AI的发展，对算力平台特别是AI异构加速需求越来越旺盛_新浪财经

　　“2023中国AIGC产业发展论坛”于9月4日在北京召开。戴尔科技集团人工智能首席技术架构师吴跃出席并演讲。

　　他表示，智能时代AI应用落地在制造、零售、金融、交通、教育等各个领域正加大探索与实践，面向AI大模型的AI基础架构平台是一个多维度的系统工程，包括计算、存储、网络、分布式训练、集群管理与资源编排，是一个综合性的平台。戴尔科技集团正在积极打造面向中国AI应用合作伙伴生态，为客户提供面向AI应用场景化的解决方案。

　　以下为本次发言摘录：

　　过去几年我们对于AI基础架构技术发展，AI行业落地一直在做持续的观察和研究，同时我们也在戴尔科技集团内部积极应用各种AI技术，来改善我们的生产和运营，并应用于自己的产品和解决方案之中。

　　比如我们中国研究院的同事设计的生成式AI应用开发平台，把我们过去若干年积累的知识文档数据，通过矢量数据库和LangChain与大模型相结合，通过自然语言处理、人机对话的方式进行知识管理和检索。我们也在将AI技术应用到Dell产品的自动化运维，通过Dell服务器、存储等产品内置传感器和定时数据采集，通过AI算法对设备的使用率、运行状况、健康状况进行实时监控和主动性的维护。

　　前几年戴尔科技中国研究院和国家赛艇队、皮划艇队共同成立AI与大数据联合实验室，通过人工智能、实时视频分析技术，结合生物力学模型，对运动员训练过程中动作力度、角度、稳定性偏差进行评判和打分，辅助国家队科学训练。

　　在行业应用中，戴尔科技集团也在积极协同国内AI应用合作伙伴，为国内用户提供面向AI应用场景化的解决方案。在制造业领域里，我们过去几年在光伏、新能源、智能驾驶等先进制造业领域都有一些落地的AI项目。以光伏行业为例，中国光伏装机量和生产量都位列全球第一。国内一些光伏的头部用户，基于GPU计算平台，通过AI机器视觉算法，对光伏组件生产过程中的各类缺陷进行AI质检，目前整套系统识别准确率已经超过99.95%。在零售商超行业，在自助结算台，通过摄像头结合AI算法，进行结算商品的分类识别，与用户扫描的二维码进行匹配，帮助商家在日常结算过程中减少流水损失。

　　无论是过去几年做过的AI应用，还是今天我们讨论的基于AI大模型的生成式AI应用，背后都离不开AI算力、AI基础架构的支持。过去传统AI模型参数规模可能是千万级别，到亿级别；今天的AI大模型参数动辄十亿级别，很多商业化应用模型已经达到百亿、千亿甚至更大级别，训练和部署这样的AI大模型需要更高的算力支持。

　　同时，越是大的模型需要更多的训练数据集、行业语料库的支持。戴尔科技集团董事长Michael Dell先生曾经说过：如果AI是火箭的话，那么数据就是火箭的燃料。训练数据决定了AI模型的上限，我们所设计的算法只是尽可能去逼近上限。随着数据的增加，我们也需要有一个更高性能、扩展性更强的数据平台。

　　我们今天面向AI大模型的AI基础架构平台，是一个多维度的系统工程，包括计算、存储、网络、集群管理与资源编排，是一个综合性的平台。如果将AI基础架构平台比喻成一辆汽车，AI芯片、数据存储、网络、数据中心基础设施就像是发动机、油箱、传动系统、汽车底盘这些关键部件，我们希望实现这些部件的协同耦合，避免任何其中一点成为我们AI系统的关键短板。

　　从目前来讲，随着生成式AI的逐渐发展，对算力平台特别是对于AI异构加速需求越来越旺盛，从我们戴尔科技集团来讲，我们在这个领域里面重点在关注几个方向：

　　第一，针对GPU的异构加速平台的设计。在Dell PowerEdge服务器产品家族中，我们推出了多款专门针对GPU设计和优化的计算服务器，在包括供电、散热、GPU高速通信技术等，均体现在服务器硬件设计之中。我们最近也在参加一些全球知名的AI计算性能的基准测试，例如MLPerf。Dell在今年最新的MLPerf Training和Inference基准测试中，Dell提交的GPU服务器效能数据均处于第一梯队。

　　针对AI大模型训练中的GPU集群分布式训练技术，去年我们也在国内发布了戴尔科技AI GPU分布式训练技术白皮书。戴尔科技集团内部，我们的AI&HPC创新实验室，内部建有一个相当规模的GPU计算集群，主要用于内部研究和测试工作，在2021年全球HPC TOP500的排名中，我们创新实验室的这套GPU集群排在第233位。

　　面向边缘AI的计算平台设计。边缘计算的场景会更加复杂，有时在边缘很难有像数据中心这样完善的数据中心环境。Dell基于边缘计算打造的平台，对温度、抗震等环境有更强的适应能力，之前也通过了像电信、海事一些特殊的行业标准。

　　位于AI计算行业前沿的AI专用加速芯片技术。戴尔此前投资了AI专用加速芯片提供商Graphcore，目前是欧洲估值最高的AI独角兽企业之一。Graphcore IPU加速芯片目前已经量产，在国内外AI行业用户有正式商用。我们也希望通过专用的AI加速芯片，未来可以给大家提供多元化、更高性价比的解决方案。

　　第二，针对AI数据存储平台的设计与优化。针对AI全生命周期的数据管理，包括数据加载、数据治理、AI训练与推理，我们希望可以为大家提供可根据未来AI平台实际的性能和容量需求，横向按需扩展的数据存储解决方案。通过硬件存储节点的增加，存储性能和容量可以横向线性扩展；支持多协议的访问，可以通过不同的协议同时访问我们后端存储的数据，而不需要数据的横向搬迁。针对AI GPU计算场景，现在可以支持以图形化界面，一键式开启GPU Direct Storage加速。开启这项功能后，存储在外置存储系统中的数据，可以直接加载到GPU服务器的显存，而不需要首先通过CPU服务器的内存进行预处理，可以提供更高的存储带宽和更低的访问延迟。

　　第三，除了硬件平台之外，我们也在关注如何对现在越来越大的GPU计算集群进行统一管理，以及支持AI大模型的工程化部署。在今年的早先时候，戴尔科技集团的COO Jeff Clarke和NVIDIA CEO黄仁勋，一起发布了面向企业级的生成式AI平台解决方案Helix，在提供的预训练AI大模型基础上，帮助用户可以自动化进行模型拆分与运行在多GPU加速环境下。同时，平台可以提供大模型的安全护栏机制，控制大模型的调用和数据输出。

　　作为持续深耕数实融合、以“务实的创新”为根本的践行者，戴尔科技希望与众多数字决策者们一起深度挖掘数字业务的新动能，预见技术世界的新秩序，开辟数实融合的新格局。