11月30日,由中国通信学会主办、中国移动研究院承办的2024中国信息通信大会“算力网络算网一体创新发展论坛 ”在成都举办。中国移动研究院副院长段晓东携手天数智芯、壁仞科技、中兴、海光、瀚博等产业合作伙伴,在本次论坛上发布了 “芯合”异构混合并行训练系统1.0。
智算为核,生态筑基。人工智能已成为人类社会数智化转型的关键驱动力,智能算力作为人工智能发展的基石,不断推动人工智能从单点突破迈向泛在智能。当前我国智算产业繁荣发展,多厂商、多代际、多架构智算芯片共存,然而这些芯片在计算架构、软件栈、互联方式等方面存在着较大差异,形成智算芯片间的“资源墙”,难以形成“合力”,限制多样性智能算力的灵活运用和整体效能释放。
为推动我国智算产业繁荣发展,融通异构智算芯片间的生态竖井,中国移动充分发挥移动信息现代产业链“链长”职责,持续攻关异构混训技术,以研究院和齐鲁创新院为主体,着力打造业内首个“芯合”异构混合并行训练系统,支撑大模型在多厂商、多代际、多架构的异构混合集群上的规模训练。
“芯合”异构混合并行训练系统具备基于非均匀计算任务切分ITD(Inhomogeneous Task Distribution)算法的3D并行策略和基于GDR(GPU Direct RDMA)的异构芯片高速通信两大核心能力。其中,基于ITD算法的3D并行技术可通过通用混合训练框架实现异构数据并行、异构流水线并行,实现数据微批次大小、数量、流水线并行度等参数在异构算力上的自适应调整;基于GDR的异构芯片高速通信技术可在不改变芯片原有通信接口基础上,通过定义数据传输架构、流程及接口标准,屏蔽底层硬件差异,实现顶层训练任务在异构算力集群上分布式通信的无感拆解。当前,系统已实现百亿参数大模型在英伟达、天数智芯、壁仞科技、海光等4家智算芯片上的交叉混合训练,规模可支持万卡集群,训练加速比达95%以上,达到业界领先水平,未来将在提升智能算力资源利用率及促进国产算力发展等方面发挥重要作用。
未来,中国移动将继续秉持开放合作的态度,与产业合作伙伴进一步攻关完善“芯合”异构混训系统能力,共建开放智算算力生态体系,助力万亿级参数大模型训练孵化,推动全行业“AI+”转型升级和我国算力强国战略落地。
“掌”握科技鲜闻 (微信搜索techsina或扫描左侧二维码关注)