浪潮信息发布源2.0基础大模型，千亿参数全面开源加速生成式AI产业发展_新浪财经

11月27日，浪潮信息发布“源2.0”基础大模型，并宣布全面开源。源2.0基础大模型包括1026亿、518亿、21亿等三种参数规模的模型，在编程、推理、逻辑等方面展示出了先进的能力。

当前，大模型技术正在推动生成式人工智能产业迅猛发展，而基础大模型的关键能力则是大模型在行业和应用落地能力表现的核心支撑，但基础大模型的发展也面临着在算法、数据和算力等方面的诸多挑战。源2.0基础大模型则针对性地提出了新的改进方法并获得了能力的提升。

算法方面，源2.0提出并采用了一种新型的注意力算法结构：局部注意力过滤增强机制(LFA：Localized Filtering-based Attention)。LFA通过先学习相邻词之间的关联性，然后再计算全局关联性的方法，能够更好地学习到自然语言的局部和全局的语言特征，对于自然语言的关联语义理解更准确、更人性，提升了模型的自然语言表达能力，进而提升了模型精度。

数据方面，源2.0通过使用中英文书籍、百科、论文等高质量中英文资料，降低了互联网语料内容占比，结合高效的数据清洗流程，为大模型训练提供了高质量的专业数据集和逻辑推理数据集。为了获取中文数学数据，浪潮信息清洗了从2018年至今约12PB的互联网数据，但仅获取到了约10GB的数学数据，投入巨大，收益较小。为了更高效地获得相对匮乏的高质量中文数学及代码数据集，源2.0采用了基于大模型的数据生产及过滤方法，在保证数据的多样性的同时也在每一个类别上提升数据质量，获取了一批高质量的数学与代码预训练数据。

浪潮信息高级副总裁、AI和HPC产品线总经理刘军认为，在数据方面，浪潮采用的数据来源、数据增强以及合成方法数据质量方面的工作，减少了互联网的公开数据集，增加了百科、书籍、期刊等相对比较高质量的数据，同时引入了代码数据和数学数据，从而增强了模型的数理逻辑能力。