GPT-5推迟发布只因“数据饥饿”？上海破题大模型语料训练技术路线和供给|数据库_新浪财经

摘要：语料筑基。

启明创投主管合伙人周志峰最近在与美国AI界交流过程中，听闻OpenAI的GPT-5或推迟到2025年底发布，其原因之一，可能是用于大模型训练的13万亿数据依旧不够用。为此，OpenAI不得不勉为其难，将相同数据“回炉”训练。但如果有更多高质量私域多元数据供给，大模型性能还能有新飞跃。

另一边，在上海洋山四期自动化无人码头，桥吊司机坐在百公里外的操控室内“隔空取箱”。然而，这些每天产生的远程操控集装箱动作数据并未被采集。在上海流程智造公司董事总经理贺仁龙看来，这白白流失的数据，对大模型而言却是极管用的语料，若喂予大模型并训练，今后集装箱有望实现真正的无人抓取。

桥吊司机“隔空取箱”

一个是“求而不得”的焦虑，另一个是“平白放空”的叹息。

大模型宛若一个“数据饥饿的怪兽”，它除了有量的追求，也有质的挑剔。就好比一个没有条件接受优质教育的孩子，日后其高质量输出便无从谈起。量多质高的语料，是中外大模型共同的渴求。

大模型最头疼的问题之一，在于数据异构、质量不齐，犹如“一锅乱炖”。“如果所有数据都放在一张表格里，机器学习的门槛就会大大降低。”但这只是中科院院士鄂维南的美好愿望。事实却是，大模型训练时所面对的各类知识与推理，有数字、文本，也有图片、语言、视频等。这不仅让大模型“茫然”，且易造成大模型规模的成倍增长，其中大量无用数据占用，造成干扰、拖累效率也降低精度。

鄂维南认为，数据库技术是发展下一代AGI（人工通用智能）之关键，并盛赞全球第一个AI数据库——MyScale数据库。该数据库刚刚获得了2024WAIC的硬核大奖SAIL奖，能在同一系统中支持海量结构化、向量、文本、时序、图片等各类异构数据的高效存储和联合查询。他认为，这是目前国际上综合性能最好、功能最强的AI数据库。

鄂维南盛赞全球第一个AI数据库——MyScale数据库

“MyScale数据库技术的一个成功案例是，我国在京沪各有一个公安部指纹中心，每个中心都管理着超20亿个指纹。现在指纹照片输入数据库后可立即比对，秒出结果。”鄂维南补充说：“它关键在于省钱。当年公安部规划这两个中心时，第一期就准备10亿元立项资金。但利用MyScale数据库技术，仅几百万元就解决了，而且一步到位，无需再建第二、第三期。”

鄂维南将这一技术路线，称之为“穷人版技术路线”，旨在避免大模型的臃肿虚胖。他还认为，应对不同使用频率的知识进行分层，并提出“忆立方”建模目标。鄂维南将不假思索和条件反射的隐性记忆、需推理和打草稿的工作记忆，以及各类专业知识等显性记忆“分开处理”，将高频数据“内置”于大模型，而专业知识“外挂”，以确保知识的训练和读取都能实现成本最小化。

“这涉及对大模型底层架构和训练框架的深度改进。不过，在上海市政府、临港新片区管委会及上海市经信委支持下，我们已实现了这一技术路线，把大模型规模降了十倍。”鄂维南不无骄傲。

忆立方”建模目标

大模型另一大痛点，在于大量高质量数据被锁在抽屉，未共享开放，甚至未被收集。上海阶跃星辰智能科技有限公司副总裁李璟甚至撇开了算力和专业人才缺乏等困难，将数据语料的缺乏称为“基础模型与行业应用间最大鸿沟”。

贺仁龙也着急。他举例，洋山四期自动化码头远程抓箱中的动作数据，是高价值的行业语料，“这与马斯克训练用于电池装配的人形机器人‘擎天柱’是完全相同的逻辑。更多分散在制造业各行业的专业数据，如果收集起来，去训练大模型，就能形成未来由机器人操作的SOP（标准作业程序），让传统制造焕然一新。”

特斯拉人形机器人擎天柱

事实上，包括政府、行业在内，各方都已行动起来，对齐数据，并加大供给。

据记者了解，一年前，在2023WAIC开幕式上，由上海人工智能实验室、上海报业集团、中国科学技术信息研究所等10家单位联合发起的中国大模型语料数据联盟宣布成立。该联盟几乎囊括了全国和上海市语料数据供给的主力军和先锋队。去年8月14日，联盟开源发布其成果——“书生·万卷”多模态预训练语料，数据总量超过2TB（太字节）。这2TB的数据经严格筛选，质量很高，在发布两周内达18万次下载量，创下国内大模型整体兴起后公开的单体数据集下载量之最。

而在7月6日举行的“语料筑基智生时代”2024WAIC语料主题论坛上，上海市级语料公司库帕思携手大模型语料生态伙伴，集中发布了一批大模型语料成果，包括语料运营平台1.0上线、首批十大高质量语料产品发布等。

其中语料运营平台1.0，实现了面向语料数据“采、洗、标、测、用”五位一体的工具链能力。