乌镇“智”新时刻丨大模型面临高质量数据短缺 国产 AI 数据合成与生产平台乌镇“首发”

乌镇“智”新时刻丨大模型面临高质量数据短缺 国产 AI 数据合成与生产平台乌镇“首发”
2024年11月19日 17:52 封面新闻

封面新闻记者 张越熙

11月 19 日下午,行业大模型、具身智能、算力、芯片、数据合成等10 项首发成果在乌镇峰会登台路演, 其中 AI 数据合成与生产平台AIGD(AI Generated Data)因聚焦“数据合成”获广泛关注。“未来的AI应用需要大量稀缺且难以获取的长尾数据,如自动驾驶中的极端天气与极端路况数据,具身智能训练所需要的复杂场景数据。在此背景下,数据合成成为关键。”蚂蚁数科AI科技技术负责人、蚂蚁天玑实验室主任李哲现场向记者介绍。

AI 发展正面临着高质量数据短缺的问题。近年来,伴随着大模型技术的快速发展,机器学习也正从“以模型为中心”转向“以数据为中心”,高质量数据可以更好地模拟客观世界,提升模型的准确性和稳定性,但是“到 2026 年,现存的用于 AI 模型训练的高质量语言数据将耗尽”,据Epoch AI Research研究团队预测。Gartner 表示,到 2030 年,合成数据将成为 AI 模型的主要训练数据来源;2024 年, 60% 的 AI 数据将是合成数据,被用于模拟、预测场景和降低风险。

记者在2024年世界互联网大会乌镇峰会了解到,AIGD平台是由蚂蚁数科申报的首发成果,平台可通过大规模合成互联网所不覆盖的高质量、高价值垂直语料数据,帮助科技厂商进行 AI 模型训练。记者了解到,AIGD具备 PB 级数据生产能力,支持数据从生成到训练全流程自动化处理,自动化率达到 80%,这极大提高了数据处理的效率和质量。此外,平台自研15 余种数据合成工具,目前可以合成图片、视频、3D模型、多模态图文视频对、多轮对话、语音信号、心率脑电信号、结构化交易数据等多模态数据,以满足多种应用场景下的 AI 模型训练需求。

业内人士普遍认为,“高质量数据”是 AI 大模型深入到产业的重要基础,没有好的数据做支撑,一切 AI 应用都是空中楼阁。近日,OpenAI员工爆料说,“新模型‘没有那么大飞跃’”,主要原因之一便是高质量数据不足所导致的。今年 9 月份, OpenAI 发布推理模型o1,带来了强化学习训练新范式,通过自博弈强化学习,将合成数据的形式训练给大模型,从而大幅增加大模型逻辑推理能力。

“数据合成”是蚂蚁数科 AIGD 平台的主要功能之一,此外还包括数据标注、质检等能力。在数据标注方面,通过人机协同进行标注,人工智能算法能够自动识别和预处理大部分基础信息,预标注模型依赖人工标注量降低了 70%以上。在数据质检方面,平台会根据元信息支持不同粒度的数据质量统计,最大程度理解数据,保证合成及标注后的数据符合预期质量要求。李哲在乌镇峰会上表示:“我们即将迎来 AI 服务产业的黄金年代,蚂蚁数科将会坚定在 AI ToB 领域投入,让 AI 深入千行百业。”

新浪科技公众号
新浪科技公众号

“掌”握科技鲜闻 (微信搜索techsina或扫描左侧二维码关注)

创事记

科学探索

科学大家

苹果汇

众测

专题

官方微博

新浪科技 新浪数码 新浪手机 科学探索 苹果汇 新浪众测

公众号

新浪科技

新浪科技为你带来最新鲜的科技资讯

苹果汇

苹果汇为你带来最新鲜的苹果产品新闻

新浪众测

新酷产品第一时间免费试玩

新浪探索

提供最新的科学家新闻,精彩的震撼图片