为训练AI,科技巨头花式淘数据

为训练AI,科技巨头花式淘数据
2024年04月08日 08:19 环球时报

本报特约记者 甄 翔

《纽约时报》6日披露了科技公司训练人工智能的秘密——利用语音识别工具转录视频网站YouTube上的视频,形成对话文本数据,供其最新的AI学习。这是一条违反法律的“捷径”。

报道称,早在2021年年底,OpenAI就面临培训AI模型的数据源几乎陷入枯竭的境地。该公司铤而走险,在明知YouTube母公司谷歌禁止用工具提取该平台内容的情况下,转录了100多万条视频并生成GPT-4模型的学习材料,OpenAI创始人之一布罗克曼也参与其中。讽刺的是,谷歌得知OpenAI的行为却并未制止,因为其也在提取YouTube平台内容训练AI模型。

《纽约时报》援引消息人士的话表示,这可能侵犯视频版权,因为它们属于创作者。尽管如此,越来越多的科技公司冒着面临诉讼的风险也要“走捷径”。报道称,根据内部会议记录,Meta公司商定从互联网上收集受版权保护的数据,因为与出版商、艺术家、音乐家和新闻行业就版权内容谈判太花时间。

报道称,领先的AI模型需要从涵盖多达3万亿字的数字文本池中学习。有分析称,预计互联网上现有可供培训AI模型的数据最快到2026年就会耗尽。

《纽约时报》援引内部人士的消息称,谷歌法律部门已经要求起草新的政策,扩大该公司对消费者数据的用途。Meta的情况更严峻,其旗下脸书平台不是人们撰写文章的地方,可用数据不多。报道称,在一次讨论中,Meta高管谈到在非洲聘请承包商来汇总各种小说和非小说的文本摘要。Meta全球合作与内容副总裁格鲁丁表示:“唯一阻碍我们达到ChatGPT水平的因素就是数据量。”▲

海量资讯、精准解读,尽在新浪财经APP
AI 纽约时报 Meta 谷歌

VIP课程推荐

加载中...

APP专享直播

1/10

热门推荐

收起
新浪财经公众号
新浪财经公众号

24小时滚动播报最新的财经资讯和视频,更多粉丝福利扫描二维码关注(sinafinance)

股市直播

  • 图文直播间
  • 视频直播间

7X24小时

  • 04-01 宏鑫科技 301539 10.64
  • 03-29 灿芯股份 688691 19.86
  • 03-27 无锡鼎邦 872931 6.2
  • 03-25 中瑞股份 301587 21.73
  • 03-22 广合科技 001389 17.43
  • 新浪首页 语音播报 相关新闻 返回顶部