英伟达每天抓取价值一生的 YouTube 视频来训练视频 AI 模型

英伟达每天抓取价值一生的 YouTube 视频来训练视频 AI 模型
2024年08月06日 22:40 IT时代网

404 Media的一项调查显示,英伟达(Nvidia)正在根据从YouTube和其他来源的“每天80年的视频”中抓取的数据,训练其Omniverse、自动驾驶汽车和“数字人类”汽车。

404 Media获得的泄露内部通信表明,英伟达正在使用这些数据来训练其名为Cosmos的AI视频世界模型(不要与该公司现有的Cosmos深度学习服务混淆)。Cosmos在内部计划成为一种模型,将为其他Nvidia产品线提供动力,包括GeForce,GPU架构,DGX,深度学习框架,Omniverse,Avatar,Project GR00T和自动驾驶汽车。

英伟达高管将Cosmos称为最先进的基础模型,“它将光传输、物理和智能的模拟封装在一个地方,以解锁对Nvidia至关重要的各种下游应用。

404 Media 访问了内部员工 Slack 消息,这些消息揭示了员工如何使用命令行 yt-dlp 程序下载 YouTube 视频,这些程序使用 20 到 30 个 AWS 虚拟机刷新 IP 地址以避免被 YouTube 阻止。视频共享网站是抓取视频的主要来源,员工们也在考虑Netflix和Discovery Channel等其他来源。

Slack 通信显示,员工们在讨论抓取受版权保护的内容来训练 AI 的法律后果,结果却被项目经理视为行政决定,这是他们无需担心的事情。

Nvidia 员工入围的热门 YouTube 频道包括 MKBHD、PickUpLimes、Architectural Digest、Expedia、Mediastorm6801、8kEarth 和 The CriticalDrinker 等。

当 404 Media 联系时,YouTube 和 Netflix 都表示,在其平台上抓取内容以训练 AI 模型明显违反了他们的服务条款。

使用受版权保护的数据来训练人工智能模型仍然是一个法律灰色地带。存在 InternVid-10M、HD-VG-130M 等基于数百万 YouTube 视频的公共数据集,但它们仅用于学术研究,不用于商业目的。尽管英伟达拥有学术研究人员,但其产出最终将用于商业产品。

很少有这方面的立法要求透明度标准和要求从事基础人工智能模型工作的公司与联邦贸易委员会和版权局合作。但公司不一定会披露其源数据集,这使得审计变得更加困难。

随着大型人工智能公司继续掌握所有可用的公共数据以训练更有效的模型,立法改革是当务之急,以确保消费者安全和保护创作者的知识产权。

去年,《纽约时报》起诉OpenAI和Microsoft,称其未经授权使用该出版物的版权文章来训练AI模型。今年 5 月,视觉艺术家对 Stability AI、Midjourney、DeviantArt 和 Runway AI 提起诉讼,理由是他们未经许可使用其作品副本来训练 AI 模型。

事实证明,YouTube正在成为人工智能公司的数据金矿。最近,《连线》报道称,包括苹果、英伟达、Anthropic和Salesforce在内的重量级公司从48,000多个频道的173,536个YouTube视频中抓取字幕,以训练他们的AI。

截至 5 月下旬,Nvidia 员工在内部宣布,他们已经编译了 3850 万个视频 URL,其中大部分是电影内容。工程师们还添加了 Ego-Exo4D、Ego4D、HOI4D 等数据集,以及来自 GeForce Now 的游戏数据。

虽然 Ego-Exo4D 和 Ego4D 可以许可用于学术和商业用途,但 HOI4D 是在明确禁止商业用途的 CC BY-NC 许可下分发的。

该团队目前正在训练一个 1B 模型,每个模型有 16 个节点,并计划将其扩展到 10B。

英伟达通过电子邮件告诉404 Media,“我们的模型和研究工作完全符合版权法的文字和精神。

与此同时,英伟达首席执行官黄仁勋似乎对他的员工所取得的进展感到满意。

据报道,他惊呼道:“很棒的更新。许多公司必须构建视频FM(基础模型)。我们可以提供完全加速的管道。

来源:IT时代网

新浪科技公众号
新浪科技公众号

“掌”握科技鲜闻 (微信搜索techsina或扫描左侧二维码关注)

创事记

科学探索

科学大家

苹果汇

众测

专题

官方微博

新浪科技 新浪数码 新浪手机 科学探索 苹果汇 新浪众测

公众号

新浪科技

新浪科技为你带来最新鲜的科技资讯

苹果汇

苹果汇为你带来最新鲜的苹果产品新闻

新浪众测

新酷产品第一时间免费试玩

新浪探索

提供最新的科学家新闻,精彩的震撼图片