一、事件
当地时间周二,Reddit宣布,将向使用其API训练AI聊天机器人的公司收取数据使用费,其中便包含微软、谷歌、OpenAI等。之前这些公司都通过应用程序编程接口(API)下载并处理论坛上的聊天内容,并将聊天内容当做免费训练工具,用于开发新AI系统。例如,谷歌聊天机器人Bard的底层算法之一便是用Reddit聊天数据训练而来;OpenAI的ChatGPT也将Reddit数据纳入大型语言模型的训练内容。
顺便一提,Reddit是美国访问量最大的网站之一,用户可以在其中创建并分享内容,可以把它当作“美国版百度贴吧”。
二、事件影响
随着人工智能大模型的不断发展,数据越来越成为关键要素,有人把它比作AI行业里面的锂矿不无道理。此前360的周鸿祎也在演讲中谈到数据的重要性,没有数据就无法训练算法和大模型。我国也是首个将数据要素列入资产报表的国家,未来数据的流通、交易会更加频繁。对应的,未来国内有数据资源的公司可能也会向这个方向发展,数据资产重新定价。下面的图片整理了各个行业的数据龙头。
三、机构解读
东吴传媒互联网表示:
1、从技术上来看,高质量数据库是大模型训练所必需的,有望通过分成等形式参与大模型变现。我们认为随着多模态大模型的发展,高质量的文本、影音版权内容将是大模型训练所必须的,例如海外知名图片版权商Getty Image已在美国对 Stability AI 提起诉讼,声称 Stability AI 未经许可或提供补偿就从其数据库中复制了超过1200万张图像,用于模型训练。我们看好内容版权商作为大模型数据提供方参与到AI产业发展,进一步释放已有内容版权的价值。
2、优质内容储备具备先发优势,有望催生新商业模式。
1)比如视觉中国后续将会推出“AI生成”服务,过去公司通过版权费用变现,用户可在线二次创作/自动生成图片后,公司可以根据二次修改深度or生成图片的质量/数量收取技术服务费/订阅费(即为提供MaaS服务),在原有基础上创造新的变现模式。
2)比如中文在线拥有刘慈欣《流浪地球》数字版权及AVG全球全语种游戏改编权,已推出RESTART元宇宙空间,探索数字资产等商业化方法。
3)再比如,基于AI的开放式文字冒险类游戏AI Dungeon,则是采用OpenAI发布的语言预测模型GPT-2、GPT-3和来自冒险类互动小说生产社区choose your story的训练文本,创建了高度自由的开放性叙事结构,通过会员付费进行商业化变现。
浙江同花顺云软件有限公司投资顾问 张群(执业编号A1040622050002 ) 【免责声明】本报告基于独立、客观、公正和审慎的原则制作,信息均来源于公开资料,本公司对这些信息的准确性和完整性不作任何保证。本报告中的内容和意见仅供参考,并不构成对所述品种买卖的出价,在任何情况下,本报告中的信息或所表述的意见并不构成对任何人的投资建议。除法律或规则规定必须承担的责任外,本公司及其雇员不对使用本报告及其内容所引发的任何直接或间接损失负任何责任。
VIP课程推荐
APP专享直播
热门推荐
收起24小时滚动播报最新的财经资讯和视频,更多粉丝福利扫描二维码关注(sinafinance)