AI创世纪｜视频生成赛道内卷成风_新浪科技

图片来源：视觉中国

蓝鲸新闻8月19日讯（记者朱俊熹）今年2月，一段短视频在全网爆红：熙熙攘攘的东京街头，一位戴着墨镜的时尚女性正缓步行走，身后是炫目的霓虹灯——一句话就可描述完视频的内容，但里面的人物表情、环境光照都极为真实，如果不逐帧细看，很难分辨出这其实并非实拍视频，而是人工智能明星公司OpenAI，用其视频生成模型Sora生成的AI视频示例。

OpenAI在2022年底通过发布ChatGPT掀起了此轮AI浪潮，而今年年初发布的包括东京女性在内的这几段AI视频，不仅在时长上倍超其他已有模型，视频质量也实现了飞跃。但直到如今，曾震撼业界的视频生成模型Sora仍处于期货状态，未向公众开放。

然而，其他AI公司和科技界从业者们看到了OpenAI探索出的道路，在无穷的想象空间面前，它们决定立刻躬身如今到视频生成模型的潮水中。在这半年时间内，多家公司开始奋起直追，纷纷发布基于各自优势的视频生成模型，以填补Sora的空位。

国外方面，Runway、Luma AI等一批初创企业均推出了最新的视频生成模型，并全面开放给所有用户。在国内，字节跳动旗下文生视频产品“即梦AI” 8月上架苹果和安卓应用商店；快手在更早的6月就推出了可灵视频生成大模型，上线两个月总申请人数超百万；智谱AI、生数科技、爱诗科技等创企也都在上个月集中发布了自己的AI视频大模型。

AI生成的视频简单、快速、便宜，这一愿景似乎不再可望不可及。

但第一批使用AI生成视频的用户很快也发现，目前的实际体验与理想中的一键生成仍有较远差距。对已经押注AI视频模型的科技巨头、初创企业来说，虽然未来将导向怎样的商业化路径还不明确，但仍然前仆后继地加入了这条赛道。

先入局，对AI公司而言或许更重要。

理想和现实的差距

自打Sora开了个头，每当新的视频生成模型面世时，“效果炸裂”、“颠覆行业”等媒体标签总是紧随其后。但在AI视频创作者Ryan看来，距离视频模型完全取代人力还“差得十万八千里远”。Ryan的本职工作是一位摄影师，他发现用AI制作视频很难完全实现实拍的效果，最主要的问题就在于无法精准控制。

Ryan告诉蓝鲸新闻，在理想状态下，视频生成模型应当具有良好的可控性。这体现在许多方面，首先是人物的可控性，其动作和表情能够符合创作者的要求。其次是镜头运动的可控性，视频模型可以识别专业的镜头语言描述，根据创作者想要的角度进行变换。但现有视频生成模型在这些方面仍存在局限。

而正因为无法精准控制，要想得到相对满意的视频画面，创作者们需要不断地“抽卡”，让AI根据提示词随机生成相关画面，就像在游戏中抽取卡牌一样。每段视频需要的“抽卡”次数并不确定，Ryan通常会抽20到30遍。以快手可灵为例，每生成一个5秒的视频，用户需要在电脑前等待3分钟，然后根据生成效果来调整提示词，再等待3分钟，如此循环，这个过程会耗费大量时间。

7月，智谱AI CEO张鹏在发布AI生成视频模型“清影”时曾表示，生成视频的可控性强烈依赖于模型能否准确理解指令。将来绝大部分视频生成内容都是由人类通过语言控制的，如何从文字或简图转换为视频语言，实现真正的可控，是技术层面的事情。

全职从事AI视频创作的秋和告诉蓝鲸新闻，在商用AI视频的制作过程中，视频生成模型发挥的作用有限，主要用于生成视频素材。但脚本创作、人物设计、声音特效、剪辑等其他环节依然高度依赖人力，以及PS、AE等传统工具。

今年以来涌现的视频生成模型无疑为创作者提供了更多的选择。除快手可灵支持生成2分钟视频外，其他视频模型的生成时长大多在30秒内。秋和表示，不会局限于只使用某一个模型，一般会将不同模型生成的片段组合起来。“效果优先，每家模型各有所长，要根据自己的需求来选择工具。”

在表现中国风方面，创作者大多反映国内模型的效果要优于Runway Gen-3 Alpha等国外模型。生数科技在推出Vidu时表示，作为中国自研的视频大模型，它能够理解中国元素，生成熊猫、龙等特有的画面。背靠快手的可灵在处理人物表情，以及生成与吃有关的画面时表现突出。6月可灵还推出了“复活老照片”等项目，因赋予原本静态的人物惟妙惟肖的表情，迅速积累了较高的热度。

但各个视频模型各有所长，没有哪家拥有绝对优势。秋和此前需要生成一些宏大的黑白场景，以鸟瞰的镜头呈现车水马龙的街道。但多数模型的结果都不尽人意，会出现人物畸变或无中生有，最后她发现刚上线的智谱清影效果是最优的。而据智谱AI此前介绍，其视频训练数据除了来自公开的数据集外，还来源于电视台、影视公司、视频平台等合作伙伴。

“这些可能跟各公司在训练时的数据占比有关。数据的数量、质量和分类，都会影响到不同模型擅长的能力不同。”秋和表示。

商业前景忽明忽暗

尽管AI视频生成模型距离理想状态还有很远，一些AI创作者们却已经发现了这个新兴风口中的商机。

秋和最初是在社交媒体上分享自己的AI作品，渐渐就有企业带着商单找来，想让她用AI制作商品广告片或行业宣传片。

秋和认为，对这些B端客户而言，AI视频既是吸引流量的噱头，通过眩目的画面博人眼球，同时也能够降本增效。以多地推出的AI文旅宣传片为例，实地拍摄耗时耗力，还受限于天气、光线等环境条件。而借助AI技术，只需要几张当地的照片素材，秋和曾经最快只用4天的时间就能完成一条高质量的片子。

AI视频创作者一旦有了订单和收益，就有动力去选择性能更优的视频生成模型，并愿意为之付费。

和绝大部分仍免费的C端AI智能助理产品不同，许多视频模型产品由于成本巨大，在上线后不久就跟进了付费模式。可灵、即梦、Vidu等都推出了会员订阅模式，每月费用在30多元到700多元不等，可享有无水印、优先体验新功能等服务。智谱清影依然支持不限次数的免费使用，同时推出了付费加速服务，花费5元即可解锁一天的高速权益，缩短等待时间。

图片来源：快手官方

但相较于这些公司投入到视频生成模型上的巨额成本，这些收费不过九牛一毛。据投资机构Factorial Funds估算，Sora在训练环节就需要大量计算能力，一个月需要4200到10500块英伟达H100 GPU。到了应用层面，视频模型的推理成本更是会比大语言模型高出多个数量级，且随着视频模型的广泛部署，推理计算消耗将多于训练计算消耗。假设TikTok、YouTube等平台大量采用AI视频生成，推理阶段的计算峰值需求将达约72万块英伟达H100 GPU，相当于英伟达预估2024年全年产能的一半。

高昂的成本可能也是Sora尚未向公众开放的原因。OpenAI首席技术官Mira Murati 3月在接受采访时表示，Sora的运行成本要比现有的生成式AI系统贵得多，公司希望能将其成本压缩至接近文生图模型DALL-E才对外发布。硅谷科技媒体The Information此前报道称，OpenAI今年或将面临50亿美元的亏损。

与大语言模型一样，To B是另一种商业路径，尽管也并未验证成功。智谱AI在推出清影时，将其API同步上线到大模型开放平台，供企业和开发者调用。Vidu在官方网站上提供了API内测申请，称正在寻找第一批种子用户来测试API服务的稳定性，“以便更快向全部开发者推出。”另一AI视频创企爱诗科技则表示要聚焦C端，而字节即梦和快手可灵都未对外提供API。有接近快手人士曾向媒体透露，可灵目前暂无商业化计划。

智谱AI CEO张鹏在清影发布时坦承道，“从现在这个阶段来说，无论是To C还是To B，纯粹走向大规模商业化还比较早期。”他表示，智谱同时面向C端和B端开放视频模型，是想看市场和用户的反馈，后期再及时调整。考虑到生成视频的高成本，能“稍稍收回来一点点也是好事”。

但用户并未做好为视频生成模型付费的准备。快手可灵刚发布时因其免费内测吸引了很多创作者，但一位AI创作者小鹿告诉蓝鲸新闻，一个月之后，可灵突然要收费了，“官方群里都炸了，都出来骂”。随后，一些用户发现可灵国际版还未收费，于是不断地用新邮箱注册可灵国际版，每天换着账号领积分，来免费使用可灵做AI视频。

“你觉得合理吗？平台如果全靠订阅来收费，绝对亏本。”小鹿说。

不管结果如何，先入场再说

AI浪潮发展至今，FOMO（Fear of Missing Out）的情绪已经裹挟着整个科技行业，无论是巨头、创企还是投资者。玩家们害怕的不只是失去当下的良机，更是将来的领先优势。

东吴证券8月发布的一份研究报告指出，在这场视频生成技术竞赛中，互联网大厂很可能将继续扮演引领者的角色。分析师表示，视频生成模型的核心竞争要素依然在于数据、场景和用户。其中，数据是训练高质量模型的关键，而场景决定了产品的市场适应性和商业潜力，互联网大厂在这三个维度均占优势。

这与行业内的意见一致。智谱AI CEO张鹏曾表示，视频生成高度依赖于数据，智谱AI虽然在文字数据方面积累了多年时间，但视频数据是这几年才起步的。他解释称，对视频数据的质量要求极高，并不是在短视频网站上随便抓取就能进行训练，还要对数据进行清洗、筛选，配上相应的字幕和描述。

快手可灵在推出后获得较多好评与较高热度也与训练数据丰富有关系。一位快手数据团队成员此前告诉科技媒体“硅星人Pro”，快手植根视频领域多年，最大的优势就在，“数据都被‘洗’得很干净，整整齐齐地放在那里，做模型的时候可以直接拿过来用。”

快手视觉生成与互动中心负责人万鹏飞在一场活动中介绍称，为确保可灵训练数据的质量，快手通过高度自动化的视频数据平台和精细的视频标签体系，筛掉那些不合适、低质、不符合要求的数据。

目前，激战多年的抖音和快手已然相遇在AI视频模型的新战场上，双方都密切关注着这条与其主营业务生态息息相关的赛道。据硅星人Pro此前报道，快手将可灵视为公司战略级项目，快手创始人兼首席执行官程一笑曾亲自发话“可灵要大做”，高级副总裁盖坤也表示公司将全力支持可灵，包括提供充分的GPU芯片。而字节内部将AI大模型设为集团最高优先级的P0级别，抖音、剪映等内部多个团队都在研发AI视频模型应用。

创作者小鹿向蓝鲸新闻分析道，在大模型落地方面，大厂的常见策略是从内部做起，将AI接入原有业务。他认为，抖音即梦、快手可灵这样的AI视频应用首先可以作为公司前端的技术展示，更重要的是如何将视频生成模型嵌入到已有的业务中，如抖音、快手的内容或电商生态。这样即便无法直接通过AI应用直接实现盈利，“整体能把账算平就可以了”。

对视频生成领域的初创企业而言，从大厂中突围或许难度重重，但他们仍然保有希望。爱诗科技创始人兼CEO王长虎曾担任字节跳动视觉技术负责人，参与了抖音、TikTok等产品及字节视觉大模型的建设。在Sora发布前一年，王长虎决定离开大厂开始创业，聚焦于AI视觉领域，并推出了PixVerse视频生成产品。

今年6月，王长虎在与科技媒体极客公园的对谈中坦言，没有人能在一开始就回答视频生成最终将导向工具还是平台。“谁不想做成平台？如果前面有两条路、两个机会，一个是工具剪映，一个是平台抖音，我想很多人都会选抖音。”

王长虎回溯了抖音和快手的崛起历程，指出它们早期都只是工具。但在移动互联网时代下，内容生成方式、人与信息的交互方式发生了变革，推动抖音和快手成长为成功的平台。而AI技术同样会为这两个层面带来升级，因此他判断在AIGC时代也存在平台性的机会，只是无法确定具体是什么。“打败微信的一定不会是另外一个微信，可能是从另一个赛道来的东西。”王长虎称。

而视频生成模型的竞赛也不过才刚刚打响了发令枪，谁都有机会成功，但同样地，没有人能保证自己一定会活到最后。无论大厂还是创业公司，现在能做的，就是先入场，以后的事以后再说。