今天起，汉字也能AI视频生成了！《滕王阁序》直接拿捏到位了|滕王阁序_新浪财经

“汉字”这个难关，今天终于被AI视频生成给拿下了！

话不多说，我们直接先来看效果：

视频地址：https://mp.weixin.qq.com/s/fIV5xYvwq_OjtLzGj6ql-g?token=1827059726&lang=zh_CN

这个字，就这样被AI水灵灵地一笔一划滴了出来。

再如下面这个例子，我们的Prompt是：

视频地址：https://mp.weixin.qq.com/s/fIV5xYvwq_OjtLzGj6ql-g?token=1827059726&lang=zh_CN

但这样还是略显单调，我们上一下难度：

视频地址：https://mp.weixin.qq.com/s/fIV5xYvwq_OjtLzGj6ql-g?token=1827059726&lang=zh_CN

好的，我们也算是打了一波赛博广告了。

那么让字数再多一点，AI是否能hold住呢？

我们直接来挑战一下：

视频地址：https://mp.weixin.qq.com/s/fIV5xYvwq_OjtLzGj6ql-g?token=1827059726&lang=zh_CN

可以看到，这段视频中虽然有一个小瑕疵（“摸”字多了一笔），但整体是把Prompt中的内容给还原了出来。

当然，复杂的汉字都能搞定，这个AI自然也可以生成英文单词，并且还是带“花活儿”的那种（下面还有中文版）：

视频地址：https://mp.weixin.qq.com/s/fIV5xYvwq_OjtLzGj6ql-g?token=1827059726&lang=zh_CN

那么，这到底是何许AI是也？

不卖关子，它就是阿里通义万相刚刚升级的2个新版本视频生成模型：

在整体体验过后，我们能够明显感受到模型整体性能有了大幅的提升。

尤其是在处理复杂运动、还原真实物理规律、提升影视质感以及优化指令遵循方面。

据了解，新版通义万相已经以84.70%的成绩登上权威评测集VBench榜首的位置，一路超越Gen3、Pika、CausVid等国内外视频生成模型。

不过有一说一，能生成汉字，也还只是通义万相能力升级的一隅。

接下来，我们就继续来看下它在视频生成中的更多能力。

值得一提的是，这个新升级的模型并不是PPT哦，是已经上线了的那种~

现在人人都可以在线免费体验了，入口和模型选择如下图所示：

如果你是开发者或者企业，还可以在阿里云百炼上调用API，打造自己的专属应用。

鉴于此前大部分AI视频生成，在处理复杂人物动作时，往往会出现转个身就鬼畜的现象。

我们就直接来上个难度，超复杂动作——Breaking

请听Prompt：

可以看到，这段AI视频生成一改以往的鬼畜，在如此多且复杂的动作情况下，人物效果依旧是稳稳的。

再来看下跳水运动：

细节如脚背，也是拿捏的很到位了。

除了在连续复杂动作发挥稳定效果之外，还原真实物理规律，也是评判AI视频生成效果的关键指标之一。

我们不妨让《滕王阁序》来考验一番：

不难看出，通义万相新版本是非常好地理解了这句诗的意境。

而在面对像切肉这样的动作时，还原物理规律的体现会更加明显：

切肉时肉块的自然分离、刀面上的镜像、肉底部的油……细节如斯，细节如斯。

在真实性的基础之上，若想用AI来打造质量更高的视频效果，那么运镜就是不可或缺的技巧之一。

这一点，通义万相也是可以完全hold住。

例如狐大仙蹦迪，我们可以来个给氛围狠狠加分的运镜：

像电影场景里跑车在山谷里疾驰的画面，跟着汽车的轨迹加复杂运镜也是可以有的：

除此之外，通义万相还有个特点就是可以拿捏各种风格的类型，颇有种影视级的感觉。

例如中世纪真人写实风

再如卡通动画

而且生成的视频尺寸也是选择的哦：

那么接下来的一个问题就是：

整体来看，这次通义万相在技术方面采取了三步走的创新路线。

首先，是VAE与DiT架构协同发力

视频VAE可以看做一位“压缩大师”，擅长将视频中的海量信息进行高效压缩，提取出最为关键的特征。

它通过将视频拆分为若干块（Chunk），并缓存中间特征，取代了传统长视频的端到端编解码方式。

这一设计的关键在于，使显存的使用仅与Chunk大小相关，而与原始视频长度无关，从而实现了对无限长1080P视频的高效编解码。

这种机制为任意时长视频的训练提供了可行性。实验表明，在较小模型参数下，通义万相VAE实现了业内领先的视频压缩与重构质量。

而DiT则像是一位“时空捕手”，能够敏锐地捕捉视频中的时空动态，精准地建模视频中不同元素在时间和空间上的变化关系。

通义万相团队采取了以下优化措施：

△通义万相2.1视频生成架构图

其次，是超长序列训练上的突破

在面对超长序列训练这一极具挑战性的任务时，通义万相团队巧妙地运用了4D并行策略，犹如为模型训练打造了一台超强动力的“引擎”。

这一策略将DP（数据并行）、FSDP（ Fully Sharded Data Parallel，全量分片数据并行）、RingAttention（环形注意力机制）、Ulysses（一种优化技术）等多种先进技术有机融合。

例如在显存优化方面，团队根据序列长度带来的计算和通信需求，采用分层显存优化策略，解决显存碎片问题，同时使用FlashAttention3提升时空注意力的计算效率。

此外，通过去冗余计算和高效Kernel实现，进一步降低访存开销。

文件系统优化方面，针对阿里云高性能文件系统的特性，团队采用分片Save/Load方式优化数据读写性能，并通过错峰内存使用方案，解决Dataloader Prefetch、CPU Offloading与Checkpoint存储引起的内存OOM问题。

稳定性提升方面，依托阿里云的智能调度、慢机检测与自愈能力，模型训练能够实现自动故障检测与任务重启，大幅提升训练过程的稳定性。

△通义万相4D并行分布式训练策略

最后，是数据与评估双轮驱动

通义万相团队打造了一套自动化数据构建管线，通过优化视觉质量和运动质量，筛选整合与人类偏好分布高度一致的数据集。这些数据具有多样性高、分布均衡等特点，极大提升了训练效率。

团队还为此设计了一套覆盖美学评分、运动分析、指令遵循等多个维度的评估体系，并训练了专业的打分器。通过这些自动化指标的反馈，显著加速了模型的迭代与优化。

以上便是炼成新版通义万相的核心技术要义了。

至此，不仅是从技术创新方面，更是从真真切切的体验角度来看，国产Sora再次走到了AI视频领域的前沿。

单就能够生成汉字这一点，便是全球独一份的那种。

而从视频生成范围之广，也是应了“通义万相”的名字——AI已经到了可以生成“万相”的时刻。

那么你是否也有脑洞大开的想法，并想让它们以视频的形式呈现出来呢？

快来体验一下最新、最Fashion的模型吧~

直接体验入口：

https://tongyi.aliyun.com/wanxiang/videoCreation

API调用：

https://bailian.console.aliyun.com/?spm=5176.29619931.J__Z58Z6CX7MY__Ll8p1ZOR.1.74cd59fckLhf3c#/model-market

https://huggingface.co/spaces/Vchitect/VBench_Leaderboard

海量资讯、精准解读，尽在新浪财经APP

文章关键词：滕王阁序 AI视频 AI

VIP课程推荐

加载中...

APP专享直播

1/10

新浪财经公众号

24小时滚动播报最新的财经资讯和视频，更多粉丝福利扫描二维码关注（sinafinance）

今天起，汉字也能AI视频生成了！《滕王阁序》直接拿捏到位了

VIP课程推荐

APP专享直播

股市直播

7X24小时

今天起，汉字也能AI视频生成了！《滕王阁序》直接拿捏到位了

VIP课程推荐

APP专享直播

热门推荐

股市直播

7X24小时