一段 AI 生成的体操视频,引发近百万网友围观,LeCun 等一众大佬还因为它吵起来了。
![](http://f.sinaimg.cn/spider20240701/192/w640h352/20240701/0d07-gif004f965a730bc6acd1781467aded534b.gif)
体操表演,emmmm 怎么不算呢?
![](http://f.sinaimg.cn/spider20240701/192/w640h352/20240701/6364-gif653fd273ff0fd7e4fb2673f44d872404.gif)
通过视频右上角的水印,此段视频正是由那个一度被认为是“下一代”文生视频的 Dream Machine(来自 Luma AI)生成的。
大伙儿看后纷纷坐不住,围绕此讨论的,是 AI 视频领域的一个熟悉的话题:AI 是否理解物理规律。
LeCun 直接开麦:
视频生成模型不理解基本物理知识。更不用说人体了。
![](http://n.sinaimg.cn/spider20240701/781/w1080h1301/20240701/004a-8d8d59665eb0b0ca8943d76bc7531164.png)
华盛顿大学计算机科学教授 Pedro Domingos 看后也“摇了摇头”:
AGI 可能并不会像一些人预期的那样即将到来。
![](http://n.sinaimg.cn/spider20240701/386/w1080h106/20240701/b92b-859bd79084c0b452b27792d25286e88d.png)
畸变确实离谱
自 Sora 问世以来,“AI 是否理解物理规律”这个话题就被越来越多人关注。
下面这段 Sora 生成的“寄居蟹用灯泡当外壳的夜间场面”是个经典的例子,海浪与沙滩的互动非常细腻,寄居蟹腿上的纤毛也活灵活现。
![](http://f.sinaimg.cn/spider20240701/293/w700h393/20240701/66b6-gifb65a67ba0849a137b6e71e9779f9a971.gif)
对比真实拍摄的类似场景照片,也就灯泡没有电源不应该亮这一个明显破绽了。
![](http://n.sinaimg.cn/spider20240701/782/w988h594/20240701/8810-bbf8922528cffb0e57c7ed347deaaf1b.png)
最近 Luma AI 的 Dream Machine 也一样,生成的第一视角探废弃房子真实感拉满:
![](http://f.sinaimg.cn/spider20240701/250/w678h372/20240701/68b5-gif5bc2b857b2366ce1ee8eb9840890a3ff.gif)
由此,不少人认为 Sora、LUMA 等的视频生成模型已经理解了简单的物理规律。
然鹅,这次被放出的视频着实有点太离谱。
不仅腿脚乱飞,频频上演大变活人:
![](http://f.sinaimg.cn/spider20240701/746/w480h266/20240701/5e92-gifa4ebe7920c61b7977a2b8c197c5febad.gif)
就这高难度的空中悬浮翻跟头,也是牛顿都要被气活了的节奏:
![](http://f.sinaimg.cn/spider20240701/746/w480h266/20240701/cf02-gifee70f284280ccf8c77c2146253b9253f.gif)
以至于网友看后还表示,说恐怖大可不必,说搞笑还差不多。
![](http://f.sinaimg.cn/spider20240701/746/w480h266/20240701/dd11-gif8a2b08e91ce1cc581d7cd0292ce6b34d.gif)
如此抽象,LeCun 直接评论视频生成模型不会懂物理。
他还进一步解释,Sora 或者其它视频生成模型都有类似的问题,视频生成技术无疑也肯定会随时间推移而进步。
但:
真正理解物理的学习系统并不会具有生成性。就像鸟类、哺乳动物等比任何视频生成系统更了解物理。然而,它们都不能生成详细的视频。
![](http://n.sinaimg.cn/spider20240701/31/w1080h551/20240701/4dfa-1ce4d43da3cfaa60478a169a197d9a95.png)
类似还有另一种思考:
即使 AI 视频生成模型之后会进化的很好,生成的视频质量“完美”,那么就意味着它理解物理了?
![](http://n.sinaimg.cn/spider20240701/71/w1080h591/20240701/cc20-2cb27875ad23508ec71ce5c6470c0e2f.png)
LeCun 等的观点,立马引起网友的质疑:
鸟和哺乳动物也会生成详细的视频,只不过是在大脑中生成无法将其具象化。
![](http://n.sinaimg.cn/spider20240701/554/w1064h290/20240701/cd05-4fb3ffd539de254bca0c93cd5514c95e.png)
然鹅,这种反驳并未说服 LeCun。
![](http://n.sinaimg.cn/spider20240701/628/w1056h372/20240701/0d55-ad073db512fd5288764977d0bd8565d8.png)
此外,还有不少人持反对意见。
例如,谷歌 DeepMind / Brain 团队研究员 Lucas Beyer 就指出:
这就像是展示一个由几年前的 Dall・E mini 生成的图像,然后称当前的图像生成方式注定失败一样。
毕竟,之前生图模型生成的图像 be like:
![](http://n.sinaimg.cn/spider20240701/798/w1062h1336/20240701/8c68-ba3841bfc6f6f9b4c48d786d892cdcd9.png)
至于模型会生成如此离谱的视频?
有网友认为是缺乏体操表演数据,还有网友认为是身体部位的模糊处理,使得模型无法理解人体结构,继而不能保证肢体动作的连贯性。
![](http://n.sinaimg.cn/spider20240701/614/w1080h334/20240701/2ef9-d3da64f746cde8ebaeb9aceb96d4b624.png)
视频生成在计算上更为复杂,并且具有高度的上下文相关性,对详细标注的训练数据有更大的需求,这些需求现在还未得到充分满足。
![](http://n.sinaimg.cn/spider20240701/732/w1068h1264/20240701/baa8-55ebb248887fee78fc7adc8e416257eb.png)
前段时间 SD 3 翻车,同样对人体生成效果不好,网友也讨论过这一问题,过于严格的数据审核,可能误删了一些无害的成人图像,影响了模型对人体结构的理解。
![](http://n.sinaimg.cn/spider20240701/365/w1080h885/20240701/8e0f-2c4fc95a8100fc2ee76c28c131f79c68.png)
One More Thing
除了 Luma AI 的 Dream Machine 生成体操视频大翻车,Runway 的 Gen-3 也……
![](http://n.sinaimg.cn/spider20240701/392/w1066h926/20240701/fdf9-6b04dfbf99def60141402f1bf891c4d4.png)
同款三头六臂:
![](http://f.sinaimg.cn/spider20240701/16/w512h304/20240701/e1e0-gifed57c3e0670334919e0cf97671a38248.gif)
同款空中悬浮绝活:
![](http://f.sinaimg.cn/spider20240701/16/w512h304/20240701/dbfd-gif60178fb829d6ddb0554ad4af7d4c7b54.gif)
参考链接:
[1]https://x.com/ylecun/status/1807497091964449266
[2]https://x.com/giffmana/status/1807511985807908926
[3]https://x.com/EricDai_BioE/status/1807540558216454281
[4]https://x.com/Grady_Booch/status/1807556807982010451
本文来自微信公众号:量子位(ID:QbitAI),作者:西风
广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。
![新浪科技公众号 新浪科技公众号](http://n.sinaimg.cn/tech/content/tech_qr2x.png)
“掌”握科技鲜闻 (微信搜索techsina或扫描左侧二维码关注)
![](http://n.sinaimg.cn/tech/content/tech_weixin2.png)