Sora横空出世 AI将创造一个什么样的世界|AI_新浪财经

转自：深圳特区报

戴着红色羊毛编织摩托车头盔的太空人。（Sora生成视频截图）

巨大的猛犸象在雪地上行走。（Sora生成视频截图）

深圳新闻网2024年3月19日讯（深圳特区报记者闻坤熊子恒）今年2月，一段短视频震惊世界。OpenAI发布的Sora模型，从一个文本生成接近电影级别质量、难以辨别真伪的视频，这是继ChatGPT发布以来人工智能发展又一重要里程碑。Sora的横空出世引来全球的广泛关注和深刻反响，人们对其表现出赞叹、猎奇、惊喜以及对未来可能带来变革的焦虑，同时，也迫使我们思考在AI时代来临的当下，国产大模型后发的追赶之路如何走？

Sora是什么？

在这段视频中，一位身穿黑色皮夹克、红色长裙的时尚女郎走在布满霓虹灯和标牌的东京街道上。她戴着太阳镜，涂着红色口红，走路自信又随意。镜头从大街景慢慢切入女郎的脸部特写，白色的斑马线及周围的街景在她戴着的太阳镜上形成镜面效果……

寥寥几句文字就能生成一段细节拉满、极其逼真、美出高级感的1分钟“大片”，Sora的强大功能震惊全球。

来自美国人工智能公司OpenAI于2月17日发布的文生视频大模型Sora，用户只需要输入简单的文字表述，即可生成画面流畅、细节丰富，且符合运动规律的短视频。目前官网上已经更新了数十个视频样片，在这些样片中，Sora不仅能准确呈现细节，还能理解物体在物理世界中的存在，并生成具有丰富情感的角色。

Sora取自日文的罗马音，是“天空”中的“空”，意指OpenAI希望Sora能突破宇宙，激起无限的创作可能性。

Sora的技术原理是什么？哈工大（深圳）计算机科学与技术学院教授汤步洲解释，Sora的核心是一个扩散变换器（Diffusion Transformer，简称DiT），这是一种深度学习模型，用预训练能够将随机噪声逐渐转化为有意义的图像或视频。

具体来说，由于类似ChatGPT语言大模型无法直接生成图片，通常会调用一个文生图模型比如Dall-E来实现图片生成功能。而上一代纯文生图模型对提示词理解能力很弱，比如，输入“创新之城”，模型很难生成准确的图片，而把大语言模型加入进去后，就能把“创新之城”转化为高科技、新兴产业、创新中心、通信网络、基础平台等文生图模型能懂的提示词，生成契合主题的图片。Sora再将不同分辨率、大小、深度等各异的图片压缩处理成“标准化”表示，以“空间时间小片”为基本单元，创造性地生成接近文本描述的“逼真”视频。

“视频数据处理是Sora的亮点和最大的创新之处。”从事开发的资深AI专家Jim介绍，Sora开发团队重新组合已有的技术，没有把视频生成局限在帧处理上，而是升维到如何模拟物理世界，在架构层次上探索如何去登顶。

Sora展示了准确解释和执行复杂人类指令的显著能力。Jim认为，与之前的视频生成模型相比，Sora的特点是能够更好地遵循与拓展用户文本指令的同时，生成长达1分钟的高质量视频，而其他主流工具生成的视频通常只有5秒钟左右。此外，Sora生成的视频在不同镜头之间保持动作和画面连贯性和一致性，具有更强的实用性和应用价值。

Sora带来什么？

Sora横空出世让科技界大佬和所有人工智能相关从业者都感到热血沸腾，热度直逼一年前的ChatGPT发布。特斯拉CEO马斯克甚至发出“gg humans”（干得好，我服了）的感叹。

科大讯飞董事长刘庆峰表示，Sora将对影视、广告、游戏、新闻、教育、VR/AR等诸多行业产生深远的影响，带来人机交互上更大的想象空间，具有广泛的应用前景。

有投资人判断称，预计5年之内，就会出现一个不到5人的小团队，用AI制作出票房超过5000万美元的电影。

Sora为人工智能应用场景提供了广阔的视角。教育工作者可以利用Sora将课程大纲转化为动态、引人入胜的视频教材；游戏行业，将Sora整合可以创造前所未有的沉浸式体验，吸引并吸引玩家；医疗领域，视频扩散模型特别适合识别身体内的动态异常，对早期疾病检测和干预策略也有很大帮助。此外，Sora还将对自动驾驶带来巨大的影响。

中国工程院院士、阿里云创始人王坚认为，Sora问世远不止会对短视频、影视等行业带来冲击，它解决了非常复杂的视觉问题，“如果能创造视频，它也就能创造世界。”

OpenAI并未单纯将Sora视为视频模型，而是作为“世界模拟器”。OpenAI官方指出，Sora是理解和模拟现实的基础。这意味着Sora不是在虚构世界，而是在真实规则基础上生成世界。

但业界似乎并不认同。刘庆峰表示，Sora所展现的模拟物理世界的特性仅是大模型在文生视频领域的一种涌现，其本身并没有掌握真实物理世界的知识，仍然不是一个足以模拟物理世界的模型。以Sora为代表的多模态模型需要更大量的音视频数据和更大规模算力的支持。

最近，OpenAI首席技术官穆拉蒂在接受《华尔街日报》采访中承认，Sora目前不会短期内向公众开放，因为它还不是一个成熟的产品，还有很多挑战和安全问题需要解决。

Sora创新模式有何特点？

ChatGPT和Sora的相继成功，探究OpenAI的创新管理模式和机制有着重要意义，值得我们借鉴。

作为全球领先人工智能机构，OpenAI以大模型为核心开创了AI领域的新一轮创新范式。人才方面，以高水平青年人才为主力军的团队模式，绝大部分成员拥有全球顶尖或知名高校学位，同时也会吸纳知名巨头公司的人才，通过创新思维、敏锐洞察力和快速迭代推动AI技术发展；重视合作，与微软之间建立了长期且紧密的伙伴关系，因此获得大规模算力资源和海量应用场景；通过资金+技术+战略支持的方式，寻求优质的AI初创公司，并为其提供资金、技术以及战略指导的支持，为嵌入未来海量应用场景打下坚实的基础。这种“OpenAI模式”使其快速发展成为世界一流的人工智能机构。

业界学界都认为，Sora核心DiT模型早在2022年就提出来，底层技术上，Sora并没有创新。

中国工程院院士、鹏城实验室主任高文认为，这不是一项突如其来的颠覆性的变革，而是正常的科技发展的必然结果。Sora模型跟产业界结合得比较好，所以看起来很亮眼。

作为业界资深专家的Jim这样回答：“Sora的问世离不开大量的算力去做实验，然而这项工作实验初期看不到有什么结果，它是一个探索性的研究工作。在这条路被验证可行之前，资本愿不愿意、敢不敢下注？所以这是我们需要思考的问题。”

专家认为，人工智能是最受资本关注的行业之一。今年Sora的推出提高了大家对AGI加速实现的预期，也让资本市场特别热。建议政府和社会资本未来进一步重视基础研发，特别在关键核心技术上舍得投入，允许科学家开展自由探索性工作，并给予长期稳定的支持，不能急功近利只想赚快钱、赚稳当钱。

我们如何创造自己的通用AI？

“我认为中美在人工智能赛道的差距其实并不大。”Jim说，特别在文本模型和基础模型，现在维持在一年左右时间的差距，但从长期来看，叠加自身的基础和优势，我们还有机会在几个领域赶超的。

Jim说，Sora发布一个月后，中国文生视频公司纷纷得到融资，积极打造更适合落地的创新应用，这将是中国科技公司的机会。

360集团创始人周鸿祎也表示，中国的AI发展是有优势的，一旦方向确定了，以国内公司的学习和模仿能力，很快就能追赶上去。目前的差距大概用一到两年时间是可以解决的。

目前，华为、腾讯、字节、阿里、百度、科大讯飞等大厂已推出或即将推出文生视频模型，智象未来、爱诗科技、生数科技、Morph Studio等AI创业企业该赛道上各自发力，推出的文生视频模型/产品各有千秋。

OpenAI选择了一条少有人走的路，但却走通了。正如人工智能专家焦李成所说，大模型既是一个基础模型，又是面向重大工程应用的通用平台，这既是考验，也是机遇，我们要从基础理论、关键技术、创新应用等方面突破，从而在国际上处于领先地位。