封面新闻记者 孟梅 张越熙
近日,美国人工智能研究公司OpenAI发布其首个文生视频模型Sora,其可只用文字指令就可以生成长达1分钟的高清视频。值得注意的是,通过Sora生成的视频,画面流畅稳定,物体特征连贯,能模拟自然世界的物理变动,甚至还能看出明显运镜效果,引发多方震动,不少人在惊叹之余开始担心Sora可能会颠覆诸多行业,并引发一系列失业问题。
2月23日,封面新闻记者专访有闻记者之家创始人阳淼,他表示,Sora的出现,并不意味着人类“奇点”时刻的出现,甚至很多人口中的“颠覆”也有耸人听闻之嫌。
阳淼提到,目前对Sora的热议,大比例是出于媒体和从业者的一种FOMO恐慌。FOMO(fear of miss out,错失恐慌症)经常会驱动人们放大一件事的严重性,并进而驱动他们产生盲动,宁可误判,不敢错过。Sora的文生视频技术的确是AIGC的一个重要进展,但它获得的关注度远远超过其重要性了。很多媒体因为没有第一时间关注到ChatGPT的出现,错失了热点,所以补偿性地在Sora上投入了不匹配的篇幅。
“我们可以来看一下,真正推动人类社会进步的有哪些必要因素。然后就可以明白,Sora在这些因素面前,量级远远不够。”阳淼解释,人类社会从构词法上就能看出,其基本要素有两个,其一是人类赖以存在的“物质”,其二是构成社会的基本要素“信息”。爱因斯坦已经证明了物质和能量可以相互转化,所以可以得出结论,人类社会的进步,取决于两个要素,即对能量的使用方式发生了重大变化,或者对信息的加工处理有了突破性发展;而前者一定是后者的基础。
他进一步阐述,根据人类史研究,原始人类了解火的使用,在约150万年前。但他们能自如地生火(控制这一能量),最早距今7、80万年。与之对应的信息处理方式进化,则是语言系统的出现。这一过程发生在距今10万年左右的历史中。在此之前,原始人类依靠简单的符号系统进行交流。下一个重大变化发生在农耕的出现,距今约一万年。这意味着人类从掌握原始能量火,进化到掌握更为庞大、规律的太阳能。相应地,信息处理方式也从口头语言,进化到书写系统。后者依然在前者之后,晚了约4000年。这一逻辑容易理解。当人类利用能量的方式发生革新时,人口增加,社会规模扩大,复杂度增高,用以组织社会的信息交流方式也必须随之进化,从简单符号,到系统口语,到书面文字。
他提到,从这个标准看,人类最近的一次能量使用能力跃迁是工业社会,从太阳能进化到化学能。相应的信息交流方式进化依然是滞后一步的,只不过这次滞后的周期也短了很多,自电报、电话出现,直到互联网方兴未艾,滞后仅以百年计。
“而谈回Sora,之所以说它远远没到人类奇点的程度,甚至很多人口中的颠覆也不无耸人听闻之嫌,是因为,无论是ChatGPT还是Sora,变革仅仅发生在信息领域,而与之对应的能量利用方式,有革命性变化吗?并没有,现在世界上依然还是以火电等化学能为主的能源运用方式,核电在机制上前进了半步,但发电成本仍然高于火电,更清洁高效的聚变发电还遥遥无期。”阳淼总结,在能源使用方式没有发生革命性变革前,信息技术不可能单独引领人类进入奇点。
单从信息处理本身看,Sora的进步意义,其实也远远无法跟ChatGPT相提并论。阳淼也对比了Sora与ChatGPT带给人工智能行业的影响。“ChatGPT是从零到一地证明了,生成式人工智能有这样一条路径可以走,这种方向可以成功突破。而Sora只是从一到二地证明,AGI同样可能适用于视频领域。”他指出,从信息介质上来说,以处理文本信息见长的ChatGPT,也比Sora要有更广泛的应用可能。因为信息处理效率的提升,其前提是信息的结构化程度。文本信息的结构化已经完成(在数字世界可以自如地编码解码、索引排列),在这个基础上,ChatGPT对信息处理效率的提升,可能引发下一代互联网的问世。
而视频信息本身结构化程度不足,视频互联网的基础设施都还没有搭建完成,技术难点众多。在这个大前提下,Sora的应用场景只会停留在娱乐、服务业层面,难以对实体经济产生更大的助力。
关于大模型未来的发展,阳淼也提出,生成式AI的征程才刚刚开始,随着AGI领域的新成果、新产品不断发布,有些基于对中国技术实力的悲观论声音出现。要看到,诸如百度、阿里巴巴等公司的开源项目,多次入选开源社区最受欢迎项目。一个技术要从实验室走进工厂、走进商店、走进千家万户,有一个漫长的过程。AIGC技术的发展历程才刚刚开始,既不要急于吹嘘颠覆论,更不要被吓出投降论。最应该做的是,好好再读一遍《论持久战》,以实际行动支持我们自己的科研人员和科技产业。
“掌”握科技鲜闻 (微信搜索techsina或扫描左侧二维码关注)