【TechWeb】AI“复活”亲人、大模型帮写年度总结、无人驾驶汽车接送上下班、豆包月活跃用户数超7000万……随着AI企业在大模型端的持续发力和成熟,2024年AI更多向应用侧尝试落地。
进入2025年,全球AI产业会呈现哪些新的变化?有哪些突破值得期待?AI超级应用是否会出现?从基础设施到产品应用,北京智源人工智能研究院给出了2025年度AI趋势预测,或可提供一些参考。
1.AI将改变未来科研范式
2024年,诺贝尔物理学奖和化学奖均颁给了AI相关领域,被简化为“AI4S”的AI for Science(AI用于科研)理念也受到了国内外科学家们的重点关注。
当前,AI已经在许多不同的科研领域取得成就。除了与诺奖相关的AlphaFold外,还包括诸如DeepMind利用AI技术在核聚变-托克马克装置中控制等离子体形状等。
此外,AI还加速了实验研究的进程。中国科学院院士张锦此前在出席活动时表示,让一名同学一天重复3组一样的实验基本不可能,但通过自动化平台做自动化实验一天可以做150组,极大提高了实验的重复性,而高质量的实验数据是模拟训练的基础。
智源人工智能研究院报告指出,大模型引领下的AI4S已成为推动科学研究范式变革的关键力量。2024年,科研人员使用AI的比例快速增加,AI对科学研究方法和流程的变革效应也开始显现。
2025年,多模态大模型将进一步融入科学研究,赋能多维数据的复杂结构挖掘,辅助科研问题的综合理解与全局分析,为生物医学、气象、材料发现、生命模拟、能源等基础与应用科学的研究开辟新方向。
2.具身智能元年:小脑大模型的尝试或有突破
在刚刚过去的2024年,具身智能成为最吸金的科技赛道之一,从北美到中国均掀起了空前的融资热潮。
北美市场,Figure AI筹集6.75亿美元,机器人基础模型公司Skild AI获得3亿美元,Collaborative Robotics筹集了1亿美元,OpenAI则获得66亿美元融资。彰显出资本市场对具身智能领域的看好。
在中国市场,有媒体统计,仅2024年前三季度,中国人形机器人领域就完成了55起融资,同比增加21起。其中不乏科技大厂的身影,比如美团战略投资宇树科技、银河通用,阿里巴巴参与星动纪元融资,华为正式启动具身智能产业创新中心。
此外,比亚迪、长安、广汽、奇瑞、小鹏、小米、蔚来、理想等近10家国内车企也已明确表示未来将进入具身智能赛道。特斯拉预计2025年年底将有数千台人形机器人Optimus在特斯拉工厂执行任务,2026年将开始交付给外部客户。
智源人工智能研究院预测,2025年的具身智能,将继续从本体扩展到具身脑的叙事主线,我们可以从三方面有更多期待:
在行业格局上,近百家的具身初创或将迎来洗牌,厂商数量开始收敛;在技术路线上,端到端模型继续迭代,小脑大模型的尝试或有突破;在商业变现上,我们也必将看到更多的工业场景下的具身智能应用,部分人形机器人迎来量产。
3.统一的多模态大模型实现更高效AI
2024年,各家大模型厂商不再简单竞争参数规模,而是将兼具文字、图片、视频等不同能力的多模态作为重要发力点。
2024年2月,OpenAI的文生视频大模型Sora一经面世即惊艳世界。随后,快手、字节跳动、腾讯、阿里等国内大厂也纷纷推出了文生视频大模型。目前,快手可灵AI、字节即梦AI均已上线独立APP。
值得注意的是,当前的语言大模型、拼接式的多模态大模型对人类思维过程的模拟仍存在天然的局限性。智源人工智能研究院认为,从训练之初就打通多模态数据,实现端到端输入和输出的原生多模态技术路线给出了多模态发展的新可能。
基于此,训练阶段即对齐视觉、音频、3D等模态的数据,实现多模态的统一,构建原生多模态大模型成为多模态大模型进化的重要方向。
4.Scaling Law扩展,模型泛化从预训练向后训练、推理迁移
2024年12月中旬,OpenAI 联合创始人Ilya Sutskever抛出了一个非常犀利的观点:预训练时代即将结束。
Ilya 认为,当前提升计算能力的速度已经超过了可用于AI模型训练的总量,数据增长已接近瓶颈,“当前仍然可以使用现有数据进行训练,但趋势终将放缓,预训练时代也会逐步结束”。
值得注意的是,Ilya的观点并非孤言。据外媒报道,越来越多的从业者正在重新评估“Scaling law”的有效性和局限性。
对于Scaling Law放缓一说,北京智源人工智能研究院创始董事长、美国国家工程院外籍院士张宏江日前在出席活动时表示,对此并不担心,“即使在pre-training(预训练)有放缓趋势,但GPT-o1的发布,让我们看到另外一个天地,就是相对于预训练模型的‘快思考’模式,推理模型o1可以给更多的思考时间,Scaling Law的推理性能已出现’拐点’,有一个指数级增长。”
智源人工智能研究院认为,基于Scaling Law推动基础模型性能提升的训练模式“性价比”持续下降,后训练与特定场景的Scaling law不断被探索。强化学习作为发现后训练、推理阶段的Scaling Law的关键技术,也将会得到更多的应用和创新使用。
5.世界模型加速发布,有望成为多模态大模型的下一阶段
近年来,人工智能领域涌现出一种被称为“世界模型”的新概念,被一些业内人士视为AI的下一个重大前沿。
所谓世界模型,是一种高度先进的模拟技术,能够创造出虚拟的3D环境,这些环境不仅逼真,还能够模拟出动作及其后果。简言之,就是一种让AI或人类用户能够在其中进行交互、探索和游戏的虚拟世界生成器。
“AI教母”李飞飞的World Labs已筹集2.3亿美元用于构建“大世界模型”,该公司计划生成虚拟的三维空间,用户可以控制其中的物理等变量,并允许人们创建自己的三维“世界”。李飞飞表示,这项技术对艺术家、设计师、开发者和工程师等职业群体都有重要意义。
2024年12月,谷歌DeepMind最新基础世界模型Genie 2登场,能生成各种可控制动作、可玩的3D环境。今年1月,英伟达发布首个生成式世界基础模型Cosmos。此外,初创公司Decart、 Odyssey也均在布局世界模型。
智源人工智能研究院认为,更注重“因果”推理的世界模型赋予AI更高级别的认知和更符合逻辑的推理与决策能力,这种能力不仅能推动AI在自动驾驶、机器人控制及智能制造等前沿领域的深度应用,更有望突破传统的任务边界,探索人机交互的新可能。
值得注意的是,尽管前景诱人,世界模型的发展仍面临诸多技术挑战。比如,与目前用于生成式模型的计算量相比,训练和运行世界模型需要庞大的算力。而且世界模型也存在幻觉问题。
6.合成数据将成为大模型迭代与应用落地的重要催化剂
大模型训练和开发对数据尤其是高质量数据的需求量日益增长,但现实世界中大模型训练所需数据量却日渐紧张。智源人工智能研究院认为,高质量数据将成为大模型进一步Scaling up的发展阻碍,合成数据已经成为基础模型厂商补充数据的首选。
这与OpenAI联合创始人Ilya Sutskever的观点一致。他曾表示,“预训练毫无疑问将会终结,与此同时我们也不会再有更多数据了。原因在于,我们只有一个互联网,训练模型需要的海量数据即将枯竭,唯有从现有数据中寻找新的突破,AI才会继续发展。以后的突破点,就在于智能体、合成数据和推理时计算。”
据了解,合成数据可以降低人工治理和标注的成本,缓解对真实数据的依赖,不再涉及数据隐私问题;提升数据的多样性,有助于提高模型处理长文本和复杂问题的能力。此外,合成数据可以缓解通用数据被大厂垄断,专有数据存在获取成本等问题,促进大模型的应用落地。
目前,市面上有许多工具可生成合成数据。比如英伟达发布的3D仿真数据生成引擎Omniverse Replicator,能够生成物理模拟的合成数据,用于自动驾驶汽车和机器人的训练。微软旗下有开源合成数据工具Synthetic Data Showcase,苹果自研人工智能系统Apple Intelligence,在预训练阶段也大量使用了合成数据。
7.推理优化迭代加速,成为AI Native应用落地的必要条件
业内认为,AI Native赛道正在实现从概念到规模化、商业化的跨越。截至2024年10月,该领域已吸引85亿美元融资,其中不乏大额融资案例,比如生成式AI搜索平台Perplexity、GitHub对手Poolside在去年分别获得5亿美元融资。
所谓AI Native,是指将人工智能技术深度集成到产品和服务中,使其成为核心功能的一部分,而不是简单的附加功能。其应用场景包括智能助手(如Siri、Google Assistant)、推荐系统(如Netflix和Spotify)以及可穿戴AI设备、智能眼镜等原生硬件。
智源人工智能研究院指出,大模型硬件载体从云端向手机、PC等端侧硬件渗透。在这些资源受限(AI算力、内存等)的设备上,大模型的落地应用会面临较大的推理侧的开销限制,对部署资源、用户体验、经济成本等均带来巨大挑战。算法加速和硬件优化技术持续迭代,双轮驱动加速AI Native应用落地。
8.Agentic AI成为产品落地的重要模式
2024年12月31日,OpenAI CEO奥特曼在社交平台公布2025年OpenAI即将发布的技术产品,通用人工智能(AGI)排在第一位,紧随其后的就是智能体。他直言,“我们会拥有越来越好的模型,但我认为下一个巨大突破来自智能体。”
AI智能体,就是由AI驱动的软件工具,只需要给出最小的监督,它就可以执行多步骤任务。比尔•盖茨将智能体称为计算领域的又一次重大变革,预示着它将改变人们与计算机之间的交互方式,甚至颠覆整个软件行业。
在去年,智能体已经开始被各大科技公司重视起来。国内大厂和AI创业公司已纷纷推出自家的智能体平台或应用,比如阿里云ModelScopeGPT、腾讯元器、字节跳动旗下飞书智能伙伴、百度文心智能体、百川旗下百小应、科大讯飞旗下讯飞友伴、昆仑万维天工skyAgents等。
信息技术服务和咨询公司凯捷(Capgemini)发布的报告称,虽然目前只有约10%的企业已经开始使用AI智能体,但82%的企业计划在未来三年内将智能体整合到工作流中。
从Chatbot、Copilot到AI Agent、Agentic AI,2023年以来行业对于AI应用形态的理解越发深入。智源人工智能研究院认为,2025年,更通用、更自主的智能体将重塑产品应用形态,进一步深入工作与生活场景,成为大模型产品落地的重要应用形态。
9. AI应用热度持续攀升,已来到超级应用爆发的黎明前夕
近一年时间,生成式模型在图像、视频侧的处理能力得到大幅提升,叠加推理优化带来的降本,Agent/RAG框架、应用编排工具等技术的持续发展,为AI超级应用的落地积基树本。
截至2024年12月,豆包月活跃用户数达到7116万,成为国内第一、全球第二的AI原生应用。在服务类智能体赛道,蚂蚁集团旗下支小宝、蚂小财等系列AI管家产品,重塑了AI产品形态。
然而,与移动互联网时代用户量达数亿甚至十亿的超级应用相比,AI时代的的超级应用尚未出现。无论是在美国、欧洲还是中国,都在积极探索能够发挥生成式AI能力、且能够吸引数十亿人使用的应用形态。
智源研究院行业研究组负责人倪贤豪表示,“虽然Super APP花落谁家尚未尘埃落定,但从用户规模、交互频次、停留时长等维度来看,AI应用热度持续攀升,已到应用爆发的黎明前夕。”
他进一步指出,大厂更有机会出现AI超级应用,因为它们的渠道建设能力更强,创业公司的难度相对比较大。
10.模型能力提升与风险预防并重,AI安全治理体系持续完善
在信息传播速度日益加快的当下,由AI系统引发的偏见、深度伪造、隐私泄漏、版权争议等问题丛生,社会对AI安全的关注度急剧上升。
与此相对应的,各个国家、组织在AI安全上持续投入,并进行了技术研究、治理框架、国际合作等多种形式的探索。2024年4月,联合国科技大会发布了两项大模型安全标准:《生成式人工智能应用安全测试标准》《大语言模型安全测试方法》,这两项国际标准由 OpenAI、蚂蚁集团、科大讯飞、谷歌、微软、英伟达、百度、腾讯等数十家单位的多名专家学者共同编制而成。
此外,蚂蚁集团自研的大模型安全一体化解决方案“蚁天鉴”已经开放给20家外部机构和企业使用。智源研究院发起并承办我国首个AI安全国际对话高端闭门论坛,与全球AI领袖学者及产业专家联合签署《北京AI安全国际共识》。
总的来说,基础模型在自主决策上的持续进步带来了潜在的失控风险,如何引入新的技术监管方法,如何在人工监管上平衡行业发展和风险管控?这对参与AI的各方来说,都是一个值得持续探讨的议题。(周小白)
“掌”握科技鲜闻 (微信搜索techsina或扫描左侧二维码关注)