跨越感官界限，多模态加速落地中|AI_新浪财经

21世纪经济报道记者董静怡上海报道

想象一下，当你走进一家智能商店，摄像头捕捉到你的身影，通过面部识别技术确认你的身份；同时，店内的语音助手通过你的声音识别出你的偏好，并推荐适合你的商品。这不仅仅是一个简单的购物体验，而是一个由多模态驱动的个性化智能服务。

“为什么要多模态？是因为真正的人在现实世界中解决问题的时候，他输入的信息本身就是多模态的，除了自然语言以外还有视觉、听觉、触觉，还有常识，所有这些是需要综合起来才能解决现实世界当中很多常见的问题。”智谱AI CEO张鹏向21世纪经济报道记者表示。

而多模态的应用远不止于此。在医疗领域，它能够帮助患者和医生分析医学文本、放射影像、病理图像等多种数据，更准确且更有效地诊疗各类疾病；在自动驾驶领域，多模态感知系统能够综合处理来自雷达、摄像头和传感器的数据，实现更加安全和高效的驾驶决策。

目前来看，多模态的发展是国内外共同的发力点。商汤科技研发总监卢乐炜向记者表示，尽管国外在多模态领域的研究较早，但中国在单点技术（如视觉和听觉识别）和产业应用方面具有优势，这为中国在多模态领域提供了与国外几乎相同的起点。

“多模态对中国来说是一个巨大的机遇，有可能在这个领域实现快速发展。”卢乐炜向记者表示。

热度高升

多模态大模型是实现通用人工智能（AGI）的关键步骤，它利用视觉、听觉等多种感知通道，模拟人类理解与表达信息的能力。理想中的多模态大模型具备跨模态的泛化理解和生成能力，更符合人类感知世界的方式。

“多模态一定是必然的，我们很早就认为多模态一定是大模型发展最关键的因素。”出门问问品牌总监高佳向21世纪经济报道记者表示，“Agent的输入和输出都要依赖于多模态，没有多模态就没有Agent。”

在刚刚过去的2024世界人工智能大会（WAIC）上，众多厂商推出或更新自己的多模态大模型，例如商汤科技发布国内首个实时的流式多模态交互模型“日日新5o”，交互体验对标GPT-4o，实现全新AI交互模式；蚂蚁集团也公布了其自研的百灵大模型最新研发进展，具备能“看”会“听”、能“说”会“画”的原生多模态能力，可以直接理解并训练音频、视频、图、文等多模态数据。

腾讯集团副总裁蒋杰表示，大模型行业正从最初的单模态向多模态过渡。“在文生图领域，最近效果比较好的是采用DiT架构的模型，它融合了早前主要用于文本生成的Transformer架构，并在图像和视频生成任务中展现出了显著的优势；在文生视频领域，视频生成正朝着更高分辨率、更长时长、更精细的方向发展，一些较好的模型已经能够生成长达数分钟高清的视频，带来了广阔的应用想象空间。”他表示。

目前，全球科技巨头正在积极探索并布局多模融合的路径，多模态大模型研发的脚步正越走越快。不过，从技术层面来说，多模态的路径面临的是更大的挑战。

正如其名，多模态大模型需要处理和整合来自不同模态的信息，如文本、图像、视频和音频等。卢乐炜向记者表示，“多模态之间语义表达方面是不同的，它们从数据角度不一样。”这些模态之间的语义对齐和信息融合是一个技术难点，需要模型能够理解不同模态间的内在联系并生成一致的输出。

以视频生成为例，视频是一系列图像的集合，加上音频轨道，因此它包含了更大的数据量和更复杂的信息。处理视频需要模型不仅要理解静态图像，还要理解动态变化和时间序列信息，这增加了计算的复杂性和对存储的需求。

卢乐炜认为，多模态大模型，特别是处理视频等大规模数据时，对计算资源和存储能力提出了更高的要求。为了克服多模态之间的数据和模态鸿沟，需要设计创新的算法来实现不同模态数据的有效对齐和融合。

另一方面，阶跃星辰创始人、CEO 姜大昕提出，多模态领域目前存在的问题是，视觉的理解模型和生成模型是分开发展的。其造成的结果就是理解模型的理解能力强而生成能力弱，或者生成模型的生成能力强而理解能力弱。因此，多模态大模型接下来面临的一项关键挑战，就是能否将理解和生成统一在一个模型里。

与文本和语言模型相比，多模态生成模型的发展还相对滞后，可能还处于类似于GPT-2阶段的水平。然而，这一领域的潜力巨大，未来的发展空间非常广阔。

落地端侧

多模态的大火，业内的注意力从有趣的单点应用转向了与产业和场景的融合。

“从今年的发展来看，多模态技术不再只是单纯的热点话题，需要更多地深入到实际的应用场景中，以解决具体问题。”卢乐炜向记者表示。

在AGI的发展过程中，如果系统仅依赖于语言处理，它接受的输入维度将相对有限，这限制了其对复杂场景的理解能力。考虑到应用的多样性，尽管文本和语言处理能够提供有力的支持，AGI的进一步发展需要更深入地融入实际应用场景。

一方面，AI将成为更智能的个人助理。正如蚂蚁集团展示的多模态技术可实现的应用场景：通过视频对话的自然形式，AI助理能为用户识别穿着打扮，给出约会的搭配建议；根据用户不同的意图，从一堆食材中搭配出不同的菜谱组合；根据用户描述的身体症状，从一批药物中，挑选出可能合适的药，并读出服用指导，供用户参考等。

另一方面，则是与行业和端侧的深度结合，如智能手机和汽车行业的智能化趋势。例如，智能手机用户可能希望通过拍照与设备进行交互，提出与图片相关的问题，在这种情况下，模型需要直接处理视觉信号并做出反馈；在自动驾驶领域，多模态大模型的应用已经展现出其潜力，通过整合视觉、雷达和其他传感器数据，提高了系统的理解和决策能力。

天风全球前瞻产业研究院联席院长孔蓉在日前接受21世纪经济报道记者采访时表示，在今年WAIC上，AI与硬件领域的结合带来了许多新产品，包括AIPC、AI手机、可穿戴设备、自动驾驶汽车和机器人等领域的AI应用是亮点，尤其对于PC和手机来说，AI产品的推出可能会在硬件或手机领域引发换机潮。

事实上，已经有众多硬件厂商在AI领域坚定投入，AI能力或许会成为硬件厂商新的竞争点。尽管目前市场上尚未出现人们期待中的爆款，但这并不意味着大模型的应用前景不明朗，相反，这正是一个充满潜力和机遇的时期。

进一步的，则是实现具身智能——即智能体能够像人类一样理解和思考真实世界——需要AGI能够处理和整合来自多种感官的信息。在业内人士看来，多模态学习是具身智能发展的关键因素，它可以增强智能体的感知和交互能力，并提高其任务完成能力、自主学习能力和泛化能力。

“把模型构建起来的虚拟世界和物理世界真实地连接起来，多模态可以有效地降低幻觉，这是它非常重要的一部分。”高佳向记者表示。

具身智能发展最高级的形态是人形机器人，这也是今年WAIC上的一大亮点。多模态大模型赋能人形机器人从单一任务的执行转向更通用的任务处理，提高机器人的自动化决策能力，使其能够结合多模态数据实现更复杂的动作和任务。

银河证券认为：“多模态大模型的快速发展将提升人形机器人的智能化水平，加快人形机器人产业化进程，2024年有望成为量产元年。”

不难看出，多模态的发展会是AI落地的重要一环。“我们期待AI能解决更多更实际的问题。”张鹏向记者表示，“要实现更高级的应用，需要结合跨模态能力，甚至更复杂的智能能力。”