3月17日,在2026GTC大会上,理想汽车基座模型负责人詹锟发布下一代自动驾驶模型MindVLA-o1,这款模型搭载3D ViT+多模态思考能力,让车辆真正具备理解3D空间的能力。李想表示,自动驾驶只是物理 AI 的起点,这套基座模型不只是为自动驾驶设计的。同一套VLA基座模型,能开车,也能控制机器人,它正在逐渐演化成一个通用的物理世界智能体。 针对物理世界AI进展缓慢的问题,今日李想指出核心是AI预训练缺失3D空间认知,多基于2D视频训练如同 “看视频学开车”,然后再到路上去开车。而 MindVLA-o1的3D ViT 融合视觉和激光雷达数据,还原完整3D空间信息,马赫100芯片提供算力支撑;多模态思考则融合语言推理与空间推演,还能预测未来场景变化。 据悉,今年年中3D ViT将与多模态思考能力结合,让模型拥有更完整的3D认知。#李想称机器人也用VLA##李想回应AI时代的焦虑#

海量资讯、精准解读,尽在新浪财经APP
VIP课程推荐
加载中...
APP专享直播
热门推荐
收起
新浪财经公众号
24小时滚动播报最新的财经资讯和视频,更多粉丝福利扫描二维码关注(sinafinance)
