从特斯拉10万卡集群上线，聊聊纯视觉智驾有多难|特斯拉_新浪财经

7月22日，马斯克在推特上宣布，x.AI由10万张H100组成AI训练集群上线，这是全世界目前最强的AI训练集群。

光是这10万张卡本身，就需要40亿美元的资本投入，再加上惊人的电耗、散热管理以及卡间通信的成本。

到2024年，AI公司进入第一梯队的门票可能进一步提升到10万张卡这个量级。

AI公司的突围成本，正变得越发巨高无比。

在智能驾驶领域，特斯拉的纯视觉智驾独树一帜，国内也只有极越等少数汽车品牌能够跟进，超高的算力、数据、算法门槛决定了纯视觉只能是「少数玩家的游戏」。

激光雷达的核心原理是运用回波时间测量法，绘制出周边物体的点云，激光点云包含的信息精度高，但信息的维度有限。

纯视觉则类似于人眼，其获取的信息十分丰富，并且车端的成本更低。但采用纯摄像头作为数据输入，距离识别，尤其是纵向距离的精度提高非常困难。同时，摄像头的输入也容易受到光照等环境影响，在逆光、大雪遮挡的情况下会造成辨识困难。

就连特斯拉的前AI高级总监Andrej Karpathy早些时候也在演讲时表示：「纯视觉能够精准感知深度、速度、加速度信息，实现纯视觉是一件困难的事情，需要大量的数据。」

好在，随着AI技术的发展，基于人工智能框架和大模型，纯视觉方法对三维环境的识别能力已有大幅提升。

不过，相应的代价，是这套流程需要强大的算力。

前文提到，建立一个10万卡的AI训练集群，光买下这10万卡的集群，就需要40亿美元的投入。

而从能耗角度，10万张H100的功耗是150MW（兆瓦）。作为对比，目前最大的国家超级计算机El Capitan只需要30MW的功率。

更何况，这些AI集群之间通过光通信连接，距离越远，光通信的成本也越高。

这也是为什么，特斯拉不仅部署了超级算力中心，还于去年正式投产了特斯拉的Dojo，后者是特斯拉自研的超级计算机。

据公开数据，特斯拉每个Dojo都集成了120个训练模块，内置3000个D1芯片，拥有超过100万个训练节点，算力达到1.1EFLOP（每秒千万亿次浮点运算）。

特斯拉基于自研芯片的算力集群，一个ExaPod 1.1 EFLOPS

此外，特斯拉预计，2024年10月特斯拉的算力总规模将达到 100 Exa Flops ，相当于30万块英伟达A100显卡的算力总和。

今年3月，特斯拉推出FSD V12更新，整个系统中端到端的算法几乎全部采用神经网络构建，灵活度非常高、应变能力强，并能以高度拟人化的状态驾驶。

但光有算力就够了吗？显然不是。纯视觉技术路线的主要「成本」，除了算力之外，还包括算法和数据。

视觉算法需要海量的数据进行训练。算力可以砸钱堆砌，但算法和数据，却很难坐等「拿来主义」。因此，纯视觉方案，对于追赶者具有极高的门槛。

而在国内造车新势力中，背靠百度的能力，由集度主导智能化研发的极越01在纯视觉智能驾驶的路线中走在市场前列。

在谈到为什么要押注纯视觉方案时，集度（极越）汽车CEO夏一平曾表示：因为这是最为类似人类驾驶的方案，人眼看到的图像和视频包含了大量的场景信息，机器也可以从图像中获得最为丰富的信息，通过这些信息，机器只要能够识别图像中的相关语义，就可以做出准确的判断，并且覆盖范围更广。

而更深层次的原因，其实也包括纯视觉方案相对激光雷达方案对硬件要求低，对AI能力要求高，因此，只要AI算法一直升级，它的智驾能力就能一直升级，智驾系统就能越来越像人类老司机，能自主理性决策，更人性化，所以它的上限更高。

这也是为什么夏一平会喊出「五年内不过时」的内在逻辑。

「这样的技术路线选择，其实是为了将来能够让智驾能够更加快速普及，做的一个非常大的决定。」

极越其采用的纯视觉方案，以自动驾驶视觉大模型VTA（Vision Takes All）为底座，大幅升级包括动静态检测、时序跟踪、实时建图、场景理解等能力。

硬件上，由集度主导智能化研发的极越01全系则配置了大算力智驾芯片，搭载2颗OrinX，除此之外，还有百度为其智驾训练提供的2.2 EFlops的云端算力。事实上，基于百度Apollo纯视觉高阶智驾能力和安全体系赋能，极越完成了OCC占用网络升级。

去年10月，极越在国内第一个用了BEV+Transformer的纯视觉方案，而后在今年1月又是国内第一个应用了OCC占用网络技术，形成了“BEV+OCC+Transformer”纯视觉方案的“完全体” 。

其中，OCC占用网络这个技术的原理是感知摄像头将周边环境的物体3D化，将物体识别为网络中的一个个“体素”，感知系统只要对网络体素是否被占用进行识别，这样就能对3D物理空间的可通行区域进行高保真度还原。

依托这套比激光雷达点云分辨率更高的三维结构信息，OCC占用网络还能减少漏检、误检并弥补视觉所不具备的空间高度信息，突破能力上限和提升安全保障的同时，完全替代了激光雷达，大幅提升了泛化能力。

由此，在搭载了OCC占用网络技术后，极越能够实现障碍物精细刻画，3D精度可以做到厘米级，轻松比肩激光雷达精度。

过去一段时间，坊间习惯性将纯视觉路线视为车企的降本之举。诚然，对比激光雷达的硬件成本，纯视觉方案的确要「省钱」不少，但其实，藏在纯视觉方案背后的软件成本，却要大幅高于激光雷达方案。

对车企而言，只要愿意掏钱，激光雷达方案可以轻松上车。但纯视觉方案却不行。

而极越的优势，来自于百度的技术赋能。在纯视觉智能驾驶相关的技术指标上，百度在算力、算法、数据这三个关键领域都有着深厚积累。

首先是算力，百度已为智能驾驶在建立了超过2.2 EFLOPS高算力训练集群。

其次是算法，百度Apollo拥有10多年的L4级自动驾驶技术研发积累。

而国内其他车企的应用方案目前都是L2级，虽然都在发力L3级乃至更高级别的自动驾驶的研发工作，但相比已搭建起L4级别自动驾驶大模型、并成熟落地应用的百度而言，技术差距是显而易见的。

最后是数据方面，百度Apollo的自动驾驶里程已经超过1亿公里，未发生过重大伤亡事故，这些都是高质量的L4级别自动驾驶数据积累。同时，通过萝卜快跑、极越汽车等品牌，百度还在持续迭代数据规模。

目前，百度不仅拥有海量L4级别高质量实际行驶数据，还形成数据资产管理、自动化数据产线等一系列的体系化能力。目前国内其他车企也还做不到这样的数据能力。

而这些百度所独有的技术优势，无疑将毫无保留地在极越品牌身上得到体现。

作为全球领先的AI大模型公司，也是自动驾驶技术领军企业，百度拥有10余年L4级自动驾驶技术研发和创新应用经验。同时，百度Apollo已形成海量的数据资产管理，建立了百亿参数的视觉大模型、高标准的自动化标注产线、超过2.2 EFLOPS高算力训练集群，为AI算法升级提供持续动力，同时赋能极越和萝卜快跑的智驾能力高速迭代。

正是在百度智驾能力的加持下，极越汽车的智驾表现才站在了第一梯队，比肩特斯拉，成为中国纯视觉智驾方案的领跑者。

值得一提的是，国内不少车企都从今年开始跟进布局纯视觉智驾的路线，包括小鹏汽车今年的新车，以及蔚来子品牌乐道在内。

随着极越以及特斯这两家领航者的持续推动，未来不排除越来越多的车企会加码纯视觉的阵营。