2026年了，还争VLA和世界模型哪个更好吗，应该没必要了吧

智驾行业最近又吵了起来。

这两天，在上汽大众的ID. ERA技术发布会上，Momenta CEO曹旭东正式宣布他们的Momenta R7强化学习世界模型即将推出，并会全球首发搭载于上汽大众全新旗舰SUV ID.ERA 9X。

继去年推出基于强化学习的一段式端到端大模型后，曹旭东在新一代模型的打造上选择了世界模型+强化学习的路线，就此世界模型路线除了华为乾崑为代表的玩家之外，又加一员。

与此同时，理想汽车在这两天的GTC大会上发布了他们的新一代自动驾驶基座模型MindVLA-o1。

按照理想基座模型负责人詹锟的介绍，该基座模型通过六大技术创新，构建了面向物理世界智能的自动驾驶基础模型，从而让自动驾驶看得更远、想得更深、行得更稳、进化更快、部署更高效。

这一两年，理想在智驾技术上的迭代一直保持着很快的速度。从2024年推出端到端+VLM双系统模型，再到去年将空间理解、语言理解与行动决策统一到同一模型框架——VLA司机大模型，再到今年的MindVLA-o1，可以说保持着一年一代模型的迭代效率。

同是VLA阵营的小鹏汽车，在前不久他们的第二代VLA正式发布并开启量产上车，距离他们推出第二代VLA仅过去了4个月，相比于传统VLA架构他们率先提出了去掉两次显性转译过程的新VLA架构。

随着这两年理想、小鹏和元戎等玩家把自身的算法架构从端到端逐渐演变为VLA模型架构；与此同时，也有华为乾崑等玩家选择了更注重对于现实世界理解的世界模型架构。

就此，整个智驾行业就开始争论VLA和世界模型的孰优孰劣，两个阵营的拥趸都认为自己坚持的路线会成为智驾行业的终局。毕竟在理论上，这两条路线都有各自的短板。

再加上Momenta押注世界模型，理想、小鹏和元戎启行加速优化VLA模型的当下，让这样的争论变得更加热闹。但在飞说智行看来VLA和世界模型这两条技术路线本身或许并不对立。

1、只有分工不同，没有绝对对立

传统VLA存在着明显的挑战。

首先是理解3D空间环境、语言思考和推理输出具体驾驶行为轨迹这三件事的对齐效率不高；再则是还存在长尾场景的问题；最后是VLA模型往往包含着LLM的能力，由此会带来较高的计算和内存成本。

为了解决这些问题，理想他们提出了MindVLA-o1。该模型是一个原生多模态的MoE Transformer。这就意味着，该模型具备了视觉、语言和行动等多模态统一训练和对齐，以及较强泛化的能力。

其中在感知上他们引入了3D ViT Encoder，就能更早地融合LiDAR数据和视觉数据，在编码阶段直接构建3D空间表示，使模型更自然理解现实世界的物理空间结构。

并且，他们还引入了前馈式的3DGS表示（Feedforward 3D Representation），来提升模型对环境的理解。

对于高阶智能驾驶乃至自动驾驶，仅能理解当前环境是不够的，还需要做到对世界的预测。行业基本会想到用几十B参数量的世界模型来做，但这样规模量的模型又很难在车端运行，随之无法让车端得到“预测”的能力。

对此，理想他们在引入"下一帧预测（Next-state prediction）"作为训练过程中的自监督信号和为多模态推理保留语言能力的同时，还采用了预测式隐世界模型（Predictive Latent World Model）。

雅阁汽车更多>>