给车装一个"脑内模拟器":小米汽车发布世界模型全新框架(2)

2026-05-26 15:51  头条

另一拨走纯三维重建路线。用传感器数据重建周围环境的三维几何,精度很高,能准确描述"现在是什么样"。但它做不了"接下来可能怎么样"的预测--就像一个摄影师能拍出极其精准的照片,但无法告诉你下一秒会发生什么。

所以行业一直在找一个能兼顾的方案。


小米的方案到底做了什么

小米这次发布的 Xiaomi Auto World Model,核心是两个模块的深度耦合。

WorldRec(重建模块)。用 sparse queries(稀疏查询)和 3D Gaussian(三维高斯表示)来锚定几何。通俗地说,就是先把物理世界的"骨架"搭准--路在哪里、车道线怎么走、周围的物体在什么位置,这些都用三维重建的方式固定下来,保证几何一致性。

WorldGen(生成模块)。在重建好的几何骨架上,用双向预训练(bidirectional pretraining)加因果微调(causal fine-tuning,4 步)来"填补想象"--基于准确的几何骨架,生成未来可能的画面。

这两件事分开做,都不新鲜。

新鲜的是把它们深度耦合在同一个框架里。

官方那句话的技术含义就在这里--"重建锚定几何"保证棋盘规则是准的,"生成填补想象"在准确的棋盘上推演各种可能的变化。不是两个模块简单拼在一起,而是一套统一的技术系统同时处理世界表征和世界生成。

这也是为什么它在 Waymo、nuScenes 这些主流 benchmark 上能拿到 SOTA。

(具体 benchmark 数字有待官方详细论文披露,目前官方口径是"全面 SOTA"。)


为什么说这个思路可能是对的

我认为世界模型的核心竞争不在生成质量,在几何一致性。这个判断不是凭空来的--我翻过几个开源世界模型项目的技术文档和实测报告,发现一个规律:凡是几何一致性差的,生成画面再好看,下游感知任务的错误率都高。我把它叫做"几何一致性优先法"--评价一个世界模型好不好,先看几何准不准,再看生成对不对,最后看一体化能不能落地。

还是回到那个下棋的类比。一个好的世界模型应该像一个棋手在脑子里推演棋局:棋盘规则必须准--车在马路上不能飞到天上去,这是几何一致性;推演变化可以灵活--前车可能刹车、旁边可能有车变道,这是生成能力。

纯视频生成的问题在于,它有时候会在棋盘上"变"出一个本来不存在的棋子。生成画面质量很高,但几何关系是错的。对人类来说一眼能看出"这路不对劲",但对自动驾驶系统来说,它可能就会基于这个错误的几何信息做出致命的决策。