给车装一个＂脑内模拟器＂：小米汽车发布世界模型全新框架

2026年05月26日，小米汽车正式发布了 Xiaomi Auto World Model 世界模型全新框架。这是我对这次发布的技术拆解。

自动驾驶行业争了这么多年，核心问题其实就一个--车到底能不能"理解"物理世界，而不是只会"条件反射"。

看到小米这次发布的世界模型框架时，我的第一反应不是看 benchmark 数字，而是先看架构设计。盯自动驾驶和世界模型这条线也有一段时间了，看完官方论文和几篇技术复盘，我一直在关注一件事：各家说的"世界模型"到底是在炫技，还是真能解决工程问题。

小米这次的方案，给出了一个我觉得值得认真对待的答案。

官方给的定义很精炼："重建锚定几何、生成填补想象"。这是小米首次将三维重建与视频生成深度耦合的一体化架构。在 Waymo、nuScenes 等主流基准测试上全面 SOTA，已经落地合成数据、仿真和驾驶学堂三大场景。相关的技术论文也已经挂在 arXiv 上（编号 2605.18137）。

但比成绩更重要的是，这个思路可能指向了自动驾驶世界模型的一个正确方向。

先搞清楚"世界模型"到底在争什么

先说一个大多数人没说清楚的事。

世界模型不是"更聪明的感知系统"。它的核心任务是在车的"脑子"里建一个可以推演的物理世界沙盘--不是死记硬背地图，也不是简单识别眼前的物体，而是能在脑子里模拟"如果我现在左转，接下来 5 秒会发生什么"。

用一个不太恰当但很好理解的类比：就像棋手下棋之前会在脑子里推演几步。好的世界模型就是那个推演能力。

但现在的问题是，行业里做世界模型的路线分成了两拨。

一拨走纯视频生成路线。给模型看一段驾驶视频，让它预测接下来会生成什么样的画面。小鹏之前发布的 X-World 就是这个方向。画面确实好看了，但有一个致命问题--几何幻觉。模型生成了一辆实际不存在的车，或者把路的走向"想象"错了，感知系统就会基于这些幻觉做出错误的驾驶决策。

画得好看不代表画得对。在自动驾驶这个场景里，"对"比"好看"重要一万倍。