理想辅助驾驶技术持续进化,VLA司机大模型可真正实现像人一样思考
理想汽车自2021年起自研辅助驾驶,从最早的2D、3D感知开始研发,到BEV(鸟瞰图)、NPN(先验网络)、无图,再到"端到端+VLM"双系统架构和如今的VLA司机大模型,一步一个脚印地完成了技术储备。
其中,"端到端+VLM"被视为区分智驾技术的分水岭。在此之前,NPN轻图、无图均是人工时代的技术,而人工时代的最大特点是"规则算法",需要工程师设计算法并编写程序,因此提升辅助驾驶性能依赖于工程师的能力和经验。
然而,从"端到端+VLM"开始,车企不再用传统的方式做,"端到端+VLM"架构的本质是模仿学习,指的是用人类驾驶数据训练模型,数据数量和质量决定性能。
不过,在自研"端到端+VLM"方案的过程中,理想又发现端到端在训练过程中遇到了性能增长放缓的瓶颈,因此又推出了VLA司机大模型。VLA不是简单地将端到端模型和VLM模型结合在一起。VLA司机大模型的本质是强化学习,具备自主思考的能力,用生成数据结合仿真环境训练模型,性能则由仿真迭代的效率决定。
需要指出的是,VLA司机大模型的诞生不只是为了解决性能方面的挑战。理想汽车董事长兼CEO李想曾表示:"端到端模型像猴子开车,它能够学习人类行为,但并不理解物理世界。因此也无法根据场景做出预防性判断。"
这些掣制到了VLA司机大模型阶段将不复存在。由VLA司机大模型赋能的车具备了感知、思考和适应环境的能力,从而真正实现像人一样思考的智驾:能够听得懂、看得见、找得到。