机器人进入家庭还需要多久?媒体专访机器人公司加速进化副总裁赵维晨(2)

2025-08-26 11:34  澎湃新闻

以下是澎湃科技专访内容:

VLA算法未来三年内会被全颠覆

澎湃科技:足球赛对人形机器人有哪些技术挑战?

赵维晨:人形机器人必须先做到"四肢健全",再追求"心智健全"。有了强大的运动能力的支撑,大脑算法可以先用相对简单的分层模型落地应用,通过落地应用采集到真实场景的数据,结合合成数据,才能逐步训练出认知健全的大脑,这与人类的成长路径相似。

足球场景能锻炼机器人的运动能力、感知算法,比如识别球、队友和对手位置等、定位导航和决策逻辑,将来这些能力能迁移到家庭场景,譬如机器人能主动迎接、跟随,情感陪伴,充当互动教练,以及实现工业场景里精细的手部操作。

澎湃科技:实现无遥控人形机器人参与踢足球的难度有多大?

赵维晨:足球赛事对抗激烈,机器人需要强大的运控算法来抵御冲撞并保持平衡,摔倒后可在一秒内自主起身。我们率先应用端到端运动大模型,直接将视觉信号输入神经网络,输出关节控制指令,大幅提升运动泛化性和稳定性。第一个应用是大力射门:去年世界冠军最高踢到35厘米,我们能踢到2米,直接越过人墙。

澎湃科技:你们的训练数据主要来自哪里?

赵维晨:主要来自足球场景采集真实的物理数据,并结合视频合成数据,通过最新的模仿学习加强化学习实现视觉信号直接输入神经网络。

我们认为,遥操的数据体量无法支撑具身大脑的训练,目前视觉语言动作模型(VLA)算法还是基于大语言模型那套,未来三年内会被全新的底层算法体系颠覆。

澎湃科技:今年北京的世界机器人大会上关于视觉语言动作模型(VLA)有很多争议你们怎么看?

赵维晨:自动驾驶单日数据量可达上亿条,而全国具身最大的开源数据集规模才百万级别(不到10TB),大语言模型是靠几十年互联网上的文本数据累积,而机器人加上双轮双臂操作10万或100万小时,根本不可能训练出一个多模态具身大脑,只能验证早期算法框架。具身智能真正的路径与自动驾驶类似,先通过L1、L2、L3再落地收集大量真机数据,然后再逐步迭代到AGI。

技术层面,我们认为,视觉语言动作模型(VLA)不是最终解,它仍是基于Transformer的LLM逻辑。大语言模型迭代经历十多年海量语料,才形成如今的尺度定律(Scaling Law)。VLA模型总体依赖训练数据中的固定模式,需要海量标注数据才能"记住"固定场景,很难帮具身泛化。

现在所有的技术方案,未来三到四年一定会被颠覆,也会出现类似DeepSeek这样的鲶鱼效应、开源的方案。