专用机器人的逻辑是软硬件深度结合,在特定场景下追求极致效率。而通用机器人的逻辑不同,有两种"通用":
一种是通过"通用本体+APP"的方式,类似iPhone,在不变更硬件的情况下通过增加软件功能来适应不同任务。单个本体加一个APP,可能看起来不值钱、不划算;但两个、三个,到五六个的时候,就会出现一个拐点,过了这个点,所有能力都会爆发。这就像手机一样:如果只打电话,那不需要手机;只记笔记,有商务通就够了;只发消息,BB机最划算。但当这些功能都集成到一个设备上,其他专用设备就消失了。
这是我们COSA的思路。简单地说,COSA是一个具有记忆、认知、感知和技能调度的复杂操作系统。它跟计算机操作系统还不太一样,计算机操作系统管理硬件资源,满足计算需求,而机器人操作系统管理包括肢体、电机在内的所有硬件,以提供能够改变物理世界的运动服务。它需要对话、语言、交互等等很多Agent的能力,最终是一个Agentic OS--就像豆包手机,你去跟豆包这个Agent对话,它就能够把所有你想干的事干了。未来机器人也是这样,最后是一个Agentic的操作系统,你跟它交互,它就能把所有事情帮你做了。
另一种"通用"是,机器人面向的是单一但极致的任务场景,但通过一个通用的基座进行组合与适配,从而在各个场景中都能实现最优效率。这是我们TRON 2的思路,比如在物流分拣中,可以用TRON 2组合出双臂形态,完成任务。这实际上是在不同功能场景中沉淀出一个通用的基座能力。
你去世界机器人大会看,那么一大堆机器人,千奇百怪、各式各样,大家都觉得有点内卷或者同质化,对吧?而TRON 2提供了一种新的可能,让大家意识到"还可以这样"。我们重新定义了一类机器人,并且有能力真正推动产业落地。从这个角度看,TRON 2的历史价值蛮重要的。我觉得,过几年回过头来看,能被时代记住的机器人,TRON2一定是其中一个。
"具身智能Post-Training时代开启"
Q:2026年,会有哪些具身智能的关键技术突破?
A:2026年将会是整个具身智能实现场景化落地的元年。技术上,最大的变量有两个:一是视频数据训练,二是强化学习。
视频数据这块,我们在2024年就开始关注从视频中学习可泛化的操作能力。25年初发布了VGM。现在摇操真机数据非常低效,无法scale,整个具身智能领域又开始关注视频数据,尤其是第一视角视频。Eco-centric视频应该是预训练里最大的变量。
关于数据,我补充一句,我管数据叫"矿产",其中的智能是"金子"。关键不在于矿石本身,数据到处都有,而在于你是否掌握"冶炼"技术。能用真机数据训练模型是最简单的"冶炼"技术,哈哈。
第二方面,从具身智能"大脑"能力来看,VLA已进入预训练尾声,具身智能开始转向Post-Training(后训练)阶段。预训练主要依赖遥操作、数据采集和模仿学习,而后训练则类似大模型的RLHF,需要依靠真实场景数据和强化学习来实现。
强化学习是我们的重要技术栈,在这块我们有很多积累。后训练的关键在于模型在真实场景中要能"越用越好",这依赖于持续收集场景数据并通过强化学习优化,我们叫"真机强化学习"。具身领域的Post-Training甚至比大语言模型还重要,因为具身智能预训练的数据本身很少,必须让模型在具备一定泛化能力后,快速进入真实场景收集数据,通过真机强化学习进行迭代,形成"基座模型"与"场景数据"之间的飞轮。我们不能等一切都准备好了再开始,必须让这个飞轮在场景里先转起来。真机强化学习是另一个比较令人兴奋的东西。
"看重有成长欲望、开放、充满好奇心的人才"
Q:现在具身智能行业的人才争夺战非常激烈,逐际动力靠什么吸引并留住顶尖的人才不被挖走呢?
A:需要靠文化、靠你的价值观,肯定不是靠纯"堆钱"。现在市场薪酬在提升,你必须达到合理标准,这是有目共睹的。但很多人其实更看重的是在这里能学到什么、做出什么,大家在乎的是技术挑战、成长空间和真正的成就感。钱是基础、是及格线,但更重要的是技术氛围、学习机会和一起成事的可能。这才是我们看重的。单纯靠钱竞争是比较初级的做法。我做得还不够好,今年会重点关注文化建设。
Q:逐际动力在招聘过程中最看重候选人的什么特质?
A:靠谱、聪明、有上进跟成长的欲望。而且需要有好奇心和开放,不然个人过往经验对初创公司很可能是负资产,是包袱。
Q:你在中美两国都从事过机器人研究或者创业,从你的角度看,两国有什么差异吗?
A:具身智能这块,美国没优势。美国可能比较擅长原始Idea的创新,但具身智能从概念到整个落地的环节太长了,包括整个产品化设计、量产、制造、用户、市场,这些中国是更快的。纯AI的东西,如果不需要这么长链条的迭代,那美国可能还有一些竞争力,凡是带点硬件的东西,中国肯定跑得快很多。
举个例子,如果比亚迪和特斯拉当年同时起步做电动车,技术都一样,特斯拉甚至还开源,那今天还会有特斯拉吗?很可能不会。现在的具身领域,情况就类似这样。
Q:如果给2026年的逐际动力设定目标,会是什么?
A:人形的目标是去掉遥控器,完成几个场景的PMF(Product-Market Fit)验证,会推出新品,构建有特色的产品矩阵。技术层面,具身Agentic OS是重点,集合大小脑模型能力和系统能力。我们希望TRON 2成为具身智能科研探索和场景落地的通用基座,可能相当于英伟达的算力平台之于AI,成为大家的最佳选择。
具身智能是中国更可能在全球领先的行业之一,我们需要什么样的企业?
回看逐际动力的几次关键选择--从全尺寸人形,到通用基座,再到具身智能体系统--会发现他们在不断努力为这个新兴行业开路。在一个容易跟风、容易内卷的赛道里,逐际动力选择做创新的事,做面向真实场景的产品。
张巍的判断也很清醒:具身智能的竞争,不是模型崇拜,也不是技术参数堆砌,而是从技术到产品、从场景到规模的正循环。
如果说这个行业未来会留下少数真正有历史意义的公司,那一定不是跟随者,而是那些定义新范式、创造新物种、干实事的人。
引用张巍的一句话:只有敢于原始创新,才会被时代记住。










