泓君:你觉得像你这样的一个研究科学家大概一天能收集多少这种遥操的力的数据呢?
齐浩之:这个其实很取决于我想要什么样的任务。假如说我现在最简单的用这个手去抓取一个东西放到另外一个地方,这个其实可以收集很多,只要我不累,我就可以一直以很高的成功率收集这样的数据。
但是比如说一些更难的任务,比如说我现在要去遥操作一个机器人去用剪子剪窗花或者折纸这种,即使是收集一条都非常难。这个也是我们在做算法的时候,想要去解决的一些任务,就是这种很难去采集数据的任务,能不能用一些其他的算法上的突破去解决?
泓君:所以现在大家主流的方案是跟着视频学。
齐浩之:对,大家现在有不同的探索路径,视频是其中一条很多人在研究的路径。还有就是用模拟器作为路径。还有一种就有点像最近出的Sunday和Generalist,就是用一些特定的设备去采这样的数据,然后把它转化成机器人可以用的数据。

图片来源:Sunday Robotics
泓君:这个其实是从数据不同的收集方式来训练模型的角度去考虑的。我们说遥操它的数据量小,但是它的数据质量非常高,视频的数据可能缺乏了很多比如说力的这些信息,但是它的优点是多,哪一种效果是好的?就是现在这个事情业内有共识吗?
齐浩之:如果对于一个公司来说,他们还是用遥操作的比较多,因为他们需要追求绝对的效果。用视频数据很多人在研究,但是我觉得它是一种研究的阶段,包括特斯拉最近也发布了他们用人类视频学到的一些操作的视频,但是我觉得从绝对的能力来说还是不如遥操作的。之所以在这种情况下还要研究视频,是因为大家相信可能在未来的几个月或者一年或者更久,当视频的量积累到了一定程度之后,它的能力可以超过遥操作。但是应该不是此时此刻。
泓君:可能它追求的东西是不太一样的,精确性就是还是需要遥操的数据,泛化性可能视频也很重要,我不知道我的总结对不对。
齐浩之:对,我觉得可以这么理解,不同的数据它有不同的特征,有的数据就是能让你得到一个比较快的能力上的提升,但是它比较难采集,然后有一些数据是很容易采集,但是大家如何最好地利用它也没有一个定论。
我们业界研究的时候会有一个金字塔这样的模型,比如说遥操作,它就在金字塔尖,它的量比较少,但是很有用,视频的数据可能就在金字塔的底座,就是它非常的多,但是它并不是最能够提升机器人效果的这一个数据。
中间部分有各种各样,比如说有机器,比如说有仿真。
泓君:对,我记得之前我有在一个活动上跟很多像DeepMind、OpenAI的这些科学家也讨论过,问大家什么样是他们喜欢的方式。那天正好其实是Genie3这个世界模型刚出来,我发现大家分成两派截然相反的看法,一派是觉得Genie3对整个的机器人行业帮助不大,不是一个很重要的事情。但另一派就会觉得这个事情很重要,它可以帮助训练机器人。
齐浩之:我觉得从做研究的角度来看,我肯定是觉得这种新的基础模型肯定是有帮助的,只是我们需要找到方式最好地利用它。说它完全没用,肯定有失偏颇,但是我觉得说它我们只需要去训练一个很大的视频生成模型,它就能解决机器人,其实也是不现实的,因为很简单的道理就是现在的视频生成还没有完全解决它的物理的真实性。










