为什么说机器人的“手”超难做？聊聊灵巧手的硬件与算法

虽然我们每年都看到它在物理层面上有越来越多的进步。但是我想我之前比较爱举的一个例子是说，假设我们能够靠学习视频模型把这个预测物理世界会发生什么解决，那这也就意味着我们可以训练这个语言模型，让它能够没有Hallucination（幻觉）。因为它相当于学到了一些真实数据的物理规则，而并不是说去简单地过拟合这个数据。

所以我觉得语言模型我们现在仍然没有解决Hallucination，那我觉得距离视频模型学到真正的物理世界的规律还是任重而道远。所以我们不能完全依赖于视频模型去训练我们的机器人，但是它可以提供一些很好的初始化也好，或者是一些其他方面的信号，就都是可以有帮助的。

泓君：还挺有意思的。你们觉得实现手部的灵巧动作，我们就说开可乐，回到开始的问题，有多难？它到了一个GPT3时刻吗？

陶一伟：说不定我觉得还的确是，如果机器人能够真正做到开可乐，是很好的一个benchmark（基准测试），达到了GPT时刻，我认为因为它的确是灵巧性的综合能力的考量。

齐浩之：对，我可能想稍微说远一点，举一个例子，比如说我们看20年前其实就有一些能跑步的机器人，就是本田，就是Honda的ASIMO，它已经能在舞台上很好地跑步、上下楼梯。就有很多质疑的声音说，为什么我们过了20多年，这个人形机器人也就能达到20多年前的水平？这其实涉及到一个问题，就是有多简单能够达到这样的水平。现有的算法是可以很容易，当它达到了跑步，然后你就稍微改一些东西，它可以很容易地达到跳舞，这个跟20年前让一个机器人跑步可能需要很多高精尖的团队一起负责迭代几个月或者几年是完全不一样的。

所以我觉得如果我们未来有一个算法，这个算法框架本身确定了以后，它可以用很短的时间让机器人开可乐，它还可以让这个机器人做开门、拧螺丝这样各种各样的任务，那我觉得确实就是GPT时刻了。

泓君：我们离这样的一个时刻有多远？

齐浩之：这个预测总感觉会被打脸，我觉得可能还有3-5年。

泓君：那这个比我想象中快太多了。

陶一伟：我觉得从硬件的角度、产品的角度，应该是今年内就会有产品能够满足这样的能力。

泓君：你是说在任何场景下开一罐可乐，机器人也可以旋转它、随便放，就是自主操作，不是遥控。

陶一伟：可以这么说。我认为硬件是非常快能够达到这个。的确，硬件是相当于给整个机器人行业提供一个基石，更多它的上限的天花板，要靠软件和背后的模型能力的提升来释放出整个系统的能力的。

齐浩之：据我观察，最近这两年灵巧手实现了一个井喷式的飞跃，感觉有一个非常光明的未来。

第一方面就是市场上来说，人形机器人火起来之后，大家首先更容易有一些硬件，更容易有一些能够做复杂硬件的厂商，然后他们去做灵巧手以及人形机器人。

其二就是有很多比较简单的本体，像是轮式或者说平行夹爪，它们在科研问题本身做得也比较开始大同小异了，就是没有一个新的爆点。所以大家正在探索在更复杂系统上如何迭代算法，也就是灵巧手和人形机器人。

我觉得这两点共同促进了整个研究行业的发展。

泓君：好的，非常期待。今天聊得非常精彩，谢谢两位。

为什么说机器人的“手”超难做？聊聊灵巧手的硬件与算法(17)