小米造“人”比特斯拉还快:首款全尺寸人形仿生机器人 CyberOne 发布(2)

2022-08-12 16:50  量子位

总体来看,极致运动能力非 CyberOne 的目标。

CyberOne 更多的采用了以高性能、小型化电机为主的干系统作为运动能力支撑,并没有过多的使用机械性能当下更强大的液压湿系统。

这种选择上的倾向还是较为激进的,迎合了新能源时代下例如智能汽车从湿系统逐步替换成干系统的大趋势。

传感器方面,CyberOne 对外界信息获取来自听觉和视觉。

深度相机配合 AI 相机帮助机器人收入真实场景和物体,通过 CV 算法获得物体三维模型实现避障,自带小米传统艺能「万物追焦」技术,让 CyberOne 能够集中注意力看关键物体。

听觉传感器配合音频算法可识别6 类 45 种人类情绪语音,外加85 种环境音识别。

你大概好奇环境音识别有什么用?小米工程师举了一个有趣的例子--

离家前忘关水龙头?它就能识别滋滋水流声并提醒你。

据了解,CyberOne 还实现了「拖动示教学习」这项特别的功能。

所谓拖动示教学习,就像是父母手把手教你第一次学会用上了筷子。

这动作对人来说简单,但对机器就难度很大了。不仅要求硬件机械臂是「活」的,可被移动,反驱的形式对关键部位电机性能要求更高,也是小米团队最初要求的关键指标。

除此之外,机器人还要通过传感器和软件层能够记忆学习动作,重复执行,工程师们希望通过该功能实现,让机器人模拟人的学习过程。

看到这,大致能得出些不吹不黑的结论--

小米新发布这个人形机器人的确挺像样,不仅外观,其各方面组件的确满足人形机器人要求。

无论行动速度,还是抓握力,再到突出的交互能力和 AI 算法对环境语义的识别判断,能看出这台 CyberOne 更面向 / 服务于人本身。

不管怎么说,小米居然不声不响,闪亮登场一个全尺寸人形仿生机器人,还是出乎了所有人意料。

人形机器人,有多难?

人形是解决综合问题最高效的形态之一,是机器人领域公认的终极方向,同时也是技术难度最大、需要投入最多的。

毫不夸张的说,全尺寸人形仿生机器人是" 机器人皇冠上的明珠 "。

原因也不难理解。

身体结构上,人类双足直立行走、双手操作工具都是历经上百万年进化而来,靠的可是自然选择的力量。

想用完全不同于生物的一套材料、靠人为设计去模仿逼近,工程难度可见一斑。

行为和决策上,人形机器人要做到和人一样、解决复杂问题问题,这就就需要做到对环境的全面理解,需要多模态结合的推理和交互,除了视觉、听觉,还要考虑更不成熟的嗅觉、触觉等。

最后还有点现实原因,人形机器人行业还没有机器狗那么成熟,不要说开源方案了,连论文都没有几篇可以参考。

小米人形机器人项目的负责人向迪昀表示,这次难度和去年的机器狗铁蛋不在一个 level 上。

看上去理论似乎很健全,但怎么做、技术如何演进,谁也没有正确答案。

纵观目前市面上成熟的项目,从产品迭代路线来看大概能分4 步:先做下半身站立,到下半身行走,组装上半身,最后是全身的动作协同。

小米则通过在智能制造和之前 CyberDog 机器狗项目上的技术积累,最终决定下半身和上半身并行推进,项目进展较快。

机械方面对应人类行为的执行部分,一般由小脑控制。但如果只做到拟人运动能力,充其量可以称之为机器。

只有拥有了感知 - 认知 - 执行的大脑能力,才真的称得上机器人。而大脑能力也是仿生人形机器人的技术制高点。

从已公开的信息来看,CyberOne 首先拥有空间感知、认知能力。

CyberOne 搭载自研 Mi-Sense 深度视觉模组,结合 AI 交互算法,使其不仅拥有完整的三维空间感知能力,更能够实现人物身份识别、手势识别、表情识别,CyberOne 真正做到了不仅看得到也能看得懂。

但相比于机器狗,人的世界中信息量级堪称爆炸。就以简单的路径规划为例,目前最全面、技术难度最高的路径规划为自动驾驶路径规划。

智能汽车路径规划除了解决机器人从 A 点到 B 点外,还需要在过程中针对各种情况进行语义标定,例如停止的障碍车辆、地上的行车线、运动中的行人等等,从而对其作出预判,保证安全舒适行车。