4 分钟对打 300 多次，谷歌教会机器人打乒乓球

想打乒乓球，可以找机器人陪练了。

让一位乒乓球爱好者和机器人对打，按照机器人的发展趋势来看，谁输谁赢还真说不准。

机器人拥有灵巧的可操作性、腿部运动灵活、抓握能力出色 …… 已被广泛应用于各种挑战任务。但在与人类互动紧密的任务中，机器人的表现又如何呢？就拿乒乓球来说，这需要双方高度配合，并且球的运动非常快速，这对算法提出了重大挑战。

在乒乓球比赛中，首要的就是速度和精度，这对学习算法提出了很高的要求。同时，这项运动具有高度结构化（具有固定的、可预测的环境）和多智能体协作（机器人可以与人类或其他机器人一起对打）两大特点，使其成为研究人机交互和强化学习问题的理想实验平台。

来自谷歌的机器人研究团队已经建立了这样一个平台来研究机器人在多人、动态和交互环境中学习所面临的问题。谷歌为此还专门写了一篇博客，来介绍他们一直在研究的两个项目 Iterative-Sim2Real（i-S2R）和 GoalsEye。i-S2R 让机器人能够与人类玩家进行超过 300 次的对打，而 GoalsEye 则使机器人能够从业余爱好者那里学习到一些有用的策略（目标条件策略）。

i-S2R 策略让机器人和人类对打，虽然机器人的握拍姿势看起来不太专业，但也不会漏掉一个球：

你来我往，还挺像那么回事，妥妥打出了高质量球的感觉。

而 GoalsEye 策略则能将球返回到桌面指定位置，就和指哪打哪差不多：

i-S2R：利用模拟器与人类合作进行游戏

在这个项目中，机器人旨在学会与人类合作，即尽可能长时间地与人类进行对打。由于直接针对人类玩家进行训练既乏味又耗时，因此谷歌采用了基于模拟的方法。然而，这又面临一个新的问题，基于模拟的方法很难准确地模拟人类行为、闭环交互任务等。

在 i-S2R 中，谷歌提出了一种在人机交互任务中可以学习人类行为的模型，并在机器人乒乓球平台上对其进行实例化。谷歌已经建立了一个系统，该系统可以与业余人类玩家一起实现高达 340 次击球对打（如下所示）。

人与机器人对打 4 分钟，来回多达 340 次