
图片来自JOHN MADERE/GETTY IMAGES
“打是疼骂是爱”,当人类“粗暴”的将物体从机器人手中敲掉,看似残忍,实际上却能帮助机器人找到最好的握持物体的方法。
几年前,日本的研究人员让一个机器人在商场里自由活动,并观察孩子们的反应,这可能是有史以来最伟大的机器人实验之一。当孩子们开始踢打机器人并给它起外号时,原本期待孩子们会有惊奇感觉的心情,瞬间转变成对下一代的关心。
我们称之为非建设性批评。但也许孩子们在想“也许我们应该挑战这个机器人”,虽然是以一种更具建设性的方式,而不是在机器人学习导航时总领着它们的手。为此,南加州大学的研究人员表明,在模拟训练中,你可以通过尝试将物体从机器人手中敲出,给机器人“强悍的爱”,这实际上会帮助机器人更好地学会握持物体。
这个实验完全是在模拟中进行的,就像现在很多机器人的训练一样。在数字环境中,机器人经历一种被称为强化学习的机械式反复试验。该环境模拟了摩擦等变量,机械臂尝试使用不同的抓力一遍又一遍地抓取对象。如果它试出一个很好的力,系统把这算作一次胜利,如果它做出什么愚蠢的事情,系统就记为一次失败。经过多次尝试,机器人就能学会是什么构成了稳健的抓取。

在与人类“对手”一起训练之前的模拟机器人,图来自南加州大学维特比工程学院
但这里面出现了一个所谓的对抗性人类“演员”,一种附加的信号。如果机器人找到了一个好的抓取点,人类就会用一个图形界面点击它所抓取的物体,并向某个方向施加力。这种干扰基本上能测试出抓取的效果到底有多好,并帮助机器人排除效果较差的抓取。
南加州大学机器人学家斯特凡诺斯·尼古拉迪斯(Stefanos Nikolaidis)在一篇描述这项工作的新论文中说:“机器人学会了利用人类提供的额外信号更有力地抓取物体,但也学会了更好地迁移到新物体。更确切地说,当一个人给机器人以‘粗暴的爱’时,机器人的抓取成功率为52%,而没有这种‘粗暴的爱’时,成功率为26.5%。”

在与人类对手进行了大约20分钟的训练后,机器人能够更频繁地抓取物体,而且它的抓取能力也更能抵御干扰,图来自南加州大学维特比工程学院
现在,这里有一些重要的警告。首先,模拟必然是不完美的模型,因为没有办法完全复制现实世界的所有物理性和不确定性因素。因此,将机器人在模拟中所学到的知识移植到物理机械臂中仍然非常困难,这就是所谓的现实差距。第二,这并不是“随意粗暴的爱”,因为人类参与者也是在遵循一定规则和约束下工作的。
尽管如此,实验表明“挑战”机器人相比不断地“溺爱”机器人是有好处的。对于像抓取这样复杂的问题尤其重要,因为仅允许很小的出错空间。尼古拉迪斯说:“如果我们想让机器人在外面帮助各种残障人士,我们不希望它们10%的时间都在打破东西。”















