强化学习帮助机器人解决魔方问题
2022年2月7日整理发布:去年,著名的旧金山人工智能实验室 OpenAI 推出了 Dactyl,这是一种可以处理各种物体的机械手。本周,Dactyl 展示了它的新技巧:用一只手在四分钟内解决魔方。
在过去的几十年里,机器人产业取得了巨大的进步。但是复制人手的能力仍然是一个挑战。近年来,由于 深度学习 和 人工神经网络的进步,科学家们已经能够更接近于创造机械手。
在这方面,Dactyl 的最新壮举非常了不起,尽管它看起来摇摇欲坠且笨拙。学习处理魔方表明机器人和人工智能的研究已经取得了多大的进展。但它也提醒我们当前人工智能技术的局限性以及我们必须走的路还有多远。
OpenAI 在一篇 长篇博文 和一篇更长的 论文中展示了它的新研究。
在模拟环境中训练 AI
OpenAI 机械手的主要创新不是它解决魔方的能力。已经有很多机器人可以 在一秒钟内完成,尽管它们看起来一点也不像人手。真正的挑战是像人类一样去做。
为了学习像人类一样操纵立方体,Dactyl 使用 强化学习,这是人工智能的一个分支,通过反复试验来发展行为。经典的 AI 方法需要人类工程师明确地对机器人必须做出的每一个动作进行编程,这几乎是不可能的。相比之下,强化学习使 AI 能够自行发现处理对象的规则。
但强化学习并非没有限制,需要大量试验来学习任务。Dactyl 需要 10,000 年的 RL 训练来学习处理 Cube。在物理环境中这样做是不可能的。
这就是 OpenAI 研究人员使用模拟环境来训练 AI 的原因。模拟是训练应该在物理世界中工作的 AI 模型的常用方法。科学家们经常使用模拟来训练自动驾驶汽车和无人机飞行控制器等领域的机器学习算法 。
模拟 AI 训练的问题在于它对 有限的环境(例如游戏)很有用, 但对于现实条件来说过于简单。如果人工智能应该在开放环境中运行(例如,在公共道路上行驶),这种方法就会失败。开放环境很难掌握,因为有许多因素会影响它们。它们是不可预测的,掌握它们需要常识和泛化能力,这是当前人工智能技术所缺乏的。
神经网络 在处理不可预测的情况方面很糟糕, 需要明确指示它们必须处理的每种类型的问题和场景。为了解决这个问题,OpenAI 的研究人员开发了一种称为自动域随机化的方法。ADR 不断添加环境参数的噪声和随机性,以帮助 AI 泛化对不同情况的响应。
当经过训练的 AI 模型被转移到机械手上时,它能够在不同的条件下保持其一致性。OpenAI 分享的视频显示,机器人可以处理各种情况,例如戴着橡胶手套、手指被绑或被毛绒长颈鹿刺激。