谷歌的 DeepMind RT-2 人工智能模型将帮助机器人像 R2D2 一样为人类服务
一项涉及 Google 的DeepMind Robotic Transformer 2 (RT-2) 视觉-语言-动作 (VLA) 模型的新研究表明,在构建通用物理机器人方面取得了可喜的成果,该机器人可以推理、解决问题和解释信息,以便执行任务现实环境中的各种任务。RT-2 从网络和机器人数据中学习,同时将知识转化为机器人控制的通用指令。
科幻迷长期以来一直喜爱未来派的忠诚伴侣机器人,例如《星球大战》中的 R2-D2。原三部曲的粉丝们开始迷恋这个吸尘器形状的机器人,因为它会发出嘟嘟声和轰鸣声穿过危险。几乎每个 70 年代末和 80 年代初的孩子都梦想拥有自己的 R2-D2 伙伴。像谷歌这样的公司一直在机器人领域取得进步,其最近的 RT-2 结果预示着 R2-D2 有一天将向所有人开放。
RT-2 的工作源于 RT-1 的工作,根据 Google DeepMind 最近的一份新闻稿,RT-1 是“一个经过多任务演示训练的模型,可以学习机器人数据中看到的任务和对象的组合”。该研究纳入了 13 个机器人在 17 个月的时间里在办公室厨房环境中收集的演示数据。
RT-2 本质上是从 RT-1 数据中学习,最终形成可以控制机器人的 VLA 模型。结果表明,RT-2 提高了泛化能力以及语义和视觉理解能力,超越了它最初接触的机器人数据。新论文指出,这还包括 RT-2 能够解释新命令并通过执行基本推理来响应用户命令,例如能够推理“关于对象类别或高级描述”。
RT-2的执行能力还可以看出,它结合了思想链推理,使其能够实现多阶段语义推理。这包括能够在物体之间做出决定,以及哪个物体更适合手头的工作,例如选择一块石头而不是一张纸来钉钉子。