谷歌DeepMind推出无需监督即可自学的AI机器人

6月26日消息:机器人正迅速成为我们日常生活的一部分，但它们通常只被编程来完成特定的任务。尽管利用人工智能的最新进展可能会导致机器人在更多方面发挥帮助作用，但构建通用机器人的进展较慢，部分原因是需要收集现实世界的培训数据。

日前谷歌 DeepMind 最新的论文介绍了一种自我改进的机器人人工智能 *** 程序，名为 RoboCat，它学习执行不同机械臂上的各种任务，然后自动生成新的训练数据来改善其技术。

DeepMind 表示，先前的研究探索了如何开发能够按比例学习多项任务并将语言模型的理解能力与协助机器人的现实能力相结合的机器人。RoboCat 是之一个解决并适应于多个任务，并在不同的真实机器人上完成的 *** 程序。

RoboCat 学习速度比其他更先进的模型快得多。它可以通过仅使用 100 个演示来掌握新任务，因为它依靠大量和多样化的数据集。这种能力将有助于加速机器人学研究，因为它减少了人工监督培训的需求，并是创建通用机器人的重要一步。

DeepMind 的研究科学家兼 RoboCat 团队成员之一的 Alex Lee 在接受 TechCrunch 的电子邮件采访时表示：「我们证明了一个单一的大型模型可以在多个真实机器人实体上解决各种不同的任务，并能够快速适应新的任务和实体。」

RoboCat 是受 Gato 启发而开发的，Gato 是 DeepMind 的一个人工智能模型，可以分析和处理文本、图像和事件。RoboCat 使用在模拟和现实生活中收集的图像和行动数据进行训练。Lee 表示，这些数据来自虚拟环境中其他控制机器人模型、人类控制机器人以及之前的 RoboCat 模型的组合。

为了训练 RoboCat，DeepMind 的研究人员首先收集了 100 到 1000 个由人类控制的机器人臂执行任务的示范。然后，他们在该任务上对 RoboCat 进行了微调，创建了一个专门的「分支」模型，平均训练了该任务 1 万次。

利用分支模型生成的数据和示范数据，研究人员不断扩充了 RoboCat 的训练数据集，并训练了后续的新版本 RoboCat。

RoboCat 的最终版本在模拟和实际世界中的 141 种不同变体的任务集上进行了训练，总共涵盖了 253 个任务。DeepMind 声称，在观察了数小时的人类控制示范后，RoboCat 学会了操作不同的机器人臂。

虽然 RoboCat 在四种带有双爪臂的机器人上进行了训练，但该模型能够适应一个带有三指夹爪和两倍可控输入的更复杂的臂。

尽管在 DeepMind 的测试中，RoboCat 在不同任务上的成功率差异很大，从更低 13% 到更高 99%。这是在训练数据中有 1000 个示范的情况下；当示范数量减少一半时，成功率可预见地较低。

然而，在某些场景中，DeepMind 声称 RoboCat 只需 100 个示范就能学会新任务。

Lee 补充说：「通过提供有限数量的示范来进行新任务的微调，RoboCat 可以自动生成更多数据以进一步改进。」未来，研究团队的目标是将 RoboCat 学习完成新任务所需的示范数量降低到 10 个以下。