“四足蚁人”诞生，可通过强化学习完成指定动作

深科技 | 2021-01-15 12:48:38 阅读：4804

看过《蚁人》的朋友肯定会为蚁人灵活的身姿和矫捷的身手所折服。

现如今，虽然你成为不了蚁人，却有机会拥有一位 “类蚁人” 朋友 —— 四足机器人 RealAnt。RealAnt 是一种低成本的四足机器人，可以通过强化学习来完成指定动作。拥有蚂蚁般灵活四肢的机器人 RealAnt 一经问世，便广受好评。
在过去的十几年里，机器人学家和计算机学家们试图利用强化学习（RL）的方法来训练机器人有效地导航和完成各种基本任务。然而，到目前为止，制作一个能够支持 RL 算法且大众负担得起的机器人仍相当具有挑战性。
令人兴奋的是，最近研究人员发明了一种四腿机器人，并用它来实现一种低成本的机器人算法。在 arXiv 上发表的一篇论文中提出了相关的新型机器人平台，这是一个简单且价格合理的真实世界版 “蚂蚁” 机器人模拟环境，通常被用于 RL 研究。

Ote 机器人公司的 RealAnt 机器人平台是为实现现实世界中的强化学习而研究和开发的。其拥有完整的解决方案，并有网络摄像机为基础的跟踪系统。
“我们工作的最初灵感来自 RL 研究，该研究成功地证明了在仿蚂蚁以及仿人机器人上，可以通过强化学习从零开始学会走路。”Ote Robotics 的联合创始人 Jussi Sainio 表示，算法的基本前提是编程，目的是使机器人完成任务的过程变得更容易、更自然，通过确定可用的传感器测量值、运动动作设定目标，并将它们全部插入强化学习算法，该算法就能解决其余问题。
降低训练成本的高效率四足机器人亟待开发
一般来说，大多数机器人的研究是利用昂贵的设备进行的，花费高达数千美元，并不是所有研究人员都负担得起。与此同时，传统的控制算法需要易于实现的精确硬件模特，这使得机器人在设计上面临诸多限制。而强化学习算法能够在不建立动力学模型的情况下学习控制器，还可以处理噪声的观测和控制，优势有目共睹。

近年来，强化学习领域取得了显著的进展，在解决具有挑战的控制问题方面取得了许多成功。这很大程度上取决于模拟器可以用快速测试算法性能。然而，模拟器也有弊端，其常常会对世界做出不切实际的假设。为了减少因误判而付出的无用劳动，研究人员们需要一种将强化学习的发展建立在现实世界的问题上的方法。
Sainio 认为，与模拟器环境相比，没有一个完整的软件和硬件组合可以从现实世界的强化学习开始。因此，他们开始构建自己的机器人和接口软件原型。
基于此，Sainio 和他同事们工作的主要目标是基于现有的基线 RL 解决方案创建一个简单而低成本的机器人平台。这样一个平台将允许更多的研究人员建造和测试能够在现实世界中完成各种基本任务的自主机器人。
经过不断探索，Ote 机器人公司开发了一个最小的低成本四足机器人 ——RealAnt 以及一个物理版本的基准测试平台。

RealAnt 的优点是显而易见的，它功能齐全、简约、成本低廉。此外，它可以自主学习走路，协调地移动腿，并能在给定的环境中感知自己的位置和方向。利用 RL 算法，可以训练它像真正的蚂蚁那样行动，从而执行各种简单而有价值的任务。
最初，RL 算法只有在机器人模拟训练数千小时后才能表现良好。然而，通过计算机科学家的努力，已经能够用很少的训练数据来教蚂蚁四足机器人 RealAnt 学会行走，从而达到了高样本效率。这使得在现实世界中直接训练机器人成为可能，消除了基于仿真的训练需求成本。

研究人员们是通过强化学习实验一步步验证了自己创建的机器人平台，并同时提供了一组基准任务的基线结果。通过实验，他们证明了运用 TD3 算法可以从不到 45 分钟的经验中学会行走实相。他们在 MuJoCo 和 PyBullet 中提供了机器人的模拟器版本（具有相同的尺寸、状态动作空间和延迟噪声观测）。
绘制每个任务三次运行的平均值和标准差，TD3 能够在 40 分钟内学会所有任务。
实验中考虑进了三个基准任务：

站直
转动 180 度
尽可能快地向前走。

实验发现，TD3 算法能够成功地学习所有三个任务。学会站立大约需要 12 分钟的经验，学会转身需要 35 分钟的经验，学会走路需要 40 分钟的经验。
“人们可以把 RealAnt 平台想象成‘Ant’模拟器环境的真实版本，这是 RL 的一个流行基准。”Sainio 说，他们创建的是最便于在现实世界展开强化学习的机器人平台之一。
RealAnt 平台包括机器人接口所需的机器人硬件（电机、传感器）和软件堆栈（通信、跟踪），而已经对外公布的基线强化学习解决方案就是教它从零开始走路的方法。Sainio 表示，示例解决方案很简单，对每项学习任务都较少使用 ML 方面的指导，且不用做太多的人工奖励工程来塑造学习绩效，这使得定义新任务变得简单明了。
值得一提的是，RealAnt 平台的主要优势在于，它是现成的，而且价格合理。低制造成本和易于组装的特点使得 RealAnt 可以更便捷地被世界各地的人所使用。此外，与当今市场上更昂贵、更复杂的机器人相比，它容易大规模进行生产部署。
8 个低成本的智能伺服电机移动保 “价” 护航
RealAnt 作为一个最小的、低成本的物理版本的 “Ant”，其基准研究对现实世界中的强化学习有深刻意义。与 “Ant” 基准测试类似，RealAnt 是一个 8 自由度的四足机器人，并基于易于获得的电子元件和 3D 打印体。RealAnt 中使用的所有组件都较易得到。
“机器人的身体部位都是三维打印的，它们足够小，可以用大多数消费者的三维打印机打印。”Sainio 提到，这使得该机器人的生产和改装成本比采用激光切割或机械加工金属、塑料板制造的机器人要低很多。由于 RealAnt 设计采用低成本电机，通过限制电机的最大扭矩能够小心地驱动电机，因此它们能够承受随机探索和任务训练期间的连续粗暴运动。
具体来看，RealAnt 主体由 4 个 3D 打印支腿，8 个 Dynamixel AX-12A 伺服系统（和 8 个 FP04-F2 机架一起销售）以及 3 个三维打印的上下躯干构成。机器人的每只腿由两个 Dynamixel 伺服关节组成，使用 Robotis FP04-F2 框架相互连接。使用 3D 打印的躯干顶板和底板将四个腿部组件连接在一起。3D 打印机易于使用，允许快速打印和经济高效的制造。零件可以使用消费类 3D 打印机（Creality Ender 3 v2）以 PLA（Prusament 灯丝）打印。

令手残党倍感欣慰的是，RealAnt 可以在不到一小时的时间内使用十字螺丝刀、切边钳这些组件组装起来。这比很多同类型机器人的组装更加友好。
另一方面，上文提到，目前可供研究的机器人平台要么非常昂贵，要么无法处理强化学习中探索控制的滥用。而此次开发的用于强化学习基准测试的最低成本物理版本平台价格上是绝对的实惠。RealAnt 的材料成本仅为 350AC（410 美元）。
RealAnt 机器人比其他支持 RL 的现有四足类机器人更便宜的原因之一是它的身体使用 8 个低成本的智能伺服电机移动，而不是更昂贵和复杂的电机。此外，为了追踪机器人的位置和方向，还利用了可以轻松打印在纸上的 AR 标签和廉价的外部摄像头。
在真实世界与模拟环境的出色表现有望破圈经过反复测试，Sainio 和他的同事在模拟和真实世界的实验中综合评估了 RealAnt，事实证明，该机器人在所有这些测试中都表现得非常出色，显示出广阔的应用前景。
到目前为止，大多数用于机器人应用的 ML 和 RL 技术主要是在模拟环境中训练的。研究人员希望 RealAnt 能开辟新的令人兴奋的可能，使机器人可以在模拟和物理世界中一同进行训练和测试。
一个好消息是，RealAnt 的硬件和软件都是开源的，完全组装好的机器人也可以在 Ote Robotic 的网站上轻松在线购买。这为更多研究者得到并使用它提供了很大便利。

此套餐包括：一个完全组装的 RealAnt V1 机器人、带有 8 个 Robotis Dynamixel AX-12A 智能执行器、Robotis OpenCM9.04A 板、USB 和电源线、一个机器人标签和一个参考标签板、12V 5A 电源。
Sainio 和他的同事们创建的机器人平台可以很快帮助其他团队在真实的机器人上测试他们的 RL 和 ML 算法。研究人员们希望 RealAnt 未来可以促进更广泛的应用和发展，例如在农业环境中，自主学习的机器人可以用来根除杂草和收获植物，帮助促进生物多样性，甚至可能减少杀虫剂的使用。
Sainio 说：“我们现在打算对 RealAnt 平台进行微调和扩展，以增强硬件的能力，比如让机器人拥有更先进的感知能力和可能的操纵器，并在现有在线平台的基础上同时运行多个机器人。同时，我们也在研究如何让 RealAnt 更快地完成其他更具挑战性的任务，进一步缩短训练时间。”

*博客内容为网友个人发布，仅代表博主个人观点，如有侵权请联系工作人员删除。