reinforcement-learning - TRPO - RL：我需要让一个 8DOF 机械臂移动到指定点。我需要在 Gazebo 环境中使用 OpenAI gym 来实现 TRPO RL 代码吗？

问问题 2020-03-05T01:18:53.730

56 次

0

TRPO - RL：我需要一个 8DOF 机械臂来移动指定点。我需要使用 OpenAI gym 实现 TRPO RL 代码。我已经有了凉亭环境。但我不确定如何编写奖励函数的代码和关节空间运动的算法。请帮忙。

1 回答 1

0

报酬

Gazebo 应该能够告诉您末端执行器链接的位置，我们可以从该位置计算每一步之后朝着指定点取得的进展（即，如果朝着目标移动，则为正，如果远离，则为负，否则为 0）。仅此一项就应该鼓励末端执行器朝着目标前进。

在考虑其他标准，例如平滑度（避免抽搐动作）、惯用手（将肘部定位在左/右）等之前，您可能需要先确认系统能够仅使用这个基本奖励进行学习。这些很难指定并且必须根据您的需要手工设计，可能基于您的环境中可用的联合状态和/或其他一些衍生产品。

运动

这在很大程度上取决于您的堆栈。我添加这部分只是作为传递评论，但例如，如果您使用 ROS 作为中间件，那么您可以轻松集成Move-It来为您处理所有移动。

于 2020-03-07T00:08:36.400 回答