0

TRPO - RL:我需要一个 8DOF 机械臂来移动指定点。我需要使用 OpenAI gym 实现 TRPO RL 代码。我已经有了凉亭环境。但我不确定如何编写奖励函数的代码和关节空间运动的算法。请帮忙。

4

1 回答 1

0

报酬

Gazebo 应该能够告诉您末端执行器链接的位置,我们可以从该位置计算每一步之后朝着指定点取得的进展(即,如果朝着目标移动,则为正,如果远离,则为负,否则为 0)。仅此一项就应该鼓励末端执行器朝着目标前进。

在考虑其他标准,例如平滑度(避免抽搐动作)、惯用手(将肘部定位在左/右)等之前,您可能需要先确认系统能够仅使用这个基本奖励进行学习。这些很难指定并且必须根据您的需要手工设计,可能基于您的环境中可用的联合状态和/或其他一些衍生产品。

运动

这在很大程度上取决于您的堆栈。我添加这部分只是作为传递评论,但例如,如果您使用 ROS 作为中间件,那么您可以轻松集成Move-It来为您处理所有移动。

于 2020-03-07T00:08:36.400 回答