ray - 通过 ray 对训练好的策略进行评分

翻译自：https://stackoverflow.com/questions/68122186 2021-06-24T20:08:09.097

13 次

我想在训练期间使用经过训练的策略进行一些基准比较，每隔几次训练迭代。为此，我想使用给env定的种子创建一个给定的实例，然后使用每个基准测试以及射线运行一个情节。总之，伪代码如下所示：

for i in range(n):
  s = env.reset(seed_number=n)
  while True:
    a = alg.agent.get_action(s)
    ns, r, d, _ =  env.step(a)
    save_state(s,a,r,d)
    if d:
        break

其中alg在[ray, random, heuristic1, heuristic2]。我的问题是如何为此目的使用调用当前策略？我假设agent.compute_action(s)这样做。如果是这样，问题将是它如何处理随机性？例如，如果算法是 DQN，它使用epsilon=0? 它在策略梯度基础算法中如何工作A2C？

ray - 通过 ray 对训练好的策略进行评分

0 回答 0

Related

Reference