在 Python 中使用 OpenAI-gym 中的 MountainCar-v0 环境时,完成的值将在 200 个时间步之后为真。这是为什么?因为没有达到目标状态,所以不应该完成这一集。
import gym
env = gym.make('MountainCar-v0')
env.reset()
for _ in range(300):
env.render()
res = env.step(env.action_space.sample())
print(_)
print(res[2])
我想运行 step 方法,直到汽车到达标志,然后打破 for 循环。这可能吗?与此类似的东西:
n_episodes = 10
done = False
for i in range(n_episodes):
env.reset()
while done == False:
env.render()
state, reward, done, _ = env.step(env.action_space.sample())