PPO 模型不会遍历整个数据框 .. 它基本上多次重复第一步(本例中为 10,000 次)?
在这种情况下,DF 的形状是 (5476, 28),每一步的 obs 形状是:(60, 28).. 我没有看到它遍历整个 DF。
# df shape - (5476, 28)
env = MyRLEnv(df)
model = PPO("MlpPolicy", env, verbose=4)
model.learn(total_timesteps=10000)
MyRLEnv:
self.action_space = spaces.Discrete(4)
self.observation_space = spaces.Box(low=-np.inf, high=np.inf, shape=(60, 28) , dtype=np.float64)
谢谢!