我将使用函数逼近的 Q 学习应用于每个状态没有相同动作集的问题。当我计算目标时
目标 = R(s,a,s') + (max_a' * Q(s',a'))
由于每个状态都没有相同的操作集,所以我是否应该在状态定义中也包含一组操作?否则发生的情况是,两个状态在所有其他功能中可能彼此非常相似,除了它们从那里开始有非常不同的可用操作集这一事实。即使我包括一组动作,问题也是向量的长度,因为每个状态都有不同数量的动作。请帮我。
我将使用函数逼近的 Q 学习应用于每个状态没有相同动作集的问题。当我计算目标时
目标 = R(s,a,s') + (max_a' * Q(s',a'))
由于每个状态都没有相同的操作集,所以我是否应该在状态定义中也包含一组操作?否则发生的情况是,两个状态在所有其他功能中可能彼此非常相似,除了它们从那里开始有非常不同的可用操作集这一事实。即使我包括一组动作,问题也是向量的长度,因为每个状态都有不同数量的动作。请帮我。