keras - 为什么 keras-rl 示例总是在输出层选择线性激活？

Question

我是强化学习的新手。我有一个关于 keras-rl 代理的输出层激活函数选择的问题。在 keras-rl ( https://github.com/matthiasplappert/keras-rl/tree/master/examples ) 提供的所有示例中，在输出层中选择线性激活函数。为什么是这样？如果我使用不同的激活函数，我们会期待什么效果？例如，如果我使用离散动作空间为 5 的 OpenAI 环境，我是否还应该考虑在代理的输出层中使用 softmax？提前非常感谢。

score 4 · Accepted Answer

对于 keras-rl 中的一些代理，linear使用了激活函数，即使代理正在使用离散的动作空间（例如，dqn、ddqn）。但是，例如，CEM 使用softmax离散动作空间的激活函数（这是人们所期望的）。

dqn 和 ddqn 激活函数背后的原因linear是它的探索策略，它是代理的一部分。如果我们将用于它们的探索策略类作为示例和方法select_action，我们将看到以下内容：

class BoltzmannQPolicy(Policy):
def __init__(self, tau=1., clip=(-500., 500.)):
    super(BoltzmannQPolicy, self).__init__()
    self.tau = tau
    self.clip = clip

def select_action(self, q_values):
    assert q_values.ndim == 1
    q_values = q_values.astype('float64')
    nb_actions = q_values.shape[0]

    exp_values = np.exp(np.clip(q_values / self.tau, self.clip[0], self.clip[1]))
    probs = exp_values / np.sum(exp_values)
    action = np.random.choice(range(nb_actions), p=probs)
    return action

在每个动作的决策过程中，linear最后dense一层激活函数的输出根据玻尔兹曼探索策略变换到范围[0,1]，并根据玻尔兹曼探索做出特定动作的决策。这就是为什么softmax不在输出层中使用。

您可以在此处阅读有关不同探索策略及其比较的更多信息： https ://medium.com/emergent-future/simple-reinforcement-learning-with-tensorflow-part-7-action-selection-strategies-for-exploration-d3a97b7cceaf

keras - 为什么 keras-rl 示例总是在输出层选择线性激活？

1 回答 1

Related

Reference