我在 Q-learning 中使用 Boltzman 探索,每个状态至少有 10 个动作。我知道只有两个动作,玻尔兹曼探索可以非常简单地应用如下:
- 使用玻尔兹曼探索方程计算两个动作的 pr1 和 pr2。
- 生成一个随机数r
- 假设pr1>pr2。如果 r<=pr1,采取对应概率 pr1 的动作。如果 r>pr1,则采取对应于 pr2 的动作。
但是,我怎样才能用 10 个动作做到这一点?在每个决策步骤,我都会更新所有动作的概率。这给了我最佳动作概率最高的所有动作的概率分布。在这种情况下如何使用玻尔兹曼探索来选择动作?