0

据我了解 Q 学习,Q 值是衡量特定状态-动作对“有多好”的指标。这通常以下列方式之一在表格中表示(见图):

在此处输入图像描述

  1. 两种表述都有效吗?
  2. 如果 Q 表作为状态到状态转换表给出(如图中顶部的 q 表所示),您如何确定最佳操作,特别是如果状态转换不是确定性的(即从state 可以让你在不同的时间进入不同的州吗?)
4

1 回答 1

1
  1. 不,一般来说,一个动作并不等同于转换到一个特定的状态。动作的数量可能与状态不同,相同的动作可能会导致不同的状态,具体取决于执行的状态,不同的动作可能会导致相同的状态。转换也可以是随机的。

  2. 见(1)。

于 2017-03-02T06:11:28.080 回答