6

在这种情况下,输入之一是选择手臂/动作的概率,但我们如何找到该概率?找到这个概率本身不是一项艰巨的任务吗?

4

1 回答 1

1

提供概率意味着您正在采取一个场景,您正在提供历史上采取的行动,例如从日志中,而不是执行真正的在线场景。这很有用,因为(至少部分)Vowpal 的 Contextual Bandits 模型可以从历史数据中引导。这意味着,通过历史数据学习的上下文强盗策略可以胜过从头开始在线学习的策略——只有当你拥有与你的在线场景相关的历史数据时,你才能做到这一点。

Wiki 页面最近进行了编辑,以更好地反映这种格式适用于这种情况。

包含概率的另一个(人为的)用例可能是您针对多个环境采取行动,但无论如何,据我所知,这里的概率可以解释为纯粹的频率。

因此,我的理解是,当不输入历史交互数据时,您不必在输入中提供概率部分。就像这里的例子一样跳过它。

于 2018-04-16T14:26:34.570 回答