0

我正在查看 Vowpal Wabbit 的文档以了解它是如何实际学习的。传统的 Contextual Bandits 通过 F(context, action) = Reward 进行学习,找到最大化 Reward 的动作,并将动作作为推荐返回。“F”是任何型号;线性、神经网络、xgb 等...通过批处理学习。IE 收集 100 个上下文、100 个动作、100 个奖励,训练 ML 模型,然后再做一次。

现在,在大众汽车上,它表示它将“所有上下文老虎机问题减少为对成本敏感的多类分类问题”。好的,请继续阅读,但仍然需要一些函数 F 来最小化这个问题,不是吗?

我已经彻底阅读了文档,并且:

  1. 错过了批处理的默认学习器,或者,
  2. 不明白大众是如何在这个成本敏感的框架中实际学习的?

我什至在 pyvwlib 中搜索了 vw.learn() 方法。谢谢您的帮助!

4

1 回答 1

1

错过了批处理的默认学习器,或者,

VW 中的默认学习器是线性表示上的 SGD,但这可以使用命令行参数进行修改。

不明白大众是如何在这个成本敏感的框架中实际学习的?

在上下文强盗学习中,与所采取的行动相关的奖励被呈现给学习。ips 模式下的大众汽车通过在未采取的行动处设置零并对采取的行动的奖励进行重要性加权,将其转换为每个行动的奖励。估算缺失数据后,它将问题视为监督学习问题。

于 2020-12-03T16:29:44.083 回答