我正在查看 Vowpal Wabbit 的文档以了解它是如何实际学习的。传统的 Contextual Bandits 通过 F(context, action) = Reward 进行学习,找到最大化 Reward 的动作,并将动作作为推荐返回。“F”是任何型号;线性、神经网络、xgb 等...通过批处理学习。IE 收集 100 个上下文、100 个动作、100 个奖励,训练 ML 模型,然后再做一次。
现在,在大众汽车上,它表示它将“所有上下文老虎机问题减少为对成本敏感的多类分类问题”。好的,请继续阅读,但仍然需要一些函数 F 来最小化这个问题,不是吗?
我已经彻底阅读了文档,并且:
- 错过了批处理的默认学习器,或者,
- 不明白大众是如何在这个成本敏感的框架中实际学习的?
我什至在 pyvwlib 中搜索了 vw.learn() 方法。谢谢您的帮助!