我想测试CB的电子商务任务:个人报价推荐(如“最后一次购买机会”、“相似职位”、“消费者推荐”、“畅销书”等)。我的任务是订购它们(建议列表中更相关的问题更高)。
因此,有 5 种可能的报价。我在不使用任何模型的情况下收集了一些历史数据:上下文(用户和网络会话功能)、操作 ID(我的 5 个优惠之一)、奖励(如果用户点击了此优惠,则为 1,0 - 未点击)。所以我有 N 个用户和 5 个奖励已知的优惠,在我的历史数据中总共有 5*N 行。
前任:
1:1:1 | user_id:1 f1:... f2:...
2:-1:1 | user_id:1 f1:... f2:...
3:-1:1 | user_id:1 f1:... f2:...
这意味着用户 1 看到了 3 个优惠 (1,2,3),第 1 个优惠的成本等于 1(未点击),用户点击了优惠 2 和 3(成本为负 -> 奖励为正) . 概率等于 1,因为显示了所有报价并且我们知道奖励。
全球任务是增加点击率。我想使用这些数据来训练 CB,然后通过探索/开发策略改进模型。我在这个数据中设置概率等于 1(对吗?)。但接下来我想根据奖励设置优惠的顺序。
我应该在大众 CB 中使用这种热启动吗?在不使用 CB 的情况下收集的数据是否可以正常工作?也许您可以针对此数据和任务在 CB 中建议更相关的方法?
非常感谢。