4

我正在根据客户对我的大学项目的反馈对在线内容进行排名。为此,我将每个内容与之前的 alpha 和 beta 参数相关联,并根据我得到的反馈更新它们。随着我模拟越来越多的试验,alpha 和 beta 参数的值不断增加。我希望我的模型对最近的客户行为更具反应性,因此在我的更新中,我将先验参数衰减 0.9 倍,并将最后一天的 alpha、beta 相加(作为一阶非齐次线性差分方程)。

由于衰减,模型忘记了某些内容是次优的,并试图再次探索它,从而导致一些循环行为。有没有更好的方法来解决这个问题?我试着只看上个月的数据来构建我的分布,但这似乎也很“健忘”。如何防止 alpha/beta 变得太大,同时确保模型是反应性的并且不会忘记次优策略?

4

1 回答 1

0

无论您对模型​​进行什么更改,总是要在它的反应性和它保留多少内存之间进行权衡。模型不可能保留所有内容并仍然赶上客户行为。例如,如果模型保留了所有内容,即使客户行为发生了变化,它也没有理由尝试其他武器。另一方面,为了保持反应性,模型确实需要不断尝试次优臂来检查其中一个臂是否没有变得最优,即使这可能会导致一些额外的遗憾。请注意,在非固定设置中,它不可能像固定设置那样执行。

您已经尝试了两种标准方法来赋予新数据更多的权重:折扣(系数为 0.9)和仅考虑过去n天的数据。如果您发现使用这些参数值会使您的模型过于健忘,您可以尝试增加折扣因子或数字n(您考虑的天数)。

随着您增加这些参数,您的模型将变得更少健忘和更少反应。你需要找到适合你的价值观。此外,可能无法同时实现您希望的反应量和健忘量。

希望这可以帮助!

于 2020-02-13T10:30:46.230 回答