我正在根据客户对我的大学项目的反馈对在线内容进行排名。为此,我将每个内容与之前的 alpha 和 beta 参数相关联,并根据我得到的反馈更新它们。随着我模拟越来越多的试验,alpha 和 beta 参数的值不断增加。我希望我的模型对最近的客户行为更具反应性,因此在我的更新中,我将先验参数衰减 0.9 倍,并将最后一天的 alpha、beta 相加(作为一阶非齐次线性差分方程)。
由于衰减,模型忘记了某些内容是次优的,并试图再次探索它,从而导致一些循环行为。有没有更好的方法来解决这个问题?我试着只看上个月的数据来构建我的分布,但这似乎也很“健忘”。如何防止 alpha/beta 变得太大,同时确保模型是反应性的并且不会忘记次优策略?