在实现了一个算法来推荐产品并取得了一些成功之后,我现在正在研究计算该算法的初始输入数据的方法。
我的目标是计算用户有某种历史的每种产品的分数。
我目前正在收集的数据:
- 用户订单历史
- 匿名用户和注册用户的产品浏览历史记录
所有这些数据都带有时间戳。
我在寻找什么
我正在寻找一些建议,理想情况下,应该更多地讨论这个问题,而不是针对单一的“正确”答案。
- 我可以为用户收集的任何可以直接暗示对产品感兴趣的其他数据
- 将这些数据转化为每个产品的分数的算法/方程式
我不是在寻找什么
只是为了避免这个问题因错误的答案而脱轨,一旦我为每个用户获得了这些数据,这就是我正在做的事情:
- 使用 k-means 聚类算法生成多个用户聚类(目前为 21 个),使用 pearsons 系数作为距离得分
- 对于每个用户(按需),通过在他们的集群中寻找他们最相似和最不相似的用户并重复任意深度来计算他们的相似用户图。
- 根据用户图表中其他用户的偏好计算每个产品的分数
- 对分数进行排序以返回推荐列表
基本上,我不是在寻找关于一旦获得输入数据后该做什么的想法(稍后我可能需要进一步的帮助,但这不是这个问题的重点),只是想知道如何在第一名