0

我在这里相当新,我提前感谢所有愿意花时间阅读这个问题的人。

我们正在使用 tf-idf 构建一个推荐系统来生成规范化的文档向量。基于用户与文档的交互(喜欢、不喜欢、花时间等等),我们希望生成与文档本身结构相同的用户配置文件。

虽然有很多关于“产品”方面的推荐系统和基于内容的过滤的文献,但关于用户偏好本身的结构却很少。我并不是在问一个“解决方案”,而是为了请我们指出正确的方向(或者简单地说,一个方向)。我们可能会自己解决一些问题,但如果已经有相当成熟的解决方案,则无需重新发明轮子。

非常感谢大家!丹尼尔

4

1 回答 1

0

您的问题有点难以理解,但根据我的理解,我想分享一个简单的想法,可能会引导您走上正确的道路:

首先,您可以将 tfidf 向量视为高维向量空间的一部分。假设文档被分组在集群中,您可以尝试将您的用户投影到这些集群中并选择最近集群的元素。但要做到这一点,我建议不要使用多个标签,而只是“用户喜欢”。

用户向量可以是他喜欢的文档的 tfidf 向量的平均值。然而,这只有在用户具有同质偏好(最好只来自一个集群)的情况下才能很好地工作,因为如果他喜欢来自遥远集群的大量文档,他会发现自己在那些不一定反映他的兴趣的集群之间。但如果偏好的结构发挥作用,这可能会很好。
您继续确定最接近用户向量的集群,然后从该集群中选择其他文档作为推荐。

对于距离,您可以从余弦距离开始,例如,您可以使用简单的 K-Nearest Neighbor 算法找到集群(参见scikit learn)。

于 2018-04-04T16:59:48.067 回答