2

User CF、Item CF需要多少数据才能给出推荐?

我手动创建了一个小数据集,所以我可以很好地理解算法是如何工作的。
我发现对于我创建的小数据集,Slope-One 可以给出推荐,User CF 或 Item CF 不能给出推荐。

背后的原因是什么?
数据量的阈值是多少?

4

3 回答 3

1

在基于用户和项目的 CF 中,数据集的大小可能非常小。重要的部分是数据集中项目和用户之间的映射频率。如果用户只在数据集中存在一次,则基于用户的 cf 很可能不会给出推荐。因为一个共同的项目不会提供两个用户成为邻居的阈值相似度。上面的解释只是一个例子。对于像 1000 个数据这样的小数据集,两个推荐器都会给出最相似的项目和推荐方法的答案。但是,对于更小的数据集,手动控制数据是否有足够的关于查询的用户/项目 ID 的信息是有用的。在这个链接您可以找到一个非常小的受控数据集来创建基于项目的 CF 及其工作原理。我希望这个答案是有帮助的。

于 2011-04-01T07:54:35.417 回答
1

Movielens、netflix、jester、kddcup 数据集都对所有人开放。如果您在获取数据集时遇到问题,请查看此http://code.google.com/p/recsyscode/wiki/dataset

于 2011-07-08T06:29:05.107 回答
1
  1. 对于小数据集,用户 CF 和项目 CF 可能相同,但对于大数据,如果用户数大于项目数(例如 Netflix 数据集和 yahoo kddcup2011 数据集),项目 CF 比用户 CF 快得多。

  2. Top N推荐结果,User CF和Item CF的准确率相同,但覆盖范围不同,User CF推荐有利于推荐长尾item,而item CF具有更好的多样性。

于 2012-02-14T01:30:45.543 回答