recommendation-engine - User Based CF 或 Item Based CF 需要多少数据才能给出推荐？

Question

User CF、Item CF需要多少数据才能给出推荐？

我手动创建了一个小数据集，所以我可以很好地理解算法是如何工作的。
我发现对于我创建的小数据集，Slope-One 可以给出推荐，User CF 或 Item CF 不能给出推荐。

背后的原因是什么？
数据量的阈值是多少？

score 1 · Accepted Answer

在基于用户和项目的 CF 中，数据集的大小可能非常小。重要的部分是数据集中项目和用户之间的映射频率。如果用户只在数据集中存在一次，则基于用户的 cf 很可能不会给出推荐。因为一个共同的项目不会提供两个用户成为邻居的阈值相似度。上面的解释只是一个例子。对于像 1000 个数据这样的小数据集，两个推荐器都会给出最相似的项目和推荐方法的答案。但是，对于更小的数据集，手动控制数据是否有足够的关于查询的用户/项目 ID 的信息是有用的。在这个链接您可以找到一个非常小的受控数据集来创建基于项目的 CF 及其工作原理。我希望这个答案是有帮助的。

score 1 · Accepted Answer

Movielens、netflix、jester、kddcup 数据集都对所有人开放。如果您在获取数据集时遇到问题，请查看此http://code.google.com/p/recsyscode/wiki/dataset

score 1 · Accepted Answer

对于小数据集，用户 CF 和项目 CF 可能相同，但对于大数据，如果用户数大于项目数（例如 Netflix 数据集和 yahoo kddcup2011 数据集），项目 CF 比用户 CF 快得多。
Top N推荐结果，User CF和Item CF的准确率相同，但覆盖范围不同，User CF推荐有利于推荐长尾item，而item CF具有更好的多样性。

recommendation-engine - User Based CF 或 Item Based CF 需要多少数据才能给出推荐？

3 回答 3

Related

Reference