2

我正在使用Mahout构建一个基于用户的推荐系统,该系统使用布尔数据进行操作。

我使用GenericBooleanPrefUserBasedRecommender,NearestNUserNeighborhood现在尝试确定最合适的用户相似度函数。

建议使用LogLikelihoodSimilarityTanimotoCoefficientSimilarity。我都尝试了,并且在这两种情况下都得到了[主观评估]有意义的结果。然而,相同数据集的 RMSE 评级优于 LogLikehood。两种情况下“不推荐”的数量相似。

谁能推荐这些相似性函数中的哪一个最适合这种情况?

4

1 回答 1

6

(我是开发人员。)如果我被困在一个荒岛上,只有一个相似性指标用于没有评级/偏好的数据,那将是对数似然。我通常希望它是更好的相似性指标。

您正在做的测试的问题在于,也许一点也不明显,它对这种推荐者/数据没有意义。RMSE 是均方根误差,它比较保留测试数据的实际评级与预测评级。但是你没有评分。它们都是“1.0”。实际上,RMSE 始终为 0!

不是,因为有任何东西可以排名,这些推荐者将根据相似性的一些有意义的函数进行排名。但他们根本没有估计收视率/偏好。所以,RMSE在这里意味着蹲下。

我认为,在这种情况下,您真正​​可以使用的唯一指标是精度/召回测试。即使这样也是有问题的。这本书和更多有趣的话题都包含在我将无耻地宣传的一本书中:Mahout in Action

于 2011-09-23T13:50:31.070 回答