similarity - Mahout 布尔基于用户的推荐器的相似度函数

Question

我正在使用Mahout构建一个基于用户的推荐系统，该系统使用布尔数据进行操作。

我使用GenericBooleanPrefUserBasedRecommender,NearestNUserNeighborhood现在尝试确定最合适的用户相似度函数。

建议使用LogLikelihoodSimilarity或TanimotoCoefficientSimilarity。我都尝试了，并且在这两种情况下都得到了[主观评估]有意义的结果。然而，相同数据集的 RMSE 评级优于 LogLikehood。两种情况下“不推荐”的数量相似。

谁能推荐这些相似性函数中的哪一个最适合这种情况？

score 6 · Accepted Answer

（我是开发人员。）如果我被困在一个荒岛上，只有一个相似性指标用于没有评级/偏好的数据，那将是对数似然。我通常希望它是更好的相似性指标。

您正在做的测试的问题在于，也许一点也不明显，它对这种推荐者/数据没有意义。RMSE 是均方根误差，它比较保留测试数据的实际评级与预测评级。但是你没有评分。它们都是“1.0”。实际上，RMSE 始终为 0！

不是，因为有任何东西可以排名，这些推荐者将根据相似性的一些有意义的函数进行排名。但他们根本没有估计收视率/偏好。所以，RMSE在这里意味着蹲下。

我认为，在这种情况下，您真正可以使用的唯一指标是精度/召回测试。即使这样也是有问题的。这本书和更多有趣的话题都包含在我将无耻地宣传的一本书中：Mahout in Action

1 回答 1