1

我是新手。

我已经使用了 mahout 的基于项目的算法和对数似然相似性度量。我在过去的帖子中读到,当推荐器处理二进制值(喜欢或不喜欢)时,最好使用对数似然相似性。我还读到 mahout 使用三个值(喜欢、不喜欢、不存在)。所以我对输入数据集文件的格式有点困惑。

输入文件格式必须是这样的吗?

 userId, itemID

默认情况下的首选项是1?

我想知道是否有办法将不喜欢的信息放入数据集中。

除了输入数据集文件之外,我会是这样的:

userid, itemid, binaryPreference 1, 15, 1.0

2, 35, 0

1、25、1.0……

请帮帮我!提前谢谢!

4

1 回答 1

0

我不确定你在哪里读到的,但它是错误的。Mahout 中没有三态“布尔”首选项。您的数据中要么有评级,要么没有,在这种情况下,你有布尔偏好,要么存在,要么不存在。没有第三种状态。

尽管看起来很奇怪,但我鼓励您尝试将“喜欢”和“不喜欢”视为相同,开始。它可能运作良好。

稍后您可以尝试在 -1 到 1 的范围内合并人工评级,或者以介于两者之间的表示喜欢、不喜欢和阴影的东西。然后,您可以尝试其他相似性指标,例如欧几里得距离,看看效果如何。

第三种可能性是建立两个推荐器:一个具有“喜欢”关联,另一个具有具有“不喜欢”关联的数据模型。您可以使用“喜欢”推荐器的输出,并通过“不喜欢”推荐器的结果过滤或修改结果。这需要一些编码,但并不难。

user@mahout.apache.org 将是跟进此问题的好地方。

于 2011-10-02T14:33:22.190 回答