0

我有许多布尔数据集,例如:

Books:

book_id   user_id
1         1
2         1
3         1
3         2
3         3

Movies:

movie_id  user_id
1         1
1         2
1         3
2         5

这意味着,user_id代表所有数据集中的相同实体(来自书籍的用户 id:1 与来自电影的相同用户 id:1)。

我需要的是根据输入(包括电影和书籍的 ID)创建建议用户列表(最好是有序且具有可见百分比)。

喜欢:

input: [movie1_id, movie2_id, book1_id]
result: [user1_id, user5_id ..]

实体(书籍和电影)的 ID 不是唯一的,这就是我们单独存储这些数据集的原因(在 DB 表中,我使用 BooleanPref);

这很清楚如何使用例如GenericBooleanPrefItemBasedRecommender.

是否可以使用 Mahout(具体为 0.9)来处理它,并有这种多输入建议?

谢谢!

4

1 回答 1

1

所以你是在向用户推荐电影。电影是模型中的“用户”,用户是“项目”。您可以使用任何算法来处理这种推荐问题。

您想将书籍添加到组合中。听起来您也只是想要模型中的书籍,也可以作为您可以推荐的“用户”。如果是这样,就这样做。您将需要一个方案来将书籍和电影 ID 映射到不重叠的标识符。

于 2014-07-17T21:28:13.963 回答