我正在将 Mahout 评估为协作过滤推荐引擎。到目前为止,它看起来很棒。我们有来自 1200 万不同用户的近 2000 万条布尔推荐。根据Mahout 的 wiki和Sean Owen的一些线程,在这种情况下,一台机器就足够了。因此,我决定使用 MySql 作为数据模型并暂时跳过使用 Hadoop 的开销。
但有一件事让我难以理解,在不从头开始读取整个数据的情况下,不断更新建议的最佳实践是什么?我们每天都有数以万计的新建议。虽然我不希望它被实时处理,但我希望每 15 分钟左右处理一次。
请详细说明基于 Mysql 和基于 Hadoop 的部署的方法。谢谢!