5

是否可以将 Mahout 配置为在通过 Hadoop 执行 Recommender 作业时从 Cassandra 集群检索输入数据?

我找到了关于这个主题的一些资源 - 请参阅http://www.acunu.com/2/post/2011/08/scaling-up-cassandra-and-mahout-with-hadoop.html,但那里描述的迹象确实似乎不起作用(在 mahout-0.6 和 mahout-0.7 上都试过)。例如 itemIDIndexPath 变量似乎不存在于 RecommenderJob 类中,也不存在于它扩展的抽象类中。

4

1 回答 1

0

我尝试对 Cassandra 运行 Pig/Hive 查询,发现它在负载下相当不稳定。问题是 Cassandra 的读取路径效率相当低,尤其是在 Thrift 上。我建议将数据转储到 HDFS 作为中间步骤并从那里处理

于 2015-04-23T14:46:40.233 回答