hadoop - 使用 Hadoop 扩展 Cassandra 和 Mahout

Question

是否可以将 Mahout 配置为在通过 Hadoop 执行 Recommender 作业时从 Cassandra 集群检索输入数据？

我找到了关于这个主题的一些资源 - 请参阅http://www.acunu.com/2/post/2011/08/scaling-up-cassandra-and-mahout-with-hadoop.html，但那里描述的迹象确实似乎不起作用（在 mahout-0.6 和 mahout-0.7 上都试过）。例如 itemIDIndexPath 变量似乎不存在于 RecommenderJob 类中，也不存在于它扩展的抽象类中。

score 0 · Accepted Answer

我尝试对 Cassandra 运行 Pig/Hive 查询，发现它在负载下相当不稳定。问题是 Cassandra 的读取路径效率相当低，尤其是在 Thrift 上。我建议将数据转储到 HDFS 作为中间步骤并从那里处理

hadoop - 使用 Hadoop 扩展 Cassandra 和 Mahout

1 回答 1

Related

Reference