1

我正在使用 Apache Cassandra (1.2) 和 Apache Map-Reduce 来处理一些数据。目前我CqlPagingInputFormatorg.apache.cassandra.hadoop.cql3使用。此提供程序使用 Thrift 提取数据。Thrift 似乎相当慢(300M 记录,在 3 节点集群中需要 8 多个小时才能读取),并且由于存在原生二进制协议,我想知道是否有人使用过它。

我对任何其他优化和配置调整不感兴趣 - 这是一个单独的问题。

我的问题是

  1. 是否有直接使用 Cassandra 本机协议的 map-reduce 输入格式化程序的实现?

  2. 如果没有,我自己编写的第一步是什么,例如使用 DataStax 驱动程序?

4

1 回答 1

1

Cassandra 2.0.7 包括 CQL Hadoop 类的本机协议类似物:

org.apache.cassandra.hadoop.cql3.CqlInputFormat org.apache.cassandra.hadoop.cql3.CqlRecordReader org.apache.cassandra.hadoop.cql3.CqlConfigHelper

examples/hadoop_cql3_word_count 中的 WordCount 代码已更新为使用这些类。

介绍这个的 JIRA 是https://issues.apache.org/jira/browse/CASSANDRA-6311

于 2014-04-24T09:47:24.953 回答