java - 使用本机协议为 Cassandra 自定义 map-reduce 输入格式化程序

Question

我正在使用 Apache Cassandra (1.2) 和 Apache Map-Reduce 来处理一些数据。目前我CqlPagingInputFormat从org.apache.cassandra.hadoop.cql3使用。此提供程序使用 Thrift 提取数据。Thrift 似乎相当慢（300M 记录，在 3 节点集群中需要 8 多个小时才能读取），并且由于存在原生二进制协议，我想知道是否有人使用过它。

我对任何其他优化和配置调整不感兴趣 - 这是一个单独的问题。

我的问题是

是否有直接使用 Cassandra 本机协议的 map-reduce 输入格式化程序的实现？
如果没有，我自己编写的第一步是什么，例如使用 DataStax 驱动程序？

score 1 · Accepted Answer

Cassandra 2.0.7 包括 CQL Hadoop 类的本机协议类似物：

org.apache.cassandra.hadoop.cql3.CqlInputFormat org.apache.cassandra.hadoop.cql3.CqlRecordReader org.apache.cassandra.hadoop.cql3.CqlConfigHelper

examples/hadoop_cql3_word_count 中的 WordCount 代码已更新为使用这些类。

介绍这个的 JIRA 是https://issues.apache.org/jira/browse/CASSANDRA-6311

java - 使用本机协议为 Cassandra 自定义 map-reduce 输入格式化程序

1 回答 1

Related

Reference