我正在使用 Apache Cassandra (1.2) 和 Apache Map-Reduce 来处理一些数据。目前我CqlPagingInputFormat
从org.apache.cassandra.hadoop.cql3使用。此提供程序使用 Thrift 提取数据。Thrift 似乎相当慢(300M 记录,在 3 节点集群中需要 8 多个小时才能读取),并且由于存在原生二进制协议,我想知道是否有人使用过它。
我对任何其他优化和配置调整不感兴趣 - 这是一个单独的问题。
我的问题是
是否有直接使用 Cassandra 本机协议的 map-reduce 输入格式化程序的实现?
如果没有,我自己编写的第一步是什么,例如使用 DataStax 驱动程序?