0

我在 2 节点集群上有一个具有 147.968 行的 ColumnFamily(显示“nodetool cfstats”)。

如果我执行我的 Hadoop 作业,他在“地图输入记录”上只显示 90.174 行?我的 Hadoop CQL 输入配置是:

ConfigHelper.setInputRpcPort(job.getConfiguration(), "9160");
ConfigHelper.setInputInitialAddress(job.getConfiguration(), "xxx.xxx.xxx.xxx");
ConfigHelper.setInputColumnFamily(job.getConfiguration(), KEYSPACE, "columnfamilyname");
ConfigHelper.setInputPartitioner(job.getConfiguration(), "Murmur3Partitioner");

还有什么要配置的吗?

4

1 回答 1

1

你的输入/输出格式是什么?最好使用 CqlPagingInputFormat。自由贸易区。cql 表行与列族行不同,因此如果您使用 CqlPagingInputFormat,您应该获得与从 Cqlsh 获得的行数相同的行数。

于 2013-11-05T00:05:19.110 回答