1

我正在使用带有两个节点的 Datastax Cassandra 3.1.4。我正在使用 CqlStorage() 运行 pig,表中有 1200 万行,但我发现只有一个地图在运行一个简单的 pig 命令。

我尝试在我的猪关系中更改 split_size 但它没有奏效。

这是我的示例查询。

x = load'cql://Mykeyspace/MyCF?split_size=1000' using CqlStorage();
y = limit x 500;
dump y

我在 mapred-site.xml 中没有找到 input.split.size 属性我假设默认拆分大小为 64*1024

我试过了set pig.splitCombination false;

现在它为任何记录记录了 513 张地图,我从 Hive 尝试了同样的事情

我已经从 Hive 连接到 Cassandra,并给出了一个简单的全选查询,其中 col1>value 这个表只有 10 条记录,但仍然运行 513 个地图。

请帮助我

谢谢

4

1 回答 1

1

试试这个设置:

set pig.splitCombination false;

默认情况下,pig 会将它认为小的分割组合成一个 map

于 2014-04-10T15:20:09.973 回答