我正在使用4个核心节点..
我正在使用 hive 在表上运行查询。
各种查询似乎都在利用容量。
我的表由 8 个整数字段和大约 1000 行组成。
表格查询
从 tbl 中选择 avg(col1-col2);从 tbl 中选择计数(*);我尝试过的所有其他查询都在产生
减速器数量=1,映射器数量=1
我试过使用 set mapred.reduce.tasks=4;
但它不起作用。
最奇怪的是,当我使用 mapred.job.tracker=local 时,这意味着本地节点本身上的一个 map 和一个 reduce 任务完成的速度是原来的两倍。
除一个之外的所有reduce/map 插槽始终处于打开状态。
为什么增加容量甚至没有稍微改善执行时间?我的数据样本是否如此之小以至于增加容量无关紧要并且本地化映射和缩减实际上可以缩短时间?