我很难弄清楚,为什么当我使用 hive 查询运行查询以及使用 hcatalog 在同一个 hive 表上运行 MR 时,我得到不同数量的映射器。
Difference is significant for same input volume
With Hive Query : 913 mapper
With MR+hcatalog : 3106 mapper
我正在使用 RC 文件作为我正在访问的表上的存储格式。而且我没有在两个地方(hive 或 MR)对输入拆分大小进行任何调整
任何点击,为什么会发生这种情况,我在运行 MR 时尝试设置 mapred.max.split.size=536870912,它也让我减少了映射器的数量。