关于运行 pig 脚本/map-reduce 作业,我几乎没有问题。
我知道 pig在真正开始执行 map/reduce 作业之前会创建逻辑、物理和执行计划;我可以使用命令explain <alias_name>查看逻辑/物理计划;但是我如何查看执行计划(我想列出计划的不同 map/reduce 任务)?在 pig 执行过程中,我看到创建了许多作业(map/reduce 对)。想了解这些工作解决了什么问题。
是否有任何明确的指南可以用来理解所制定的计划,因为口水很难理解。
我可以通过更改输入文件块的数量来更改映射作业的数量。我是否也可以控制减少作业的数量?如何设置减速器的数量?
mapper/reducer 节点的默认堆内存大小是多少?哪些工作参数反映了这些?我可以通过-Xmx 1024m选项更改堆内存吗?当我以这种方式设置堆内存时,我的工作过去常常失败 - 可能对可以提供哪些值有一些限制?
非常感谢!