memory - Apache PIG 问题

翻译自：https://stackoverflow.com/questions/6566916 2011-07-04T02:57:43.690

625 次

0

关于运行 pig 脚本/map-reduce 作业，我几乎没有问题。

我知道 pig在真正开始执行 map/reduce 作业之前会创建逻辑、物理和执行计划；我可以使用命令explain <alias_name>查看逻辑/物理计划；但是我如何查看执行计划（我想列出计划的不同 map/reduce 任务）？在 pig 执行过程中，我看到创建了许多作业（map/reduce 对）。想了解这些工作解决了什么问题。
是否有任何明确的指南可以用来理解所制定的计划，因为口水很难理解。
我可以通过更改输入文件块的数量来更改映射作业的数量。我是否也可以控制减少作业的数量？如何设置减速器的数量？
mapper/reducer 节点的默认堆内存大小是多少？哪些工作参数反映了这些？我可以通过-Xmx 1024m选项更改堆内存吗？当我以这种方式设置堆内存时，我的工作过去常常失败 - 可能对可以提供哪些值有一些限制？

非常感谢！

2 回答 2

2

"Explain(pig command)" ALIAS-NAME 解释物理计划（在 Map reduce 作业方面）
别名将在 MR 作业中组合在一起。在计划阶段本身可以看到，所有别名都被分组到一个给定的 MR 中。
要控制减速器的数量，可以在编写连接时使用“USING PARALLEL desired_no”，groupby 或在 pig 脚本开始时使用“set default_parallel desired no”。
这取决于一头奔跑的猪在哪里。如果它的 MRv1 ：在 mrv2 中设置 mapred.java.opts -Xmx ：设置 mapred.map.size ，设置 mapred.map.java.opts -Xmx

于 2015-04-27T19:29:42.913 回答

2

解释产生了不同种类的计划。提供目录路径而不是文件以从“解释”中获取所有 3 个计划。
不知道。
set default_parallel 10将减少工作的数量设置为 10。
它必须在您的 hadoop 设置中。

于 2011-10-26T23:27:58.437 回答