0

关于运行 pig 脚本/map-reduce 作业,我几乎没有问题。

  1. 我知道 pig在真正开始执行 map/reduce 作业之前会创建逻辑、物理和执行计划;我可以使用命令explain <alias_name>查看逻辑/物理计划;但是我如何查看执行计划(我想列出计划的不同 map/reduce 任务)?在 pig 执行过程中,我看到创建了许多作业(map/reduce 对)。想了解这些工作解决了什么问题。

  2. 是否有任何明确的指南可以用来理解所制定的计划,因为口水很难理解。

  3. 我可以通过更改输入文件块的数量来更改映射作业的数量。我是否也可以控制减少作业的数量?如何设置减速器的数量?

  4. mapper/reducer 节点的默认堆内存大小是多少?哪些工作参数反映了这些?我可以通过-Xmx 1024m选项更改堆内存吗?当我以这种方式设置堆内存时,我的工作过去常常失败 - 可能对可以提供哪些值有一些限制?

非常感谢!

4

2 回答 2

2
  1. "Explain(pig command)" ALIAS-NAME 解释物理计划(在 Map reduce 作业方面)

  2. 别名将在 MR 作业中组合在一起。在计划阶段本身可以看到,所有别名都被分组到一个给定的 MR 中。

  3. 要控制减速器的数量,可以在编写连接时使用“USING PARALLEL desired_no”,groupby 或在 pig 脚本开始时使用“set default_parallel desired no”。

  4. 这取决于一头奔跑的猪在哪里。如果它的 MRv1 :在 mrv2 中设置 mapred.java.opts -Xmx :设置 mapred.map.size ,设置 mapred.map.java.opts -Xmx

于 2015-04-27T19:29:42.913 回答
2
  1. 解释产生了不同种类的计划。提供目录路径而不是文件以从“解释”中获取所有 3 个计划。

  2. 不知道。

  3. set default_parallel 10将减少工作的数量设置为 10。

  4. 它必须在您的 hadoop 设置中。

于 2011-10-26T23:27:58.437 回答