我有一个运行非常耗时的 UDF 的猪脚本。Pig 似乎将 UDF 设置为作为映射作业而不是缩减作业运行。结果,创建了少量的映射器来运行该作业。我知道我可以设置在 pig 中使用的默认减速器数量,setDefaultParallel
也可以使用PARALELL x
PigLatin 中的命令来设置给定行的减速器数量。但是我该怎么做才能设置映射器的数量呢?我已经看到有关通过定义我自己的 InputSplit 大小来增加映射器数量的帖子,但我想将映射器的数量明确设置为主机数 * 核心数,文件大小不应该与它有任何关系。
如果我无法控制映射器的数量,是否有强制我的 UDF 作为减速器出现,因为我可以控制它们?