我们非常广泛地使用 Elastic Map Reduce,并且正在使用它处理越来越多的数据。有时我们的工作会因为数据格式错误而失败。我们不断修改我们的地图脚本以处理各种异常,但有时仍然有一些格式错误的数据会设法破坏我们的脚本。
即使某些地图或减少作业失败,是否可以将 Elastic Map Reduce 指定为“继续出错”?
至少,是否有可能增加整个集群失败的最小失败任务数(有时,我们在 500 个左右的作业中只有 1 个失败的作业,我们希望至少获得这些结果并拥有集群继续运行。)
此外,虽然我们可以修改 map 脚本来处理新的异常,但我们使用默认的 Hadoop“聚合”reducer,当它失败时,我们无法捕获异常。是否有任何特殊的方法来处理“聚合”reducer 中的错误,或者我们是否必须使用上面问题 #2 中可用的任何东西(增加失败任务的最小数量。)