0

我正在编写一个 Hadoop 应用程序来计算地理数据的切片(如谷歌地图)。当我执行 Map 任务时,我想检查所需的数据是否在 dfs 上可用。如果不是,则应稍后执行该映射。我以为我可以将 Map 任务设置为失败,以便 hadoop 稍后自动重新执行它。但是,我似乎无法找到如何做到这一点。谁能帮我?

4

1 回答 1

1

只有当 HDFS 中有数据需要处理时,才会启动 Map 任务。无需明确检查映射器代码中数据的可用性。

在 FileInputFormat 的情况下,作业中映射任务的数量等于输入拆分的数量或要处理的块的数量。

建议阅读Hadoop - The Definitive Guide中的相应 MapReduce 章节,以获得更清晰的信息。

于 2012-11-13T08:25:03.953 回答