3

假设我有 200 个输入文件和 20 个节点,每个节点有 10 个映射器插槽。Hadoop 是否总是平均分配工作,每个节点将获得 10 个输入文件并同时启动 10 个映射器?有没有办法强制这种行为?

4

1 回答 1

2

使用多少映射器由输入决定——特别是输入拆分。因此,在您的情况下,可以将 200 个文件提供给 200 个映射器。但真正的答案要复杂一些。这取决于

  • 文件大小:如果文件大于块大小,则将块大小的块发送到映射器

  • 是可拆分的文件。例如 gzip 压缩文件不能被拆分。并且整个文件转到一个映射器(即使文件大于块大小)

于 2013-03-13T23:15:33.230 回答