Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
假设我有 200 个输入文件和 20 个节点,每个节点有 10 个映射器插槽。Hadoop 是否总是平均分配工作,每个节点将获得 10 个输入文件并同时启动 10 个映射器?有没有办法强制这种行为?
使用多少映射器由输入决定——特别是输入拆分。因此,在您的情况下,可以将 200 个文件提供给 200 个映射器。但真正的答案要复杂一些。这取决于
文件大小:如果文件大于块大小,则将块大小的块发送到映射器
是可拆分的文件。例如 gzip 压缩文件不能被拆分。并且整个文件转到一个映射器(即使文件大于块大小)