hadoop - 在单节点集群上运行 Hadoop 时 HDFS 是如何工作的？

Question

有很多内容解释了数据局部性以及如何MapReduce在HDFS多节点集群上工作。但我找不到关于单节点设置的太多信息。在我试验的过去三个月中，我Hadoop一直在阅读有关映射器和减速器数量的教程和线程，并编写自定义分区器以优化作业，但我一直在想，它是否适用于单节点集群？

MapReduce与多节点集群相比，在单节点集群上运行作业的损失是多少？

通过拆分输入数据提供的并行性在这种情况下是否仍然适用？

从单个节点读取输入HDFS和从本地文件系统读取有什么区别？

我认为由于我的经验不足，我无法清楚地回答这些问题，因此不胜感激！

提前致谢！

编辑：我了解 Hadoop 不适合单节点设置，因为@TC1 列出了所有因素。那么，搭建一个伪分布式Hadoop环境有什么好处呢？

score 3 · Accepted Answer

我一直在阅读有关映射器和减速器数量的教程和线程，并编写自定义分区器以优化作业，但我一直认为，它是否适用于单节点集群？

这取决于。组合器在映射和归约之间运行，如果使用得当，即使在单个节点上，您也肯定会感受到影响。自定义分区器——可能没有，数据在减少之前会到达同一个磁盘。它们会影响逻辑，即你的 reducer 收到什么数据，但可能不会影响性能

与多节点集群相比，在单节点集群上运行 MapReduce 作业有什么损失？

通过拆分输入数据提供的并行性在这种情况下是否仍然适用？

从单节点 HDFS 读取输入和从本地文件系统读取有什么区别？

编辑：

“单节点”和“伪分布式”的区别在于，在单模式下，所有 Hadoop 进程都在单个 JVM 上运行。不涉及网络通信，甚至不涉及localhost等。即使只是在小数据上测试作业，我建议使用伪分布式，因为这与集群基本相同。

1 回答 1