我想知道如何设置数量
名称节点
数据节点
映射器
减速机
在Hadoop的代码/配置中。
Namenode 和 DataNode 数量取决于您的业务需求。你不是通过编程来设置它们的。
如果您需要可扩展性,则必须研究 HDFS 联合的概念。
有关联合的更多详细信息,请参阅此文档页面。
为了横向扩展名称服务,联邦使用多个独立的名称节点/名称空间。Namenodes是联合的;Namenodes是独立的,不需要相互协调。Datanodes被所有Namenodes用作块的公共存储。
映射器的数量由输入拆分决定。
您可以以编程方式设置减速器的数量,但框架没有义务遵守您的建议。
所以最好让 Hadoop 来决定 Mappers 和 Reducer 的数量。
看看这个相关的 SE 问题:
编辑:
Hadoop 集群规模: 1. 根据您的业务需求确定数据需求 2. 确定数据的复制因子 3. 计算未来几年的数据爆炸率 4. 获得上述数据后,您可以考虑 Namenode 的理想集群规模和硬件要求和数据节点。
有关更多详细信息,请参阅此 cloudera文章。
地图的正确并行度似乎是每个节点大约 10-100 个地图”节点在这里是指 NameNode 还是 DataNode?
它是数据节点。
在谈论 Mappers 时,有人说与拆分相同的数量,另一个说相同数量的块,而其他人说它是由框架决定的
它由 hadoop 框架根据输入拆分的数量决定。
看看相关的 SE 问题: