我有一个有 50 个节点的集群,每个节点有 8 个计算核心。如果我有一份计划强加 200 个减速器的工作,那么什么是好的计算资源分配策略可以获得更好的性能?
我的意思是在每个节点上分配 50 个节点和 4 个内核,还是为每个节点分配 25 个节点和 8 个内核更好?在什么情况下哪个更好?
我有一个有 50 个节点的集群,每个节点有 8 个计算核心。如果我有一份计划强加 200 个减速器的工作,那么什么是好的计算资源分配策略可以获得更好的性能?
我的意思是在每个节点上分配 50 个节点和 4 个内核,还是为每个节点分配 25 个节点和 8 个内核更好?在什么情况下哪个更好?
很难说,通常总是“越高越好”。更多的机器会更好地防止故障。
通常 Hadoop 适合商用硬件,您可以为每台服务器选择 50 个 4 核。
但是我会选择 8 核,如果它们有更好的硬件,例如更高的 CPU 频率、DDR3 RAM 或 10k rpm 磁盘。
要回答您的问题,这取决于几件事。在我看来,50 个节点总体上会更好:
但是,如果您主要关心的是网络,以下是拥有 50 个节点的一些缺点:
即使有这些网络问题,我想你会发现 50 个节点更好,因为一个节点的价值不仅仅是核心数。您必须主要考虑您拥有多少磁盘。