0

I am a newbie to Hadoop. I have managed to develop a simple Map/Reduce application that works fine in 'pseudo distributed mode'.I want to test that in 'fully distributed mode'. I have few questions regarding that;

  1. How many machines(nodes) do I need (minimum & recommended) for processing a file size of 1-10GB?
  2. what are the hardware requirements(mainly, I want to know the # of cores, Memory space and disk space)?
4

1 回答 1

2

我会查看 Cloudera 的硬件建议:http ://www.cloudera.com/blog/2010/03/clouderas-support-team-shares-some-basic-hardware-recommendations/

该页面的片段

针对不同工作负载的各种硬件配置,包括我们最初的“基本”建议:

  • 光处理配置(1U/机器):两个四核 CPU、8GB 内存和 4 个磁盘驱动器(1TB 或 2TB)。请注意,CPU 密集型工作(例如自然语言处理)涉及在处理数据之前将大型模型加载到 RAM 中,并且应该配置为 2GB RAM/核心而不是 1GB RAM/核心。
  • 平衡计算配置(1U/机器):两个四核 CPU,16 到 24GB 内存,以及使用主板控制器直接连接的 4 个磁盘驱动器(1TB 或 2TB)。这些通常以双胞胎的形式提供,在一个 2U 机柜中具有两个主板和 8 个驱动器。
  • 存储重型配置(2U/机器):两个四核 CPU、16 到 24GB 内存和 12 个磁盘驱动器(1TB 或 2TB)。这种类型的机器在空闲状态下的功耗开始约为 200W,在活动状态下可高达 ~350W。
  • 计算密集型配置(2U/机器):两个四核 CPU、48-72GB 内存和 8 个磁盘驱动器(1TB 或 2TB)。当需要大型内存模型和大量引用数据缓存的组合时,通常会使用这些。
于 2011-06-06T16:59:33.690 回答