hadoop - Hadoop 任务调度程序：容量与公平共享还是其他？

Question

背景

我的雇主正在逐步将我们的资源密集型 ETL 和后端处理逻辑从 MySQL 转移到 Hadoop ( dfs & hive )。目前，一切仍然有点小且易于管理（20 TB 超过 10 个节点），但我们打算逐步增加集群大小。

现在，hadoop 正在转向生产用途，它成为批处理调度和在 ad-hoc 用户配置单元查询、每小时 M/R 进程之间共享集群的更大问题，我相信最终会使用 hbase。担心的是用户可能会进行一个幼稚的查询，该查询可能会运行不合理的时间（例如 4 小时），从而阻塞任务队列并产生潜在的基础架构负载不稳定。

问题

我公司的另一部分已经被 Flume 的不成熟所烧毁，所以我的问题是，这两个已知的调度程序（Capacity 和 Fair）有多稳定，除了在他们的赞助公司（Yahoo 和 Facebook）中的使用之外，它们在其他地方是否使用过？

编辑：背景信息

http://www.cloudera.com/blog/2008/11/job-scheduling-in-hadoop/

http://hadoop.apache.org/mapreduce/docs/r0.21.0/fair_scheduler.html

http://hadoop.apache.org/mapreduce/docs/r0.21.0/capacity_scheduler.html

score 3 · Accepted Answer

3

默认情况下，我们使用 Fair Share 调度程序发送 CDH。它相当稳定。

于 2010-10-04T11:39:27.673 回答

hadoop - Hadoop 任务调度程序：容量与公平共享还是其他？

背景

问题

编辑：背景信息

1 回答 1

Related

Reference