4

背景

我的雇主正在逐步将我们的资源密集型 ETL 和后端处理逻辑从 MySQL 转移到 Hadoop ( dfs & hive )。目前,一切仍然有点小且易于管理(20 TB 超过 10 个节点),但我们打算逐步增加集群大小。

现在,hadoop 正在转向生产用途,它成为批处理调度和在 ad-hoc 用户配置单元查询、每小时 M/R 进程之间共享集群的更大问题,我相信最终会使用 hbase。担心的是用户可能会进行一个幼稚的查询,该查询可能会运行不合理的时间(例如 4 小时),从而阻塞任务队列并产生潜在的基础架构负载不稳定。

问题

我公司的另一部分已经被 Flume 的不成熟所烧毁,所以我的问题是,这两个已知的调度程序(Capacity 和 Fair)有多稳定,除了在他们的赞助公司(Yahoo 和 Facebook)中的使用之外,它们在其他地方是否使用过?

编辑:背景信息

http://www.cloudera.com/blog/2008/11/job-scheduling-in-hadoop/

http://hadoop.apache.org/mapreduce/docs/r0.21.0/fair_scheduler.html

http://hadoop.apache.org/mapreduce/docs/r0.21.0/capacity_scheduler.html

4

1 回答 1

3

默认情况下,我们使用 Fair Share 调度程序发送 CDH。它相当稳定。

于 2010-10-04T11:39:27.673 回答