7

有没有人尝试过跨多个数据中心测试数据节点的性能?特别是在带有小管道的网络上。我似乎找不到太多关于它的信息,而且我发现的信息要么是旧的(大约 2010 年)要么是专有的(似乎 DataStax 有一些东西)。我知道 Hadoop 支持机架感知,但就像我说的,我还没有看到任何用于为多个数据中心调整系统的文档。

4

1 回答 1

5

我已经尝试使用 12 x DataNode 集群以 2:1 的比例分布在相距大约 120 英里的两个数据中心之间。跨 2 x 1GbE 管道的数据中心之间的延迟约为 4 毫秒。

站点 A 配置了 2 个机架,站点 B 配置了 1 个机架。每个“机架”中有 4 台机器。我们基本上是在将站点 B 测试为“DR”站点。复制因子设置为 3。

长话短说,它有效,但性能非常非常糟糕。您肯定必须在源、映射和减少输出上使用压缩以缩小写入 I/O,如果站点之间的链接用于其他任何用途,您将在传输数据时遇到超时。TCP 窗口化将有效地将我们的传输限制在 4MBps 左右,而不是 1GbE 线路上潜在的 100MBps+。

省去自己的麻烦,只需使用 distcp 作业来复制数据!

于 2014-03-13T19:17:53.900 回答