performance - Spark 在独立而不是 YARN 中工作得更快

Question

想要一些关于独立和纱线火花执行的见解。我们有一个 4 节点 cloudera 集群，目前我们的应用程序在 YARN 模式下运行时的性能不到我们在独立模式下执行时获得的性能的一半。是否有人对可能导致此问题的因素有所了解。

score 3 · Accepted Answer

基本上，您的数据和集群太小了。

大数据技术的真正目的是处理单个系统无法容纳的数据。鉴于您的集群有 4 个节点，它可能适用于 POC 工作，但您不应认为这可用于对应用程序进行基准测试。

为了给您一个参考框架，请参阅 Hortonworks 的文章BENCHMARK：使用 APACHE HIVE 和 DRUID 的 SUB-SECOND ANALYTICS使用以下集群：

10 个节点

2 个 Intel(R) Xeon(R) CPU E5-2640 v2 @ 2.00GHz，每个具有 16 个 CPU 线程

每个节点 256 GB RAM

每个节点 6 个 WDC WD4000FYYZ-0 1K02 4TB SCSI 磁盘

这适用于 320 个 CPU 内核、2560GB RAM、240TB 磁盘。

CPU：2 个插槽，总共 12 个内核，Intel Xeon CPU E5-2630L 0，2.00GHz

12 个磁盘驱动器，每个 932GB（一个用于操作系统，其余用于 HDFS）

384GB内存

这适用于 504 个 CPU 内核、8064GB RAM 和 231TB 磁盘。

这应该可以让您了解可以使您的系统在基准测试中可靠的规模。

1 回答 1