想要一些关于独立和纱线火花执行的见解。我们有一个 4 节点 cloudera 集群,目前我们的应用程序在 YARN 模式下运行时的性能不到我们在独立模式下执行时获得的性能的一半。是否有人对可能导致此问题的因素有所了解。
问问题
846 次
1 回答
3
基本上,您的数据和集群太小了。
大数据技术的真正目的是处理单个系统无法容纳的数据。鉴于您的集群有 4 个节点,它可能适用于 POC 工作,但您不应认为这可用于对应用程序进行基准测试。
为了给您一个参考框架,请参阅 Hortonworks 的文章BENCHMARK:使用 APACHE HIVE 和 DRUID 的 SUB-SECOND ANALYTICS使用以下集群:
- 10 个节点
- 2 个 Intel(R) Xeon(R) CPU E5-2640 v2 @ 2.00GHz,每个具有 16 个 CPU 线程
- 每个节点 256 GB RAM
- 每个节点 6 个 WDC WD4000FYYZ-0 1K02 4TB SCSI 磁盘
这适用于 320 个 CPU 内核、2560GB RAM、240TB 磁盘。
Cloudera 的文章New SQL Benchmarks: Apache Impala (incubating) Uniquely Delivers Analytic Database Performance的另一个基准测试使用 21 个节点的集群,每个节点位于:
- CPU:2 个插槽,总共 12 个内核,Intel Xeon CPU E5-2630L 0,2.00GHz
- 12 个磁盘驱动器,每个 932GB(一个用于操作系统,其余用于 HDFS)
- 384GB内存
这适用于 504 个 CPU 内核、8064GB RAM 和 231TB 磁盘。
这应该可以让您了解可以使您的系统在基准测试中可靠的规模。
于 2018-04-13T18:48:49.573 回答