3

我正在按照本指南在最新的 AMI / EMR 集群上安装 Spark:

http://docs.aws.amazon.com/ElasticMapReduce/latest/ReleaseGuide/emr-spark-launch.html

我想安装 Ganglia 来监控集群,所以我添加Name=Ganglia到要安装的应用程序列表中:

aws emr create-cluster --name "Spark cluster" --release-label emr-4.0.0 --applications Name=Spark Name=Ganglia --ec2-attributes KeyName=myKey --instance-type m3.xlarge --instance-count 3 --use-default-roles

但我收到以下错误消息:

调用 RunJobFlow 操作时发生客户端错误(ValidationException):指定应用程序:Ganglia 无效

以下是我正在运行的版本:

aws --version
aws-cli/1.7.41 Python/2.7.7 Linux/2.6.32-431.29.2.el6.x86_64
4

4 回答 4

2

Ganglia 不是 EMR 4.0 版本的一部分。

官方 API 文档显示以下有效值:“Hadoop”、“Hive”、“Mahout”、“Pig”和“Spark”。

AWS CLI 文档似乎不正确。

于 2015-07-29T21:22:43.410 回答
1

通常的 Ganglia 引导操作在 emr-4.0.0 下也不起作用。看到这个问题

于 2015-08-19T20:14:44.623 回答
0

Amazon 可能正在努力为 EMR 4.x 创建 Ganglia 的官方版本。在此之前,您可以使用此引导操作:

s3://support.elasticmapreduce/release/4.x/ganglia/install_ganglia_emr-4.0.0.rb
于 2015-11-17T07:45:56.783 回答
-1

如果您继续使用引导操作,则应该没问题。

// AWSCLI 示例

aws emr create-cluster                  \
  --bootstrap-actions file://bootstrap_actions.json \
  ...

// bootstrap_actions.json

{
    "Name": "Install Ganglia",
    "Path": "s3://elasticmapreduce/bootstrap-actions/install-ganglia"
  },

或者来自 DataPipeline(管道定义文件示例):

   {
      "id": "EmrCluster",
      "name": "My Cluster (staging)",
      "type": "EmrCluster",
      "bootstrapAction": [
        "s3://elasticmapreduce/bootstrap-actions/install-ganglia"
      ],
      etc..
    },
于 2015-08-03T16:54:03.767 回答