8

我不需要 Hive 或 Pig,Amazon Data Pipeline 默认将它们安装在它启动的任何 EMR 集群上。这使得测试花费的时间比它应该的要长。关于如何禁用安装的任何想法?

4

1 回答 1

1

这在今天是不可能的。

唯一的解决方法是启动一个用于测试的小型 EMR 集群(例如使用单个主服务器 - m1.small)。然后将它与“workergroup”一起使用,而不是“runsOn”。

根据您要使用的活动类型,可能支持也可能不支持 workergroup 字段。但是您总是可以将所有内容包装在一个脚本(python、shell 或 blah)中,并将其与 ShellCommandActivity 一起使用。


更新(由 ChristopherB 正确提醒):

从 3.x AMI 版本开始,Hive 和 Pig 捆绑在 AMI 本身中。因此,这些步骤不会从 S3 中提取任何新包,而只会激活主节点上的守护进程。因此,除非您担心它们会消耗您的实例资源(CPU、内存等),否则应该没问题。他们不会花费大量时间来运行。

于 2015-02-16T18:52:03.017 回答