3

我正在尝试使用JD LongR调用的包,我读过一本名为“ Parallel RSegue ”的书,它被誉为将 R 与 AWS 结合使用的终极简单方法。

然而,连续第二天我遇到了一个问题,我开始创建一个集群,它只是说STARTING无限期。

我在 OS X 和 Linux 上尝试了这个,集群大小为 2、6、10、20 和 25。我让它们都运行了至少 6 个小时。我在 AWS EMR 管理控制台中启动集群没有问题,尽管我不知道如何连接Segue/R到在管理控制台中启动的集群,而不是通过createCluster().

所以我的问题是 - 是否有某种方法可以解决集群的配置问题,或者通过手动创建集群并以某种方式开始使用它来绕过问题Segue

这是我所看到的一个例子:

图书馆(转)

加载所需的包:rJava

加载所需的包:caTools

Segue 没有找到您的 AWS 凭证。请运行 setCredentials() 函数。

setCredentials("xxx", "xxx")

emr.handle <- createCluster(numInstances=10)

STARTING - 2013-07-12 10:36:44
STARTING - 2013-07-12 10:37:15
STARTING - 2013-07-12 10:37:46
STARTING - 2013-07-12 10:38:17

....这种情况持续了几个小时和几个小时......

管理控制台

更新##:经过 36 小时和多次尝试失败后,当我用 1 个节点尝试它时,它开始工作(随机... )。然后我用 10 个节点试了一下,效果很好。据我所知,本地或 AWS 上没有任何变化......

4

2 回答 2

2

我代表 AWS 支持代表回答我自己的问题,他们给了我以下迟来的解释:

EMR 创建的问题在于指定的可用区 (us-east-1c),此可用区现在受到限制,不允许创建新实例,因此作业试图在无限循环中创建实例.

您可以在此处查看有关受限 AZ 的信息:http: //docs.aws.amazon.com/AWSEC2/latest/UserGuide/using-regions-availability-zones.html#concepts-regions-availability-zones

“随着可用区随着时间的推移而增长,我们扩展它们的能力可能会受到限制。如果发生这种情况,我们可能会限制您在受限可用区中启动实例,除非您在该可用区中已经有一个实例。最终,我们也可能从新客户的可用区列表中删除受限可用区。因此,您的账户在一个区域中的可用可用区数量可能与另一个账户不同。”

所以你需要指定另一个可用区,或者我建议不要指定任何可用区,这样 EMR 将能够选择任何可用的可用区。

我找到了这个帖子:https ://groups.google.com/forum/#!topic/segue-r/GBd15jsFXkY

在 Google Groups 上,之前出现了可用区的主题。在该线程中设置为新默认值的区域是对我造成问题的区域。我正在尝试编辑 Segue 的来源。

于 2013-07-15T18:01:48.263 回答
1

Jason,我是 Segue 的作者,所以也许我可以提供帮助。

请查看 AWS 控制台下部的详细信息部分,看看您是否可以确定引导序列是否已完成。这是一个奇怪的问题,因为此阶段的错误通常会在所有用户中普遍存在。但是我无法复制这个。

于 2013-07-12T21:38:10.350 回答