10

我正在使用 amazon EMR 进行一些密集的计算,但是,开始计算大约需要 7 分钟,有没有一些聪明的方法可以让我的计算立即开始?计算是从面向用户的网站开始的 python 流,所以我真的无法承受长时间的启动。

我可能只是错过了亚马逊 AWS 的海洋选项。我只想简单地启动作业(这就是我使用的 EMR)、可扩展性,并且只为我使用的东西付费(并且启动时间没有用处)。

4

3 回答 3

8

我知道这是一个老问题,但有一些见解我会添加到下一个找到这个线程的搜索者,希望能加快 Amazon EMR 上的引导时间。

有一段时间我想知道为什么我的集群需要这么长时间才能启动,通常大约 15 分钟。对于通常在 1 小时内完成的工作,这需要相当大的时间。有时它会将工作推到 1 小时之后,但我认为值得庆幸的是 AWS 不会对完整的引导时间收费。

最近几天我注意到我的启动时间得到了改善。您会看到现货市场在 4 月和 5 月的第一周变得非常不稳定。通常情况下,我会完全使用 Spot 实例启动我的集群,因为可以选择失败,并且在我的案例中,成本节省证明了该技术的合理性。然而,等了 14 小时集群启动后,我不得不切换到 OnDemand,我只有这么多的耐心,一夜之间通常超过它。OnDemand 集群在大约 5 分钟后启动。现在已经切换回现场,因为疯狂似乎已经减弱,我又回到了 15 分钟的集群。

因此,如果您在核心或主节点上使用 Spot 实例,预计启动时间会更长。我将尝试在核心中使用一小部分 OnDemand,并增加大量的现货实例,看看它是否有助于启动并更好地应对现货市场的波动。

于 2015-05-15T21:47:24.857 回答
2

这很正常,您对此无能为力。我正在启动 100 多个节点集群,我发现它们需要 15 分钟以上才能开始处理。考虑到后台正在进行的大量工作,我很乐意让他们有 15 分钟左右的时间来配置集群并读取可能需要的任何数据。我害怕野兽的本性。

于 2012-12-05T15:51:09.533 回答
1

您的数据源托管在哪里?

如果在 S3 上(可能),如果您有许多小文件,则每个连接(每个文件)的延迟都会花费时间。

如果这是唯一的原因,那么您的 7 分钟启动时间将转换为从 S3 时间读取约 5 分钟 => S3 上约 1GB 输入文件

于 2012-07-05T22:38:46.447 回答