amazon-ec2 - 开始使用 EC2 计算密集型（非 Web）并行应用程序

Question

我正在使用 LIBSVM 进行回归分析。像冠军一样工作。但是，为模型优化参数的 3 参数网格搜索将我的 2.66 GHz 英特尔机器上的所有四个内核都最大化，我仍然需要等待几个小时才能生成单个模型。

这似乎是 Amazon EC2 的工作。

我已经看过很多关于使用 EC2 完成与 Web 相关的任务的教程和介绍性材料。

但是，如果您有一个小型计算密集型自定义 ANSI-C 程序，您想在 EC2 上运行多个实例，该怎么办？任何人都可以提供有关如何做到这一点的指示（甚至只是要搜索的流行语）吗？

score 2 · Accepted Answer

我认为您的任务与 Web 应用程序的任务没有太大不同。你的堆栈当然是不同的，但无论如何——原则是一样的。

正如有人评论您的问题：Elastic Map Reduce可能是您正在寻找的轻松并行化您的工作等。如果这太有限，您可以查看Cloudera。一个随时可用的 hadoop 发行版，也支持 EC2。

如果您不喜欢map-reduce，那么您需要设置自己的实例。粗略地说，关键点如下：

启动 EC2 实例

如果您不需要自动缩放或自定义界面之类的东西，AWS 控制台可以做得非常好。您必须选择适合您项目的 AMI（亚马逊系统映像）。我可能会研究官方AMI或基于 Ubuntu 的东西（如果我没记错的话，Ubuntu 是 EC2 上最常用的 Linux）。

但这取决于你和你的喜好。（而且我对你的项目了解不够。）

一旦您找到适合您的设置，克隆您的工作的最简单方法是设置您自己的 AMI 并使用它启动实例等。

引导可以使用 EC2 所调用user-script的。它允许您将 shell 脚本传递给实例，该实例将执行调用以设置您的堆栈等。我不确定在这种情况下需要什么等。所以如果您评论或扩展您的答案，我可以在这里详细介绍。

这是一个疯狂的猜测，因为我不确定您的代码是做什么的，或者它是如何工作的，等等。如果没有必要，我可能会先使用单个实例来扩展它。您可以使用 EC2 轻松配置大量内核和 RAM。根据您的工作是否需要更多 RAM 或 CPU，请查看high-cpu 和 high-memory 实例类型。

您可以从开始t1.micro，您目前甚至可以免费获得它，然后从那里开始。

让我知道这是否有帮助！