我认为您的任务与 Web 应用程序的任务没有太大不同。你的堆栈当然是不同的,但无论如何——原则是一样的。
正如有人评论您的问题:Elastic Map Reduce可能是您正在寻找的轻松并行化您的工作等。如果这太有限,您可以查看Cloudera。一个随时可用的 hadoop 发行版,也支持 EC2。
如果您不喜欢map-reduce,那么您需要设置自己的实例。粗略地说,关键点如下:
- 您想找到一种启动 EC2 实例的方法。
- 您想找到一种引导和配置它们的方法。
- 集群/网络?
启动 EC2 实例
如果您不需要自动缩放或自定义界面之类的东西,AWS 控制台可以做得非常好。您必须选择适合您项目的 AMI(亚马逊系统映像)。我可能会研究官方AMI或基于 Ubuntu 的东西(如果我没记错的话,Ubuntu 是 EC2 上最常用的 Linux)。
但这取决于你和你的喜好。(而且我对你的项目了解不够。)
一旦您找到适合您的设置,克隆您的工作的最简单方法是设置您自己的 AMI 并使用它启动实例等。
自举
引导可以使用 EC2 所调用user-script
的。它允许您将 shell 脚本传递给实例,该实例将执行调用以设置您的堆栈等。我不确定在这种情况下需要什么等。所以如果您评论或扩展您的答案,我可以在这里详细介绍。
集群/网络
这是一个疯狂的猜测,因为我不确定您的代码是做什么的,或者它是如何工作的,等等。如果没有必要,我可能会先使用单个实例来扩展它。您可以使用 EC2 轻松配置大量内核和 RAM。根据您的工作是否需要更多 RAM 或 CPU,请查看high-cpu 和 high-memory 实例类型。
您可以从 开始t1.micro
,您目前甚至可以免费获得它,然后从那里开始。
让我知道这是否有帮助!