0

我对并行计算世界很陌生。我的团队使用 Amazon EC2 和 S3 来管理所有数据,这确实为我打开了一个新世界。

我的问题是如何估算计算成本。假设我在 Amazon S3 上有 n TB 数据和 k 个文件(例如,我有 0.5 TB 数据和 7000 个 zip 文件),我想遍历所有文件,并使用 Pig Latin 为每一行执行一个正则表达式匹配操作的文件。

我对估算这些成本非常感兴趣:

  1. 我应该选择多少个实例来执行此任务?实例的容量是多少(主实例和 map-reduce 实例的大小)?我可以根据 n 和 k 以及每个运营成本来扣除这些容量和成本吗?
  2. 我设计了一个示例数据流:我使用一个 xlarge 实例作为我的主节点,并使用 10 个中型实例作为我的 map reduce 组。这够了吗?
  3. 如何最大化每个实例的带宽以从 S3 获取数据?从我设计的数据流来看,S3 的读取速度大约为每分钟 250,000,000 字节。究竟有多少数据传输到 ec2 实例?这会成为我工作流程的瓶颈吗?
4

1 回答 1

1

1-恕我直言,这完全取决于您的需求。您需要根据要执行的计算强度来选择它。您显然可以根据您的数据集和您要对该数据执行的计算量来降低成本。

2- 需要多少数据?什么样的操作?延迟/吞吐量?对于 POC 和小型项目,这似乎已经足够好了。

3-它实际上取决于几件事,例如 - 您是否与 S3 端点位于同一区域,您在某个时间点访问的特定 S3 节点等。如果您使用 EBS 实例可能会更好恕我直言,需要更快的数据访问。您可以将 EBS 卷挂载到您的 EC2 实例,并将您经常需要的数据保留在其中。否则,一些直接的解决方案是在服务器之间使用 10 Gigabit 连接,或者可能使用专用(昂贵)实例。但是,没有人能保证数据传输是否会成为瓶颈。有时可能。

我不知道这是否完全回答了您的费用查询,但他们的月度计算器肯定会这样做。

于 2013-06-19T20:38:21.463 回答