我对并行计算世界很陌生。我的团队使用 Amazon EC2 和 S3 来管理所有数据,这确实为我打开了一个新世界。
我的问题是如何估算计算成本。假设我在 Amazon S3 上有 n TB 数据和 k 个文件(例如,我有 0.5 TB 数据和 7000 个 zip 文件),我想遍历所有文件,并使用 Pig Latin 为每一行执行一个正则表达式匹配操作的文件。
我对估算这些成本非常感兴趣:
- 我应该选择多少个实例来执行此任务?实例的容量是多少(主实例和 map-reduce 实例的大小)?我可以根据 n 和 k 以及每个运营成本来扣除这些容量和成本吗?
- 我设计了一个示例数据流:我使用一个 xlarge 实例作为我的主节点,并使用 10 个中型实例作为我的 map reduce 组。这够了吗?
- 如何最大化每个实例的带宽以从 S3 获取数据?从我设计的数据流来看,S3 的读取速度大约为每分钟 250,000,000 字节。究竟有多少数据传输到 ec2 实例?这会成为我工作流程的瓶颈吗?