EC2 提供了一种非常方便、按需可扩展的机制来执行可分发(可并行)的进程,而 S3 提供了可靠的存储服务。
我试图将 EC2 节点用于 ETL 和分析过程,这个过程需要非常快速(一天内多次)摄取大量数据(100GB - 1TB),并在短时间内提供足够的计算资源。
以上设计需要
- S3 和 EC2 之间的高带宽/快速连接。
- S3--> EC2 连接也应该是可靠的,因为必须尽快安排启动、输入数据、执行进程和终止节点,这不仅是为了节省成本,而且还因为涉及到 SLA。
但至今
- 从 S3 中提取数据的唯一方法似乎是通过 http,因此它受到 EC2 节点的下载带宽的限制。
- 此外,数据摄取通过互联网进行,因此对于需要在作业之间进行充分缓冲的严格调度目的来说可能不够可靠。
在私有数据中心设置中,可以在存储和物理节点之间设置一条更快(比如 10Gbps)的专用线路。
对于可以满足上述要求的aws,是否有任何可能的替代方案/服务选项。