7

EC2 提供了一种非常方便、按需可扩展的机制来执行可分发(可并行)的进程,而 S3 提供了可靠的存储服务。

我试图将 EC2 节点用于 ETL 和分析过程,这个过程需要非常快速(一天内多次)摄取大量数据(100GB - 1TB),并在短时间内提供足够的计算资源。

以上设计需要

  1. S3 和 EC2 之间的高带宽/快速连接。
  2. S3--> EC2 连接也应该是可靠的,因为必须尽快安排启动、输入数据、执行进程和终止节点,这不仅是为了节省成本,而且还因为涉及到 SLA。

但至今

  1. 从 S3 中提取数据的唯一方法似乎是通过 http,因此它受到 EC2 节点的下载带宽的限制。
  2. 此外,数据摄取通过互联网进行,因此对于需要在作业之间进行充分缓冲的严格调度目的来说可能不够可靠。

在私有数据中心设置中,可以在存储和物理节点之间设置一条更快(比如 10Gbps)的专用线路。

对于可以满足上述要求的aws,是否有任何可能的替代方案/服务选项。

4

3 回答 3

5

我认为现在有更好的答案。

有一个单独的服务数据管道,它在 S3 和 EC2 之间提供可靠的数据传输

于 2013-06-10T02:47:33.930 回答
5

很大程度上取决于各种各样的事情——同一物理服务器上的其他 EC2 实例正在执行多少网络活动,您随时访问的特定 S3 节点,您是否与您的 S3 位于同一区域端点等

您可以对自己进行基准测试,但即便如此,它也会有很大差异。我有时每秒获得数兆字节,其他时候达到几百千字节。

于 2012-06-14T20:54:45.187 回答
2

至少我最近发现了这个(尽管它可能在某个时候可用)。Cloudberry 提供了将数据从 S3 传输到 EC2 的非常快速的方法。速度范围从 40MBPS 到 50MBPS。这是过程。从http://www.cloudberrylab.com/free-amazon-s3-explorer-cloudfront-IAM.aspx下载 cb s/w 。连接到 S3。看到文件后,右键单击文件以复制并选择 weburl。这将显示文件的 weburl。复制整个 url 并在 AWS VM 上使用 wget 获取 url 内容( wget [copied url]

我仍在寻找将数据从 VM 复制到 S3 的工具。S3cmd 很慢并且中断太频繁。

于 2013-05-10T14:58:14.933 回答