hadoop - Amazon S3 分段上传经常失败

Question

我正在尝试使用 s3cmd CLI将32GB文件上传到 S3 存储桶。它正在进行分段上传，并且经常失败。我正在使用具有 1000mbps 带宽的服务器执行此操作。但是上传还是很慢。我可以做些什么来加快速度吗？

另一方面，该文件位于我提到的服务器上的 HDFS 上。有没有办法引用 Amazon Elastic Map Reduce 作业来从这个 HDFS 中提取它？它仍然是上传，但作业也正在执行。所以整个过程要快得多。

score 0 · Accepted Answer

首先我承认我从来没有使用过 s3cmd 的 Multipart 功能，所以我不能说这个。但是，我过去曾使用boto将大型（10-15GB 文件）上传到 S3，并取得了很大的成功。事实上，这对我来说变得如此普遍，以至于我编写了一个小实用程序来使它更容易。

至于您的 HDFS 问题，您始终可以使用完全限定的 URI 引用 HDFS 路径，例如 hdfs://{namenode}:{port}/path/to/files。这假设您的 EMR 集群可以访问此外部 HDFS 集群（可能必须使用安全组设置）

1 回答 1