0

我正在尝试使用 s3cmd CLI将32GB文件上传到 S3 存储桶。它正在进行分段上传,并且经常失败。我正在使用具有 1000mbps 带宽的服务器执行此操作。但是上传还是很慢。我可以做些什么来加快速度吗?

另一方面,该文件位于我提到的服务器上的 HDFS 上。有没有办法引用 Amazon Elastic Map Reduce 作业来从这个 HDFS 中提取它?它仍然是上传,但作业也正在执行。所以整个过程要快得多。

4

1 回答 1

0

首先我承认我从来没有使用过 s3cmd 的 Multipart 功能,所以我不能说这个。但是,我过去曾使用boto将大型(10-15GB 文件)上传到 S3,并取得了很大的成功。事实上,这对我来说变得如此普遍,以至于我编写了一个小实用程序来使它更容易。

至于您的 HDFS 问题,您始终可以使用完全限定的 URI 引用 HDFS 路径,例如 hdfs://{namenode}:{port}/path/to/files。这假设您的 EMR 集群可以访问此外部 HDFS 集群(可能必须使用安全组设置)

于 2012-11-26T15:12:46.703 回答