3

我正在寻找一种将大量文件(超过 1000 万个)从 S3 存储桶移动到 Google Cloud Storage 的方法,但到目前为止我遇到了问题。

目前我正在使用 gsutil,因为它对 S3 和 GCS 之间的通信具有原生支持,但我得到的性能并不好。也许我只是做错了,但我一直在使用以下 gsutil 命令:

gsutil -m cp -R s3://bucket gs://bucket

我启动了一个 c3.2xlarge AWS 实例(16GB 8CPU),这样我就可以拥有足够的马力,但看起来这个盒子的吞吐量并没有比 2GB 2CPU 盒子更好,我不明白吗?

我一直在搞乱~/.boto配置文件,目前设置了以下选项:

parallel_process_count = 8
parallel_thread_count = 100

我认为肯定将线程数增加 10 倍会有所帮助,但到目前为止我的测试并没有产生任何影响。还有什么可以提高性能的吗?

或者是否有更好的工具将 S3 数据移动到 GCS?我正在查看 SDK,并且很想用 Java 编写一些东西。

4

1 回答 1

5

Google Cloud Storage Online Cloud Import专门用于从大量 URL 列表或 S3 存储桶将大尺寸和大量文件导入 GCS。它是为使用“gsutil -m”(这是首先尝试的好东西)需要太长时间的数据大小而设计的。它目前可以免费使用。

(免责声明,我是该项目的 PM)

于 2014-07-11T05:09:01.897 回答