我正在寻找一种将大量文件(超过 1000 万个)从 S3 存储桶移动到 Google Cloud Storage 的方法,但到目前为止我遇到了问题。
目前我正在使用 gsutil,因为它对 S3 和 GCS 之间的通信具有原生支持,但我得到的性能并不好。也许我只是做错了,但我一直在使用以下 gsutil 命令:
gsutil -m cp -R s3://bucket gs://bucket
我启动了一个 c3.2xlarge AWS 实例(16GB 8CPU),这样我就可以拥有足够的马力,但看起来这个盒子的吞吐量并没有比 2GB 2CPU 盒子更好,我不明白吗?
我一直在搞乱~/.boto
配置文件,目前设置了以下选项:
parallel_process_count = 8
parallel_thread_count = 100
我认为肯定将线程数增加 10 倍会有所帮助,但到目前为止我的测试并没有产生任何影响。还有什么可以提高性能的吗?
或者是否有更好的工具将 S3 数据移动到 GCS?我正在查看 SDK,并且很想用 Java 编写一些东西。