我计划使用 GCE 集群和 gsutil 将大约 50Tb 的数据从 Amazon S3 传输到 GCS。到目前为止,我有一个很好的方法可以将负载分配到我必须使用的许多实例上,但是与我在本地集群中实现的相比,我的传输速率非常慢。这是我正在做的事情的详细信息
实例类型: n1-highcpu-8-d
图片: debian-6-squeeze
工作期间的典型负载平均值: 26.43、23.15、21.15
70GB 测试的平均传输速度(对于单个实例): ~21mbps
平均文件大小: ~300mb
.boto 进程数: 8
.boto 线程数: 10
我一次在大约 400 个 s3 文件上调用 gsutil:
gsutil -m cp -InL manifest.txt gs://my_bucket
我需要一些关于如何在每个实例上加快传输速度的建议。对于 n1-highcpu-8-d 实例是否是最佳选择,我也不是 100%。我正在考虑可能自己使用 python 并行化这项工作,但我认为调整 gsutil 设置可以产生良好的结果。任何意见是极大的赞赏