我在 GCP 中有一个包含数百万个 3kb 文件的存储桶,我想将它们复制到 S3 存储桶中。我知道 google 有一个超快速的传输服务,但是我无法使用该解决方案将数据推送回 S3。
由于对象的数量,运行简单gsutil -m rsync gs://mybucket s3://mybucket
可能无法完成这项工作,因为传输所有内容至少需要一周时间。
有比这更快的解决方案吗?
我在 GCP 中有一个包含数百万个 3kb 文件的存储桶,我想将它们复制到 S3 存储桶中。我知道 google 有一个超快速的传输服务,但是我无法使用该解决方案将数据推送回 S3。
由于对象的数量,运行简单gsutil -m rsync gs://mybucket s3://mybucket
可能无法完成这项工作,因为传输所有内容至少需要一周时间。
有比这更快的解决方案吗?
我们遇到了将小文件推送到 S3 的相同问题。压缩和存储它做同样的事情。这是为您的帐户设置的限制。
如文档中所述,您需要在发送突发请求之前打开支持票以增加您的限制。
https://docs.aws.amazon.com/AmazonS3/latest/dev/request-rate-perf-considerations.html
它不是文件的大小或所有对象的大小在这里很重要。问题在于您拥有的文件数量。
希望能帮助到你。
在 AWS 方面,您可能想看看S3 Transfer Acceleration是否会有所帮助。启用它和命名它有特定的要求。您可能希望确保存储桶位于靠近当前存储数据的位置,但这可能有助于加快速度。
就我个人而言,我认为您将遇到的主要问题与其说是亚马逊 S3 服务的入口速率,不如说是谷歌网络的网络出口速率。即使您启用了 S3 Transfer Acceleration 服务,您仍然会受到 Google 网络的出口速度的限制。
您可以设置其他服务,这些服务可能有助于加快流程。也许研究一种允许您在网络之间建立快速链接的互连解决方案。最简单的设置解决方案是Cloud VPN解决方案,它可以让您在 AWS 和 Google 网络之间建立快速上行链路(每个隧道 1.5-3 Gbps)。
否则,从您的数据需求来看,传输 3,000 GB 的数据量并不是一个可怕的数据量,并且设置一个云服务器以在一周的时间内传输数据也不算太糟糕。您可能会发现,当您设置另一个解决方案时,首先启动一台机器并让它运行一周可能会更容易。