0

我正在处理超过 200,000 个 netcdf 文件,每个文件为 17 MB。它们都在谷歌云存储桶中,我正在尝试找到一种使用 gcsfuse 增加吞吐量的方法。

我正在使用谷歌云计算引擎虚拟机和 gcsfuse 来访问文件。我查看了 gsutil,但在 Google Cloud 文档中读到“单个 I/O 流的运行速度大约与 gsutil 一样快”。使用 gcsfuse 的 NCL 脚本将需要 8 天以上,这太长了。关于如何提高吞吐量的任何建议?谢谢你。

4

1 回答 1

0

优化传输性能您必须考虑:

  1. 在同一区域中找到您的 Cloud Storage 存储桶和 Compute Engine 虚拟机实例。
  2. 通过创建具有更多 vCPU 内核的实例来增加您的 Compute Engine 虚拟机实例网络带宽
  3. 提高永久性磁盘吞吐量
  4. 使用 gsutil -r 和-m 选项并行运行任务,您甚至可以通过 parallel_thread_count 设置用于复制文件的线程数
  5. 请查看有关脚本传输的文档
  6. 在使用 gcsfuse 时,检查您是否拥有针对并行传输进行优化的 0.27.0 版本。
于 2019-07-18T10:42:04.620 回答