问题标签 [gsutil]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
298 浏览

acl - 谷歌存储桶上传权限

我尝试使用Google 云存储文档中的说明创建“供应商保管箱”, 执行了以下命令集:

创建存储桶

添加外部用户权限

添加默认acl

使用命令验证 acl 修改 gsutil getacl gs://customer-10 (验证成功)

但是当用户访问存储桶时,使用链接 https://storage.cloud.google.com/?arg=customer-10&pli=1#customer-10

无法任何文件上传到此存储桶中。

我的场景中缺少什么?请帮忙

0 投票
2 回答
8990 浏览

pipe - 管道 gsutil 输出到文件

问候 StackOverflow,

我正在 Windows 上做一个小项目,它需要读取 GSUTIL 的复制功能的输出。问题是,复制功能的输出似乎无法通过标准输出工作。此外,GSUTIL 的行为不一致:管道输出不适用于复制功能,但使用列表功能确实有效。

当我在命令提示符中使用以下命令时,输出会显示在命令提示符中,但不会重定向到文本文件。此命令无法正常工作:

另一方面,当我使用列表函数 ( ls) 时,输出确实通过标准输出工作,并且在我希望的情况下工作:

有没有办法从 GSUTIL 的复制功能中捕获输出?

0 投票
2 回答
5455 浏览

google-cloud-storage - 限制并行 cp 的文件数

我在具有 25 个 4gb json 文件(我也使用 -z 选项压缩)的目录上并行运行 gsutil cp 命令(使用 -m 选项)。

当我运行它时,它将打印到终端,它正在复制除一个文件之外的所有文件。我的意思是它打印每个文件的这些行之一:

一旦其中一个的传输完成,它会说它将复制最后一个文件。

这样做的结果是只有一个文件只有在其他文件之一完成复制时才开始复制,从而显着减慢了进程

我可以使用 -m 选项上传的文件数量是否有限制?这可以在 boto 配置文件中配置吗?

0 投票
2 回答
2154 浏览

amazon-s3 - Migrating data from S3 to Google cloud storage

I need to move a large amount of files (on the order of tens of terabytes) from Amazon S3 into Google Cloud Storage. The files in S3 are all under 500mb.

So far I have tried using gsutil cp with the parallel option (-m) to using S3 as source and GS as destination directly. Even tweaking the multi-processing and multi-threading parameters I haven't been able to achieve a performance of over 30mb/s.

What I am now contemplating:

  • Load the data in batches from S3 into hdfs using distcp and then finding a way of distcp-ing all the data into google storage (not supported as far as I can tell), or:

  • Set up a hadoop cluster where each node runs a gsutil cp parallel job with S3 and GS as src and dst

If the first option were supported, I would really appreciate details on how to do that. However, it seems like I'm gonna have to find out how to do the second one. I'm unsure of how to pursue this avenue because I would need to keep track of the gsutil resumable transfer feature on many nodes and I'm generally inexperienced running this sort of hadoop job.

Any help on how to pursue one of these avenues (or something simpler I haven't thought of) would be greatly appreciated.

0 投票
1 回答
120 浏览

gsutil - gsutil cp 在开始传输之前会做什么?

当你运行 gsutil cp 时,它通常会这样说:

那时,CPU 会忙于处理该进程一段时间,然后才会将其权重放到网络上。

我的问题是:gsutil 在开始传输之前做了什么会占用 CPU 时间?

0 投票
4 回答
3067 浏览

boto - gsutil 在 GCE 中不起作用

因此,当我使用标准 debian 7 映像启动 GCE 实例并发出“gsutil config”命令时,它会失败并显示以下消息:

jcortez@master:~$ gsutil config Failure: No handler was ready to authenticate. 4 handlers were checked. ['ComputeAuth', 'OAuth2Auth', 'OAuth2ServiceAccountAuth', 'HmacAuthV1Handler'] Check your credentials.

我已经在 debian 6 和 centos 实例上尝试过,并且得到了相同的结果。但是,发出“gcutil config”可以正常工作。我收集我需要设置我的 ~/.boto 文件,但我不知道该怎么做。

我究竟做错了什么?

0 投票
1 回答
1533 浏览

gsutil - 使用 gsutil 工具,可以列出文件名与正则表达式匹配的文件吗?

我想列出不以特定前缀开头的文件。我可以很好地列出它们,如下所示:

我该如何做相反的事情?

0 投票
2 回答
2186 浏览

google-cloud-storage - 递归复制时对象和/或路径中的国际字符可能存在问题

在使用 gsutil 上传大量图像后,我遇到了一个奇怪的问题 - 通过 Google Cloud Console 无法查看上传的文件,如果我尝试执行“gsutil ls”,gsutil 本身就会抱怨。我 99% 确定这与在目录名称中使用“å”或“Å”以及空格有关。

所有上传都是从根文件夹递归完成的(多级子目录中的大型图像集合)。如果我尝试再次上传文件,gsutil 会跳过它们,因为它们已经存在,所以上传功能会做一些事情- 它与列表和下载的工作方式不同。

一个例子:

好的 - 文件在那里,但通过 Google Cloud Console 浏览目录显示“无结果”。

还:

我尝试转义空格并以不同的方式使用引号,但没有成功。

现在,有趣的是:

这里我在源端专门复制了带有转义空格的文件夹,现在文件再次上传。这将创建另一个同名文件夹(至少在 Cloud Console 中如此显示),并且文件现在在两个文件夹中都可见。

我们在丹麦字符集中使用了标准美国 ASCII 之外的三个不同字符(“æøå”和大写“ÆØÅ”),但问题似乎影响“å”和“Å”——另外两个单独或组合工作正常。我的预感是“å”和“Å”可能会在 ASCII 中翻译成完全不同的东西,当允许 gsutil 根据根文件夹的名称自行处理目录命名时(进行多级递归),这会使事情偏离轨道) 但在用户指定根文件夹的转义名称时有效。

这可能是 python 问题而不是 gsutil 问题,但我没有资格确定这一点,因为我对一些大杂烩 shell 脚本之外的编程知识几乎为零。

0 投票
1 回答
1380 浏览

python - 使用 Python 从 Google Cloud Storage 下载大文件

我正在尝试使用 GS Python 库中提供的代码示例从 Google Cloud Storage 下载一个大文件(2.5GB)。这适用于较小的文件(我已经测试了一些 1-2KB 的文件)。我在 Windows 7 上使用 Python 2.7.5。

我收到内存错误:

我可以通过命令行使用 gsutil.py cp 下载文件。不确定如何修改此代码?我一直在尝试找到一种方法来部分下载,但不知道如何。

0 投票
2 回答
856 浏览

amazon-s3 - gsutil cp -Rn s3://foo gs://bar 很慢并且消耗的入口比出口多得多

我正在尝试在 S3 中复制数据。我们谈论的是数十万个相当大的 blob(许多在 1GB-100GB 范围内)。这些操作是从美国东部的一台机器上执行的,用于美国标准中的 S3 blob。

gsutil 3.34 的入口似乎比出口多得多,即使运行了几个小时也是如此。我试图调整一些选项,但没有得到任何结果。

测量示例:78387.82 KB/s 输入与 3154.36 KB/s 输出。我可以得到 2x 的比率,但 10x+ 真的感觉不对。

知道会发生什么吗?