问题标签 [google-cloud-tpu]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
1124 浏览

google-cloud-platform - 无法从 GCP 中的 VM 访问 TPU

尝试运行此代码

但是我收到以下错误,

googleapiclient.errors.HttpError:https://tpu.googleapis.com/v1alpha1/projects/nlp-research-198620/locations/us-central1-b/nodes/sahil-wadhwa?alt=json 返回“权限'tpu.nodes .get' 在 'projects/nlp-research-198620/locations/us-central1-b/nodes/sahil-wadhwa' 上被拒绝

有人能告诉我需要什么权限来提供我的 VM 或 TPU 才能顺利运行吗?

0 投票
2 回答
923 浏览

tensorflow - 使用 TPU 训练 MNIST 会产生错误

遵循在 Cloud TPU 上运行 MNIST教程:

尝试训练时出现以下错误:

=>

我与说明不同的唯一地方是:

我没有在 cloud shell 中运行 ctpu,而是在 mac 上运行它。

TPU 所在的区域与我的配置的默认区域不同,因此我将其指定为一个选项,如下所示:

我能够将 MNIST 文件从 vm 移动到 gcs 存储桶,这没问题:

我尝试了(可选)设置 TensorBoard > 运行 cloud_tpu_profiler

转到 Cloud Console > TPU > 并点击您创建的 TPU。找到 Cloud TPU 的服务帐号名称并复制它,例如:

service-11111111118@cloud-tpu.iam.myserviceaccount.com

在存储桶列表中,选择您要使用的存储桶,选择显示信息面板,然后选择编辑存储桶权限。将您的服务帐户名称粘贴到该存储桶的添加成员字段中,然后选择以下权限:

“Cloud Console > TPUs”作为选项不存在,因此我使用了与 VM “Cloud Console > Compute Engine > alex-tpu”
关联的服务帐户

由于最后一条错误消息是“RuntimeError: TPU “alex-tpu” is unhealthy: “TIMEOUT”,所以我使用 ctpu 删除了 vm 并重新创建并再次运行它。这次我遇到了更多错误:

这似乎只是一个警告......

不确定这个...

这似乎扼杀了训练......

更新

我收到这个错误...

...即使 --use_tpu=False

此堆栈溢出答案表明 tpu 正在尝试写入不存在的文件系统,而不是我指定的 gcs 存储桶。我不清楚为什么会发生这种情况。

0 投票
2 回答
4756 浏览

python - 使用 TPU 模式时如何从 Google Colaboratory 保存 Tensorflow 检查点文件?

当我使用saver = tf.train.Saver()save_path = saver.save(session, "checkpointsFolder/checkpoint.ckpt")

我收到一个UnimplementedError (see above for traceback): File system scheme '[local]' not implemented错误

这是完整的错误

查找此错误,我发现以下内容:

来自谷歌官方 TPU 调试指南

https://cloud.google.com/tpu/docs/troubleshooting

错误信息

InvalidArgumentError:未实现:文件系统方案“[本地]”未实现

细节

所有输入文件和模型目录必须使用云存储桶路径(gs://bucket-name/...),并且该桶必须可从 TPU 服务器访问。请注意,所有数据处理和模型检查点都是在 TPU 服务器上执行的,而不是本地机器上。有关如何正确配置云存储以与 TPU 一起使用的信息,请参阅连接到云存储桶的指南。

有类似问题的其他人

TPU 本地文件系统不存在?

本地文件系统在 Cloud TPU 上不可用。模型目录(检查点等)和输入数据应存储在 Google Cloud Storage 中(并以“gs://”为前缀)。

更多细节在这里

https://cloud.google.com/tpu/docs/storage-buckets

但是,我没有 Google Cloud 服务,我只是使用 Google Colab。有没有办法在 TPU 模式下保存 Tensorflow 检查点?

0 投票
1 回答
1026 浏览

python - 在 Tensorflow 中使用 TPU 时,在本地驱动器中保存检查点是否有一个不错的解决方法?

跟进这个问题:

使用 TPU 模式时如何从 Google Colaboratory 保存 Tensorflow 检查点文件?

使用 Tensorflow TPU 时保存检查点的官方方法是使用谷歌云服务。

如果对于那些不想使用 GCS 的人有解决方法,我正在工作。也许对于每个变量,执行 .eval(),保存变量。然后将保存变量设置为每个变量的“init”值。

我预见的一个主要问题是保存和加载优化器的参数。

对于 Keras,权重似乎确实从 TPU 保存到本地

https://colab.research.google.com/github/tensorflow/tpu/blob/master/tools/colab/shakespeare_with_tpu_and_keras.ipynb

INFO:tensorflow:将 TPU 权重复制到 CPU

所以我想也有一个通用的解决方法,而不使用 keras。

0 投票
2 回答
13409 浏览

storage - 谷歌 Colab 存储

有人知道运行 Google Colab 的存储限制吗?上传 22gb zip 文件后,我似乎空间不足,然后尝试解压缩,提示 <~40gb 存储可用。至少这是我运行 TPU 实例的经验。

0 投票
1 回答
4964 浏览

deep-learning - Google Colab KeyError:“COLAB_TPU_ADDR”

我正在尝试使用 TPU 选项在 Google Colab 上运行一个简单的 MNIST 分类器。使用 Keras 创建模型后,我尝试通过以下方式将其转换为 TPU:

我得到的错误是:

看起来我需要更改 TPU 地址,但一直在谷歌搜索,但还没有找到任何东西。感谢一些帮助,谢谢!

0 投票
1 回答
561 浏览

python - Google colab TPU 被窃听或我做错了什么?

试图将我的 dcgan 移植到 tpu。但是这个错误:

这是笔记本 https://colab.research.google.com/drive/101FjBAIMVuXyNyeUvq_Vfx-Z6CR3g4df

0 投票
1 回答
284 浏览

tensorflow - 我在哪里可以确定哪些 Keras 方法是 TPU 兼容的方法?

我最近了解到 UpSampling2D 不是 TPU 支持的操作。

如何找出哪些 Keras 函数与 Colab 中的 TPU 兼容?我无法找到有关该主题的任何文档。

0 投票
2 回答
1020 浏览

python - 在 Google Colab 环境中运行云 TPU 分析器

我正在运行一个 Google Colab 笔记本并试图捕获 TPU 分析数据以在 TensorBoard 中使用,但是capture_tpu_profile在运行我的 TensorFlow 代码时我无法在后台运行。

到目前为止,我尝试在后台运行捕获过程:

0 投票
0 回答
590 浏览

tensorflow - 如何通过 Tensorflow 的对象检测 API 手动使用 Google TPU?

我已经使用在 GPU 上本地运行的 Tensorflow 的对象检测 API(使用model_main.py)和使用 Google 的 ML 引擎(GPU 和 TPU)成功地训练了模型。model_tpu_main.py但是,当在 Google 的云上运行时(使用手动配置的 VM 和 TPU),我似乎无法用来训练模型。

当我model_tpu_main.py使用类似的东西启动时python -m object_detection.model_tpu_main --model_dir=gs://bucket/training --tpu_zone us-central1-b --pipeline_config_path=gs://bucket/training/pipeline.config --job-dir gs://bucket/training --tpu_name mytpu_name,它会卡在:

查看 TPU 日志,我得到的几乎是:

知道我做错了什么吗?