问题标签 [google-cloud-tpu]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

171 问题

0 投票

1 回答

680 浏览

tensorflow - How to find out more about the Cloud TPU device you are running your programs against?

Whether we are using Google Colab or accessing Cloud TPUs directly, the below program gives only limited information about the underlying TPUs:

Is there any documentation of programmatically or via bash commands to display more information, see this gist for e.g. https://gist.github.com/neomatrix369/256913dcf77cdbb5855dd2d7f5d81b84.

tensorflow google-cloud-tpu

2018-11-13T18:40:48.247

0 投票

1 回答

2797 浏览

python - 在 colab 中使用 keras_to_tpu_model 时，TPU 运行速度与 CPU 一样慢

我曾经tf.contrib.tpu.keras_to_tpu_model让我的代码能够在 TPU 上运行，但是完成一个 epoch 需要 170 小时，而 CPU 需要相同的时间，GPU 每个 epoch 只需要 40 小时。我试图调整批量大小，但没有任何改变。我已经测试过输入函数在 GPU 上运行时可能会占用 20% 的运行时间，所以我认为这可能不是主要原因。

这是我的代码：https ://github.com/WangHexie/DHNE/blob/master/src/hypergraph_embedding.py

在 colab 上运行：

TPU：https ://colab.research.google.com/gist/WangHexie/30c385509f9cd93be747f04c39f039a4/tpu-error.ipynb
GPU：<a href="https://colab.research.google.com/gist/WangHexie/5bfac53bf92ef0ad527f15ddbf8705e1/-gpu-ipynb.ipynb" rel="nofollow noreferrer">https://colab.research.google.com /gist/WangHexie/5bfac53bf92ef0ad527f15ddbf8705e1/-gpu-ipynb.ipynb

该模型：

2018-11-15T03:24:56.007

0 投票

1 回答

823 浏览

python - 尝试使用 Cloud TPU 恢复更新的 BERT 模型检查点时出现 InfeedEnqueueTuple 问题

我将不胜感激下面的任何帮助，在此先感谢您。我复制了一份Google Bert 的微调笔记本，并使用 Cloud TPU 和 Bucket 在上面训练了 SQUAD 数据集。开发集上的预测是ok的，所以我在本地下载了checkpoint、model.ckpt.meta、model.ckpt.index和model.ckpt.data文件并尝试使用代码恢复：

但是，我得到了错误：

我认为它是Cloud TPU 工具的一部分，我应该继续使用 Cloud TPU，所以我尝试了以下（参考）：

问题单元格：

这反过来又给出了以下错误：

python tensorflow google-colaboratory google-cloud-tpu

2018-11-16T08:07:54.067

0 投票

1 回答

633 浏览

python - 谷歌 colab TPU 和在训练时从光盘读取

我有 10 万张照片，但它不适合 ram，所以我需要在训练时从光盘中读取它。

但是后来我尝试训练，我得到了这个错误

我可以以某种方式解决它吗？也尝试使用 TFRecords API，得到同样的错误。

python tensorflow google-colaboratory google-cloud-tpu

2018-11-17T01:11:49.517

0 投票

1 回答

420 浏览

python - 内存减少 Tensorflow TPU v2/v3 bfloat16

我的模型太大，无法使用普通 v2 TPU 设备获得 >64 的批次。在故障排除站点上提到即将推出的 tensorflow 版本将支持 bfloat16。新支持的 tf 版本 1.9-1.12 现在可以使用 bfloat16 吗？如果可以，我可以使用一组有限的优化器吗？我没有找到任何进一步的文档，但在 tensor2tensor 模型中看到了 bfloat16 的用法，所以我想一定有办法。

此外，我读到TPU v3 也支持更大的模型，但模型需要的更改很少，但我没有找到任何需要更改的文档。

我已经在使用Adafactor并尝试减少我的层数，如果您有任何进一步的减少技巧，那也很棒。我正在使用图片矩阵和词向量（截至目前为 float32）作为输入。

python tensorflow google-compute-engine google-cloud-tpu

2018-11-24T13:52:17.213

0 投票

1 回答

2494 浏览