问题标签 [google-cloud-tpu]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
tensorflow - How to find out more about the Cloud TPU device you are running your programs against?
Whether we are using Google Colab or accessing Cloud TPUs directly, the below program gives only limited information about the underlying TPUs:
Is there any documentation of programmatically or via bash commands to display more information, see this gist for e.g. https://gist.github.com/neomatrix369/256913dcf77cdbb5855dd2d7f5d81b84.
python - 在 colab 中使用 keras_to_tpu_model 时,TPU 运行速度与 CPU 一样慢
我曾经tf.contrib.tpu.keras_to_tpu_model
让我的代码能够在 TPU 上运行,但是完成一个 epoch 需要 170 小时,而 CPU 需要相同的时间,GPU 每个 epoch 只需要 40 小时。我试图调整批量大小,但没有任何改变。我已经测试过输入函数在 GPU 上运行时可能会占用 20% 的运行时间,所以我认为这可能不是主要原因。
这是我的代码:https ://github.com/WangHexie/DHNE/blob/master/src/hypergraph_embedding.py
在 colab 上运行:
- TPU:https ://colab.research.google.com/gist/WangHexie/30c385509f9cd93be747f04c39f039a4/tpu-error.ipynb
- GPU:<a href="https://colab.research.google.com/gist/WangHexie/5bfac53bf92ef0ad527f15ddbf8705e1/-gpu-ipynb.ipynb" rel="nofollow noreferrer">https://colab.research.google.com /gist/WangHexie/5bfac53bf92ef0ad527f15ddbf8705e1/-gpu-ipynb.ipynb
该模型:
python - 尝试使用 Cloud TPU 恢复更新的 BERT 模型检查点时出现 InfeedEnqueueTuple 问题
我将不胜感激下面的任何帮助,在此先感谢您。我复制了一份Google Bert 的微调笔记本,并使用 Cloud TPU 和 Bucket 在上面训练了 SQUAD 数据集。开发集上的预测是ok的,所以我在本地下载了checkpoint、model.ckpt.meta、model.ckpt.index和model.ckpt.data文件并尝试使用代码恢复:
但是,我得到了错误:
我认为它是Cloud TPU 工具的一部分,我应该继续使用 Cloud TPU,所以我尝试了以下(参考):
问题单元格:
这反过来又给出了以下错误:
python - 谷歌 colab TPU 和在训练时从光盘读取
我有 10 万张照片,但它不适合 ram,所以我需要在训练时从光盘中读取它。
但是后来我尝试训练,我得到了这个错误
我可以以某种方式解决它吗?也尝试使用 TFRecords API,得到同样的错误。
python - 内存减少 Tensorflow TPU v2/v3 bfloat16
我的模型太大,无法使用普通 v2 TPU 设备获得 >64 的批次。在故障排除站点上提到即将推出的 tensorflow 版本将支持 bfloat16。新支持的 tf 版本 1.9-1.12 现在可以使用 bfloat16 吗?如果可以,我可以使用一组有限的优化器吗?我没有找到任何进一步的文档,但在 tensor2tensor 模型中看到了 bfloat16 的用法,所以我想一定有办法。
此外,我读到TPU v3 也支持更大的模型,但模型需要的更改很少,但我没有找到任何需要更改的文档。
我已经在使用Adafactor并尝试减少我的层数,如果您有任何进一步的减少技巧,那也很棒。我正在使用图片矩阵和词向量(截至目前为 float32)作为输入。
tensorflow - Google Colab TPU 比 GPU 需要更多时间
下面是我正在使用的代码。我注释掉了将我的模型转换为 TPU 模型的行。使用 GPU 处理相同数量的数据,一个 epoch 需要 7 秒,而使用 TPU 需要 90 秒。
这是笔记本的链接
tensorflow - InvalidArgumentError:不成功的 TensorSliceReader 构造函数:无法获取匹配文件...文件系统方案“[本地]”未实现
运行笔记本时出现以下错误:
不知怎么Unimplemented: File system scheme '[local]' not implemented
的,可能与这个问题有关。
我无法直接访问文件的路径,以便\
在需要的地方添加末尾。
这是笔记本中的代码块:
希望这将有助于调试问题。
有什么想法吗?
tensorflow - 如何保存在 TPU 上训练的 Keras 模型?
我正在使用 Colab 环境对 lstm 模型进行实验。但无法保存训练有素的模型。
这是一个例外:
请指教
tensorflow - 简单模型无法在 tpu 上运行(在 colab 上)
我在 google colab 上使用 TPU 运行一个非常简单的模型时遇到问题。我把它提炼成一个非常简单的程序。我怀疑它不喜欢嵌套模型(input_2?),但我不知道如何解决这个问题:
这是运行它的输出(只需在 colab 中粘贴为单个单元格):
出于某种原因,stackoverflow 坚持我会写一些更多的细节......没有。
keras - 在 Google Colab 中使用相同的 TPU 模型进行训练和推理(预测)
我有这样的代码:
请注意,我将相同tpu_model
的方法用于批量预测和训练。
tpu_model.predict()
似乎工作正常,但是当它运行时tpu_model.fit(...)
,它会引发以下错误:
从日志中可以看出,在 TPU 上运行似乎有两种模式:
1. mode=infer
2.mode=training
看来两者不能同时进行。有没有办法解决?
我不能使用生成器,因为我正在做强化学习,其中批次基于动态添加到列表中的实时样本,从该列表中对批次进行采样、预测(并且更改某些值)和训练。