问题标签 [google-cloud-tpu]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
485 浏览

machine-learning - GCE VM 无法连接到 TPU

我一直在遵循https://cloud.google.com/tpu/docs/custom-setup上的说明

现在我正在尝试从https://cloud.google.com/tpu/docs/quickstart运行一个小示例

但它挂在sess.run(tpu.initialize_system())

我怀疑它无法访问 TPU 网络端点,即使“gcloud beta 计算 tpus 列表”返回状态“READY”。

0 投票
0 回答
86 浏览

tensorflow - 如何减少 GPU/TPU 内存使用以重用编码器(例如 RNN/Tensor2Tensor/等)?

我有一个要编码的短语列表(例如 1000 个)(每个短语包含一个或多个单词)。我为每个短语重复使用相同的编码器(例如 RNN/Tensor2Tensor/等)(这意味着它们共享编码器中的学习参数)。结果,要学习的参数的大小很小,因为它只是单个编码器,但是由于列表很长,图的大小变得很大。谁能给我一些建议,说明在这种情况下如何减少内存(我认为这是因为图只是一遍又一遍地重复相同的计算子图(编码器),但那些子图共享参数)?谢谢你。

0 投票
1 回答
214 浏览

python - 带有 tensorflow 的 tpu_estimator() 的生成模型?

是否可以使用 tensorflow 的 tpu_estimator() 训练生成模型(即具有自定义损失计算的变分自动编码器)?

我的 VAE 的简化版本:

模型功能

TPU 配置初始化并使用我的 input_fn 正确加载数据集,但出现以下由自定义损失函数触发的错误:

0 投票
1 回答
84 浏览

tensorflow - GCP TPU 上的预制模型

DNNClassifierGoogle 的 TPU 要求您将 tensorflow Estimators 移植到TPUEstimators ,但我似乎无法弄清楚“罐装”估计器(如使用,tf.data.Dataset但我可能是错的。任何帮助表示赞赏。

0 投票
2 回答
1141 浏览

google-cloud-platform - 谷歌云 TPU 出现紧急错误

我可以打开一个 ctpu 会话并从我的 git 存储库中获取我需要的代码,但是当我从云 shell 运行我的 tensorflow 代码时,我收到一条消息说没有 TPU 并且我的程序崩溃了。这是我收到的错误消息:

当我打开另一个 shell 并输入“ctpu status”时,我看到我的 tpu 集群正在运行,但我收到以下恐慌错误:

我尝试了此处建议的故障排除:https ://cloud.google.com/tpu/docs/troubleshooting 但它不起作用,因为当我进入时一切看起来都很正常

我也尝试过创建一个全新的项目,甚至使用不同的谷歌帐户,但它并没有解决问题。我没有发现任何关于云 TPU 的类似错误。我错过了一些明显的东西吗?

感谢您的帮助!

0 投票
2 回答
1469 浏览

python-3.x - TPU Classifier InvalidArgumentError: No OpKernel was registered to support Op 'CrossReplicaSum' with these attrs

我曾尝试使用API实现Estimator基于 - 的 Tensorflow 模型,但未成功。TPUEstimator它在训练期间遇到错误:

开头还有一个警告,尽管我不确定它是否相关:

这是模型功能的相关部分:

我正在尝试TPUEstimator通过将--use_tpu标志设置为False. 被TPUEstimator实例化并train因此被调用:

这个错误是什么意思,我该如何解决?

0 投票
1 回答
1229 浏览

tensorflow - 谷歌云 TPU:NotImplementedError:TPU 计算中不支持非资源变量

我正在尝试使用谷歌云的 TPU 训练我的模型。该模型在 CPU 和 GPU 上运行良好,我可以毫无问题地运行 TPU 教程(因此连接到 TPU 不是问题)。然而,当我在 TPU 云上运行我的程序时,我得到了一个错误。最重要的一行可能如下:

如果那里有重要的东西,这是完整的错误:

图的前向传播似乎构建得很好,但在这种情况下,TPU 不支持使用 AdamOptimizer 的反向传播。我尝试使用更多标准优化器(GradientDescentOptimizer 和 MomentumOptimizer),但没有帮助。前馈传递中的所有张量都采用与 TPU 兼容的格式(即 tf.float32)。

有人对我应该尝试什么有建议吗?

谢谢!

0 投票
1 回答
1504 浏览

tensorflow - TPUEstimator 错误——AttributeError:模块“tensorflow.contrib.tpu.python.ops.tpu_ops”没有属性“cross_replica_sum”

我已经使用 TPUEstimator 编写了一个 tensorflow 代码,但是在 use_tpu=False 模式下运行它时遇到问题。我想在我的本地计算机上运行它,以确保所有操作都与 TPU 兼容。该代码适用于普通的 Estimator。这是我的主代码:

我在 model_fn_tpu 中定义了一个胶囊网络,它返回 TPUEstimator 规范。优化器是标准的 AdamOptimizer。我已经进行了此处解释的所有更改https://www.tensorflow.org/guide/using_tpu#optimizer以使我的代码与 TPUEstimator 兼容。我收到以下错误:

有什么想法可以解决这个问题吗?先感谢您!

0 投票
1 回答
862 浏览

tensorflow - 使用 TPU 的 TensorFlow 对象检测训练错误

我正在关注Google 在 TPU 帖子上的对象检测,并且在培训方面遇到了困难。

查看作业日志,我可以看到 ml-engine 为各种包运行大量 pip 安装,提供 TPU,然后提交以下内容:

然后它会出错:

这是我第一次使用 ml-engine,我被卡住了。我发现错误引用 python2.7 很奇怪,因为我在 python3.6 环境中从笔记本电脑提交了作业。

关于从这里去哪里或做什么的任何想法?

0 投票
2 回答
189 浏览

google-cloud-ml - 基于 TPU 的 CloudML 调优

分布式超参数搜索是否支持 TPU?我正在使用该tensor2tensor库,它支持 CloudML进行超参数搜索,即以下对我来说可以在 GPU 上对语言模型进行超参数搜索:

但是,当我尝试使用 TPU 时,如下所示:

我得到错误: