问题标签 [google-cloud-tpu]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
6 回答
12120 浏览

tensorflow - 如何在 Google 云中设置 TensorFlow?

如何在 Google 云中设置 TensorFlow?我了解如何创建 Google Compute Engine 实例,以及如何在本地运行 TensorFlow;最近的一篇Google 博客文章表明,应该有一种方法可以创建 Google Compute Engine 实例并在云中运行 TensorFlow 应用程序:

机器学习项目可以有多种规模,正如我们在开源产品 TensorFlow 中看到的那样,项目通常需要扩大规模。一些小型任务最好使用在桌面上运行的本地解决方案来处理,而大型应用程序则需要托管解决方案的规模和可靠性。谷歌云机器学习旨在支持全方位并提供从本地环境到云环境的无缝过渡。

即使我对此进行了深入了解,但鉴于微软 Azure 等竞争平台提供的内容,必须有一种方法来设置 TensorFlow 应用程序(在本地开发并“无缝”扩展到云中) ,大概使用 GPU)在 Google 云中。

例如,我想在我的 IDE 中本地工作,为我的项目调整功能和代码,在那里运行有限的培训和验证,并定期将代码推送到云中以使用(任意)更多资源在那里运行训练,然后保存并下载训练好的模型。或者甚至更好,只需使用可调资源在云中运行图形(或图形的一部分)。

有没有办法做到这一点; 有计划吗?如何在 Google 云中设置 TensorFlow?

0 投票
3 回答
434 浏览

tensorflow - Google Cloud ML 提供 TPU 定制芯片

使用 TensorFlow 时,将哪种类型的硬件用作 Google Cloud ML 的一部分?只有 CPU 或张量处理单元(自定义卡)也可用?

参考这篇文章

0 投票
2 回答
301 浏览

tensorflow - 在 TPU 上使用 Cloud ML Engine 运行 TensorFlow 训练器会产生 google.rpc.QuotaFailure

我已经在 Cloud ML Engine 上开发了一个 TensorFlow 模型scaleTier: BASIC

在 GPU 上实验性地运行它的训练器,scaleTier: BASIC_GPU效果很好。但是尝试在 TPU 上运行它scaleTier: BASIC_TPU会产生以下错误消息:

这个限制来自哪里,可以通过启用另一个 API 或增加我的初始预算来解除它吗?

0 投票
2 回答
296 浏览

google-compute-engine - 无法删除 Cloud TPU

我有一个 TPU 节点名称“demo-tpu”,我尝试使用以下命令删除它gcloud beta compute tpus delete demo-tpu

这会导致以下错误消息:

但是,当我使用 command 时gcloud beta compute tpus describe demo-tpu,它说 TPU 正在重新启动。

我也尝试在 GCP 控制台中使用删除选项,但它似乎也不起作用。任何的意见都将会有帮助。

0 投票
1 回答
350 浏览

tensorflow - 在 GCP TPU 上训练我的模型

什么架构的程序可以在 TPU 中运行?

一定要使用tf.contrib.tpu.TPUEstimator吗?

除了 tensorflow 官方模型,有没有任何 tpu-program 示例可供参考?

0 投票
1 回答
1092 浏览

tensorflow - 没有注册 OpKernel 以支持具有这些属性的 Op 'ShutdownDistributedTPU'。注册设备

我正在尝试使用来自 此链接的 TensorFlow 1.7.0 版本并使用以下代码恢复 Mobile-net V2 模型,但出现错误。

我面临以下与 TPU 相关的错误,因为我支持 GPU:

Traceback(最近一次调用最后):文件“/home/ext_user1/tensorflow_1.2.1_cp34/lib/python3.4/site-packages/tensorflow/python/client/session.py”,第 1327 行,在 _do_call return fn(* args) 文件“/home/ext_user1/tensorflow_1.2.1_cp34/lib/python3.4/site-packages/tensorflow/python/client/session.py”,第 1310 行,_run_fn self._extend_graph() 文件“/home/ ext_user1/tensorflow_1.2.1_cp34/lib/python3.4/site-packages/tensorflow/python/client/session.py”,第 1358 行,在 _extend_graph graph_def.SerializeToString(),status) 文件“/home/ext_user1/tensorflow_1. 2.1_cp34/lib/python3.4/site-packages/tensorflow/python/framework/errors_impl.py”,第 516 行,退出 c_api.TF_GetCode(self.status.status)) tensorflow.python.framework.errors_impl.InvalidArgumentError:没有注册 OpKernel 以支持具有这些属性的 Op 'ShutdownDistributedTPU'。
注册设备:[CPU],注册内核:

[[节点:ShutdownDistributedTPU = ShutdownDistributedTPU_device="/job:tpu_worker/device:TPU_SYSTEM:0"]]

请帮我。

0 投票
1 回答
383 浏览

tensorflow - TensorBoard 检查时,为什么“tf.nn.bidirectional_dynamic_rnn”在 TPU 上有“不兼容的操作”?

检查双向 rnn 的“TPU 兼容性”时遇到问题。TensorBoard 告诉我序列长度向量的反转操作在 TPU 上不兼容。我不知道为什么?

我的简单代码:

TensorBoard 截图:

  1. 不兼容的操作

  2. 逆序1

  3. 逆序2

0 投票
1 回答
821 浏览

tensorflow - Cloud TPU 工具未生成配置文件

我已按照Cloud TPU Tools上的说明进行操作。除了您必须将 --tpu_name 更改为 --tpu 的第 4 步之外,一切似乎都按预期工作。

失败的是“配置文件”选项卡的生成。我执行了

产生了

我多次刷新/重新启动 TensorBoard,但没有“配置文件”选项卡,从下拉菜单中单击“配置文件”不会返回任何数据。

这是 Cloud TPU 分析器的已知问题吗?

--编辑1--

Profiler v 1.5.2 无法收集跟踪事件。

0 投票
1 回答
419 浏览

tensorflow - 通过云 TPU 的 host_call_fn() 生成梯度摘要?

我的理解是 host_call 和 host_call_fn() 将统计信息从 TPU 传输到主机。但是,关于如何为任何非标量生成摘要的说明不是很清楚。

例如,我尝试修改官方的 mnist_tpu.py 以生成训练期间产生的梯度的摘要。model_fn() 是添加更改的地方:

不幸的是,上面的添加似乎并没有像在基于 CPU 的训练期间生成直方图那样发挥作用。知道如何在非标量张量上正确生成直方图吗?

0 投票
2 回答
1169 浏览

tensorflow - train_and_evaluate() 批量大小与 GCMLE 上的 TPU

我正在尝试使用TPUEstimatorwithtrain_and_evaluate()进行 GCMLE 实验。TPUEstimator有一个必需的参数,train_batch_size显然指定了批量大小。但是,train_and_evaluate()我还通过 TrainSpec 指定了批量大小:

在此示例中,请考虑train_input在 train_spec 中指定了自己的 batch_size(例如 tf.train.batch() 或 tf.datasets.batch()),也是train_batch_sizeTPUEstimator 的要求。

在两个不同的地方通过这对我来说似乎很草率train_batch_size——建议只是为了确保将相同的批量大小传递给 TPUEstimator 和 TrainSpec?如果 TPUEstimator 中的 batch_size 与 TrainSpec 中的 batch_size 不同,train_and_evaluate()那么会优先考虑什么?有没有更好的方法将 train_and_evaluate() 与 TPUEstimator 一起使用,并且不需要在两个不同的地方传递这个 batch_size?

此外,TPUEstimator 似乎自动创建 params['batch_size'] 根据文档,这似乎是“有效批量大小”。有效批量大小与 train_batch_size 有何关系?如果我的 train_batch_size 为 1024,那么“有效批量大小”是否为 128(因为 8 个内核)?