问题标签 [google-cloud-tpu]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
tensorflow - 如何在 Google 云中设置 TensorFlow?
如何在 Google 云中设置 TensorFlow?我了解如何创建 Google Compute Engine 实例,以及如何在本地运行 TensorFlow;最近的一篇Google 博客文章表明,应该有一种方法可以创建 Google Compute Engine 实例并在云中运行 TensorFlow 应用程序:
机器学习项目可以有多种规模,正如我们在开源产品 TensorFlow 中看到的那样,项目通常需要扩大规模。一些小型任务最好使用在桌面上运行的本地解决方案来处理,而大型应用程序则需要托管解决方案的规模和可靠性。谷歌云机器学习旨在支持全方位并提供从本地环境到云环境的无缝过渡。
即使我对此进行了深入了解,但鉴于微软 Azure 等竞争平台提供的内容,必须有一种方法来设置 TensorFlow 应用程序(在本地开发并“无缝”扩展到云中) ,大概使用 GPU)在 Google 云中。
例如,我想在我的 IDE 中本地工作,为我的项目调整功能和代码,在那里运行有限的培训和验证,并定期将代码推送到云中以使用(任意)更多资源在那里运行训练,然后保存并下载训练好的模型。或者甚至更好,只需使用可调资源在云中运行图形(或图形的一部分)。
有没有办法做到这一点; 有计划吗?如何在 Google 云中设置 TensorFlow?
tensorflow - Google Cloud ML 提供 TPU 定制芯片
使用 TensorFlow 时,将哪种类型的硬件用作 Google Cloud ML 的一部分?只有 CPU 或张量处理单元(自定义卡)也可用?
参考这篇文章
tensorflow - 在 TPU 上使用 Cloud ML Engine 运行 TensorFlow 训练器会产生 google.rpc.QuotaFailure
我已经在 Cloud ML Engine 上开发了一个 TensorFlow 模型scaleTier: BASIC
。
在 GPU 上实验性地运行它的训练器,scaleTier: BASIC_GPU
效果很好。但是尝试在 TPU 上运行它scaleTier: BASIC_TPU
会产生以下错误消息:
这个限制来自哪里,可以通过启用另一个 API 或增加我的初始预算来解除它吗?
google-compute-engine - 无法删除 Cloud TPU
我有一个 TPU 节点名称“demo-tpu”,我尝试使用以下命令删除它gcloud beta compute tpus delete demo-tpu
这会导致以下错误消息:
但是,当我使用 command 时gcloud beta compute tpus describe demo-tpu
,它说 TPU 正在重新启动。
我也尝试在 GCP 控制台中使用删除选项,但它似乎也不起作用。任何的意见都将会有帮助。
tensorflow - 在 GCP TPU 上训练我的模型
什么架构的程序可以在 TPU 中运行?
一定要使用tf.contrib.tpu.TPUEstimator
吗?
除了 tensorflow 官方模型,有没有任何 tpu-program 示例可供参考?
tensorflow - 没有注册 OpKernel 以支持具有这些属性的 Op 'ShutdownDistributedTPU'。注册设备
我正在尝试使用来自 此链接的 TensorFlow 1.7.0 版本并使用以下代码恢复 Mobile-net V2 模型,但出现错误。
我面临以下与 TPU 相关的错误,因为我支持 GPU:
Traceback(最近一次调用最后):文件“/home/ext_user1/tensorflow_1.2.1_cp34/lib/python3.4/site-packages/tensorflow/python/client/session.py”,第 1327 行,在 _do_call return fn(* args) 文件“/home/ext_user1/tensorflow_1.2.1_cp34/lib/python3.4/site-packages/tensorflow/python/client/session.py”,第 1310 行,_run_fn self._extend_graph() 文件“/home/ ext_user1/tensorflow_1.2.1_cp34/lib/python3.4/site-packages/tensorflow/python/client/session.py”,第 1358 行,在 _extend_graph graph_def.SerializeToString(),status) 文件“/home/ext_user1/tensorflow_1. 2.1_cp34/lib/python3.4/site-packages/tensorflow/python/framework/errors_impl.py”,第 516 行,退出 c_api.TF_GetCode(self.status.status)) tensorflow.python.framework.errors_impl.InvalidArgumentError:没有注册 OpKernel 以支持具有这些属性的 Op 'ShutdownDistributedTPU'。
注册设备:[CPU],注册内核:[[节点:ShutdownDistributedTPU = ShutdownDistributedTPU_device="/job:tpu_worker/device:TPU_SYSTEM:0"]]
请帮我。
tensorflow - Cloud TPU 工具未生成配置文件
我已按照Cloud TPU Tools上的说明进行操作。除了您必须将 --tpu_name 更改为 --tpu 的第 4 步之外,一切似乎都按预期工作。
失败的是“配置文件”选项卡的生成。我执行了
产生了
我多次刷新/重新启动 TensorBoard,但没有“配置文件”选项卡,从下拉菜单中单击“配置文件”不会返回任何数据。
这是 Cloud TPU 分析器的已知问题吗?
--编辑1--
Profiler v 1.5.2 无法收集跟踪事件。
tensorflow - 通过云 TPU 的 host_call_fn() 生成梯度摘要?
我的理解是 host_call 和 host_call_fn() 将统计信息从 TPU 传输到主机。但是,关于如何为任何非标量生成摘要的说明不是很清楚。
例如,我尝试修改官方的 mnist_tpu.py 以生成训练期间产生的梯度的摘要。model_fn() 是添加更改的地方:
不幸的是,上面的添加似乎并没有像在基于 CPU 的训练期间生成直方图那样发挥作用。知道如何在非标量张量上正确生成直方图吗?
tensorflow - train_and_evaluate() 批量大小与 GCMLE 上的 TPU
我正在尝试使用TPUEstimator
withtrain_and_evaluate()
进行 GCMLE 实验。TPUEstimator
有一个必需的参数,train_batch_size
显然指定了批量大小。但是,train_and_evaluate()
我还通过 TrainSpec 指定了批量大小:
在此示例中,请考虑train_input
在 train_spec 中指定了自己的 batch_size(例如 tf.train.batch() 或 tf.datasets.batch()),也是train_batch_size
TPUEstimator 的要求。
在两个不同的地方通过这对我来说似乎很草率train_batch_size
——建议只是为了确保将相同的批量大小传递给 TPUEstimator 和 TrainSpec?如果 TPUEstimator 中的 batch_size 与 TrainSpec 中的 batch_size 不同,train_and_evaluate()
那么会优先考虑什么?有没有更好的方法将 train_and_evaluate() 与 TPUEstimator 一起使用,并且不需要在两个不同的地方传递这个 batch_size?
此外,TPUEstimator 似乎自动创建 params['batch_size'] 根据文档,这似乎是“有效批量大小”。有效批量大小与 train_batch_size 有何关系?如果我的 train_batch_size 为 1024,那么“有效批量大小”是否为 128(因为 8 个内核)?