问题标签 [google-cloud-tpu]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
516 浏览

google-cloud-platform - ctpu命令搭建TPU测试环境报错

我已尝试按照以下链接遵循 Google TPU 设置的快速入门。

https://cloud.google.com/tpu/docs/quickstart

当我在谷歌云 shell 中运行“ctpu up”时,它显示以下错误。

即使我尝试 ssh 到新创建的虚拟机,我也无法运行这些示例代码。

这是上述教程中使用官方 google 环境设置的第一步,但也失败了。

如果有任何遗漏的步骤,有人可以帮忙建议吗?

非常感谢

0 投票
1 回答
135 浏览

tensorflow - 使用 python mnist_tpu.py --use_tpu=false --tpu='' 在 TPU 中出现错误

我尝试从 tensorflow git:mnist_tpu运行此代码

但我一直收到以下错误:

我不知道 create_model 方法是在哪里定义的。我觉得文档仍然缺少一些信息。

有任何想法吗?提前致谢。

0 投票
1 回答
1843 浏览

google-cloud-tpu - 操作类型未注册“BatchDatasetV2”

我正在尝试训练模型并使用 tf.contrib.data.batch_and_drop_remainder 来准备我的数据集。当我运行 estimator.train 时,出现以下错误:

NotFoundError:在 n-be8b2535-w-0 上运行的二进制文件中未注册操作类型“BatchDatasetV2”。确保在此进程中运行的二进制文件中注册了 Op 和 Kernel。请注意,如果您正在加载使用来自 tf.contrib 的操作的已保存图, tf.contrib.resampler则应在导入图之前完成访问(例如),因为首次访问模块时会延迟注册 contrib 操作。

我不是试图从保存的图表中运行,我确保我使用的是新的 model_dir。我该如何解决?这只发生在我在 TPU 上运行时。在 CPU 上运行工作正常。

0 投票
1 回答
229 浏览

google-cloud-platform - TPUEstimator 不适用于 use_tpu=False

use_tpu=False我正在尝试首先在 CPU 上本地使用 TPUEstimator 运行模型,以通过设置估计器初始化来验证它是否有效。运行火车时出现此错误。

InternalError: failed to synchronously memcpy host-to-device: host 0x7fcc7e4d4000 to device 0x1deffc002 size 4096: Failed precondition: Unable to enqueue when not opened, queue: [0000:00:04.0 PE0 C0 MC0 TN0 Queue HBM_WRITE]. State is: CLOSED [[Node: optimizer/gradients/neural_network/fully_connected_2/BiasAdd_grad/BiasAddGrad_G14 = _Recv[client_terminated=false, recv_device="/job:worker/replica:0/task:0/device:TPU:0", send_device="/job:worker/replica:0/task:0/device:CPU:0", send_device_incarnation=-7832507818616568453, tensor_name="edge_42_op...iasAddGrad", tensor_type=DT_FLOAT, _device="/job:worker/replica:0/task:0/device:TPU:0"]()]]

正如它所说,它看起来仍在尝试使用 TPU recv_device="/job:worker/replica:0/task:0/device:TPU:0"use_tpu为什么设置为 False时尝试使用 TPU ?

0 投票
2 回答
2509 浏览

python - ModuleNotFoundError:没有名为“tensorflow.compiler”的模块

运行以下代码时出现上述错误:env:windows10+jupyter notebook+tensorflow1.9+python3.6

0 投票
1 回答
443 浏览

python - 在 TPU 上运行 Keras 函数式 API

我想将 create_model 函数重写Keras 功能 API。在 TPU 上运行它,但是当我翻译它时,它给了我一个关于在 create_method 函数中使用占位符的错误。在原始示例中,作者没有将显式占位符放入 create_method 函数中。我正在使用 Keras 输入函数,因为我需要实例化一个 Keras 张量才能开始,显然这是一个占位符。有没有办法摆脱我的 create_method 函数中的占位符?

这是我的代码片段:

当我从提供的 MNIST TPU 代码创建它时,我收到错误

进料口外的占位符

但是如果没有顺序代码中的占位符,我也无法运行它,或者有没有办法做到这一点?

0 投票
3 回答
1098 浏览

tensorflow - 带 TPU 训练的 Tensorflow 对象检测 API - 显示更精细的 Tensorboard 图

我一直在学习有关Tensorflow 对象检测 API的本教程,并且我已经使用 Google 的 Cloud TPU 成功地训练了我自己的对象检测模型。

然而,问题是在 Tensorboard 上,我看到的每个图只有 2 个数据点(所以它只是绘制一条直线),如下所示: 在此处输入图像描述

...而我想看到更多像下面这样的“粒度”图,这些图更详细:

在此处输入图像描述

我一直在关注的教程承认这个问题是由于 TPU 训练需要很少的训练步骤而引起的:

请注意,这些图表仅绘制了 2 个点,因为模型只需很少的步骤即可快速训练(如果您之前使用过 TensorBoard,您可能会习惯在此处看到更多曲线)

我尝试save_checkpoints_steps=50在文件中添加model_tpu_main.py(见下面的代码片段),当我重新运行训练时,我能够得到更精细的图,每 300 步左右有 1 个数据点。

在此处输入图像描述

然而,我的训练工作实际上是每 100 步保存一个检查点,而不是每 300 步。查看日志,我的评估工作每 300 步运行一次。有没有办法让我的评估工作每 100 步运行一次(只要有新的检查点),这样我就可以在 Tensorboard 上获得更精细的图?

0 投票
1 回答
368 浏览

python-2.7 - 如何在 Init TPU 系统上超过截止日期之前读取日志

我正在尝试使用我自己的 .tfrecord 数据文件在 TPU 上运行带有 Python 2.7 的模型,并且我的所有代码都会编译,但是当 TPU 开始发挥它的魔力时,我不知道幕后发生了什么。

有没有办法使用 tf.debugger 或类似的东西来跟踪幕后发生的事情?

这是我收到的唯一错误消息:

谢谢!

0 投票
1 回答
244 浏览

python - 将 tf.Session 重写为 tf.Estimator API

我有一些用 tf.Session 低级 API 编写的代码,因为我想在 TPU 上使用它,所以最好将它重写为 tf.Estimator API,因为有一个用于 TPU 加速的 TPUEstimator 类。

有没有标准的方法来做到这一点或如何处理这个问题的指南?

谢谢你的帮助!

0 投票
2 回答
310 浏览

tensorflow - 启动 Google Cloud TPU 缺少 VM 映像规范

我删除了旧的云 TPU 实例,并想用ctpu up --preemptible. 但现在它需要一个随附 VM 映像的规范,因为我收到以下错误消息:

创建 TPU 项目名称!无法在没有基础映像的情况下创建 Compute Engine 实例

当我设置其他实例时,我认为我没有遇到这个问题。无论如何,我找不到任何标志来设置图像。我在 cloud shell 和使用另一个 TPU 区域时得到了相同的结果。这是我的配置: