问题标签 [tpu]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
3 回答
8447 浏览

google-cloud-platform - 将 TPU 与 PyTorch 一起使用

我正在尝试使用 Colab 的 Google Cloud 的 TPU。我可以按照教程使用 Tensorflow 做到这一点。

有人知道是否可以使用 PyTorch 使用 TPU?如果是这样,我该怎么做?你有什么例子吗?

0 投票
2 回答
1629 浏览

tensorflow - TPU 本地文件系统不存在?

我写了一个 NN 模型,它分析图像并在最后提取 8 个浮点数。该模型在我的计算机上运行良好(但速度很慢),所以我在 TPU 云上试了一下,然后 BAM!我有一个错误:

I1008 12:58:47.077905 140221679261440 tf_logging.py:115] 从 training_loop 记录的错误:文件系统方案“[本地]”未实现(文件:“/home/gcloud_iba/Data/CGTR/model/GA_subset/model.ckpt-0_temp_e840841d93124a67b54074b1c1c ') [[{{节点保存/SaveV2}} = SaveV2[dtypes=[DT_FLOAT, DT_FLOAT, DT_FLOAT, DT_FLOAT, DT_FLOAT, ..., DT_FLOAT, DT_FLOAT, DT_FLOAT, DT_FLOAT, DT_INT64], _device="/job:worker /replica:0/task:0/device:CPU:0"](save/ShardedFilename, save/SaveV2/tensor_names, save/SaveV2/shape_and_slices, batch_normalization/beta/Read/ReadVariableOp, batch_normalization/beta/Momentum/Read_1/ReadVariableOp ,batch_normalization/gamma/Read/ReadVariableOp,batch_normalization/gamma/Momentum/Read_1/ReadVariableOp,batch_normalization/moving_mean/Read/ReadVariableOp,batch_normalization/moving_variance/Read/ReadVariableOp、batch_normalization_1/beta/Read/ReadVariableOp、batch_normalization_1/beta/Momentum/Read_1/ReadVariableOp、batch_normalization_1/gamma/Read/ReadVariableOp、batch_normalization_1/gamma/Momentum/Read_1/ReadVariableOp、batch_normalization_1/moving_mean/Read/ ReadVariableOp、batch_normalization_1/moving_variance/Read/ReadVariableOp、conv2d/kernel/Read/ReadVariableOp、conv2d/kernel/Momentum/Read_1/ReadVariableOp、conv2d_1/kernel/Read/ReadVariableOp、conv2d_1/kernel/Momentum/Read_1/ReadVariableOp、conv2d_2/kernel/读取/ReadVariableOp, conv2d_2/kernel/Momentum/Read_1/ReadVariableOp, conv2d_3/kernel/Read/ReadVariableOp, conv2d_3/kernel/Momentum/Read_1/ReadVariableOp, conv2d_4/kernel/Read/ReadVariableOp, conv2d_4/kernel/Momentum/Read_1/ReadVariableOp, conv2d_5/kernel/Read/ReadVariableOp,conv2d_5/kernel/Momentum/Read_1/ReadVariableOp, conv2d_6/kernel/Read/ReadVariableOp, conv2d_6/kernel/Momentum/Read_1/ReadVariableOp, conv2d_7/kernel/Read/ReadVariableOp, conv2d_7/kernel/Momentum/Read_1/ReadVariableOp, conv2d_8/kernel/读取/ReadVariableOp、conv2d_8/kernel/Momentum/Read_1/ReadVariableOp、conv2d_9/kernel/Read/ReadVariableOp、conv2d_9/kernel/Momentum/Read_1/ReadVariableOp、dense/bias/Read/ReadVariableOp、dense/bias/Momentum/Read_1/ReadVariableOp、密集/内核/读取/ReadVariableOp,密集/内核/Momentum/Read_1/ReadVariableOp,密集_1/bias/Read/ReadVariableOp,密集_1/bias/Momentum/Read_1/ReadVariableOp,密集_1/内核/读取/ReadVariableOp,密集_1/内核/Momentum/ Read_1/ReadVariableOp、dense_2/bias/Read/ReadVariableOp、dense_2/bias/Momentum/Read_1/ReadVariableOp、dense_2/kernel/Read/ReadVariableOp、dense_2/kernel/Momentum/Read_1/ReadVariableOp、dense_3/bias/Read/ReadVariableOp、dense_3/bias/Momentum/Read_1/ReadVariableOp、dense_3/kernel/Read/ReadVariableOp、dense_3/kernel/Momentum/Read_1/ReadVariableOp、global_step/Read/读取变量操作)]]

我检查了 TPU 是否可以访问硬盘并且它可以工作(我有另一段代码可以读取与另一个模型相同的数据集)。我还没有缓存我的数据,但我做了一些预取。除此之外,我看不出什么不起作用?

感谢您提供的任何帮助!

皮尔

0 投票
2 回答
1124 浏览

google-cloud-platform - 无法从 GCP 中的 VM 访问 TPU

尝试运行此代码

但是我收到以下错误,

googleapiclient.errors.HttpError:https://tpu.googleapis.com/v1alpha1/projects/nlp-research-198620/locations/us-central1-b/nodes/sahil-wadhwa?alt=json 返回“权限'tpu.nodes .get' 在 'projects/nlp-research-198620/locations/us-central1-b/nodes/sahil-wadhwa' 上被拒绝

有人能告诉我需要什么权限来提供我的 VM 或 TPU 才能顺利运行吗?

0 投票
0 回答
402 浏览

python - TensorFlow TPU | 变量的初始化器来自控制流构造

我正在使用 TensorFlow TPU 训练模型,但是当我尝试使用 tf.contrib.tpu.rewrite 将代码转换为与 TPU 兼容的代码时,出现错误:

ValueError: 变量生成器/解码器/layer4/kernel/ 的初始化器来自控制流构造内部,例如循环或条件。在循环或条件中创建变量时,使用 lambda 作为初始值设定项

我环顾四周,似乎通常有一个 if 语句或 while 循环会导致错误。然而,我没有这些。

现在,这是变量定义(内核):

我多次调用该函数。这是模型函数内部调用的样子:

还有一件事,在引发错误之前,我从 tpu.replicator 收到警告/错误:

[[{{node input1}} = TPUReplicatedInputN=1, T=DT_BOOL]] 2018-11-02 02:55:44.242495: E tensorflow/core/common_runtime/executor.cc:630] 执行器创建内核失败。未找到:没有为与节点 {{node input1}} = TPUReplicatedInputN=1, T=DT_BOOL 兼容的 CPU 设备注册的“TPUReplicatedInput”OpKernel。挂号的:

但是调试起来非常困难,因为它没有指定导致问题的节点的名称。

提前致谢。

0 投票
0 回答
590 浏览

tensorflow - 如何通过 Tensorflow 的对象检测 API 手动使用 Google TPU?

我已经使用在 GPU 上本地运行的 Tensorflow 的对象检测 API(使用model_main.py)和使用 Google 的 ML 引擎(GPU 和 TPU)成功地训练了模型。model_tpu_main.py但是,当在 Google 的云上运行时(使用手动配置的 VM 和 TPU),我似乎无法用来训练模型。

当我model_tpu_main.py使用类似的东西启动时python -m object_detection.model_tpu_main --model_dir=gs://bucket/training --tpu_zone us-central1-b --pipeline_config_path=gs://bucket/training/pipeline.config --job-dir gs://bucket/training --tpu_name mytpu_name,它会卡在:

查看 TPU 日志,我得到的几乎是:

知道我做错了什么吗?

0 投票
1 回答
93 浏览

python - 仅在 TPU 训练 Keras 模型时出现形状错误

首先,这不是我的代码。我只是将其更改为能够在 TPU 上进行训练。原作者在这里。我能够在协作笔记本上的 GPU 加速运行时运行它,但是当我执行 TPU 加速运行时它似乎中断了。

这是我的笔记本。它只是给我一个错误,即激活函数的大小不正确。

如果我花了大约 3 个小时进行调试,我将不胜感激。

0 投票
2 回答
1127 浏览

tensorflow - Colab:在 TPU 上缓存数据集

我想设置类似于以下 colab notebook 的东西。我有一个 100MB 的单 TFRecord,我想用 TPU 训练它。

我的训练输入函数如下:

据我了解,使用 TPU 时,数据集不能驻留在机器硬盘上,这就是我添加dataset.cache(). 但我仍然得到

UnimplementedError(参见上面的回溯):文​​件系统方案“[本地]”未实现(文件:“train.tfrecord”)

0 投票
2 回答
2943 浏览

tensorflow - InvalidArgumentError:不成功的 TensorSliceReader 构造函数:无法获取匹配文件...文件系统方案“[本地]”未实现

运行笔记本时出现以下错误:

不知怎么Unimplemented: File system scheme '[local]' not implemented的,可能与这个问题有关。

我无法直接访问文件的路径,以便\在需要的地方添加末尾。

这是笔记本中的代码块:

希望这将有助于调试问题。

有什么想法吗?

0 投票
0 回答
366 浏览

tensorflow - 将 SessionRunHook 与 TPU 一起使用

我开发了一个附加到 TPUEstimator 的 SessionRunHook。SessionRunHook 在 CPU 上工作得非常好,但是如果我使用 TPU,我会得到一个错误:

有没有其他人遇到过这个问题并找到解决方法?

0 投票
2 回答
2151 浏览

tensorflow - 简单模型无法在 tpu 上运行(在 colab 上)

我在 google colab 上使用 TPU 运行一个非常简单的模型时遇到问题。我把它提炼成一个非常简单的程序。我怀疑它不喜欢嵌套模型(input_2?),但我不知道如何解决这个问题:

这是运行它的输出(只需在 colab 中粘贴为单个单元格):

出于某种原因,stackoverflow 坚持我会写一些更多的细节......没有。