问题标签 [tpu]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
google-cloud-platform - 将 TPU 与 PyTorch 一起使用
我正在尝试使用 Colab 的 Google Cloud 的 TPU。我可以按照教程使用 Tensorflow 做到这一点。
有人知道是否可以使用 PyTorch 使用 TPU?如果是这样,我该怎么做?你有什么例子吗?
tensorflow - TPU 本地文件系统不存在?
我写了一个 NN 模型,它分析图像并在最后提取 8 个浮点数。该模型在我的计算机上运行良好(但速度很慢),所以我在 TPU 云上试了一下,然后 BAM!我有一个错误:
I1008 12:58:47.077905 140221679261440 tf_logging.py:115] 从 training_loop 记录的错误:文件系统方案“[本地]”未实现(文件:“/home/gcloud_iba/Data/CGTR/model/GA_subset/model.ckpt-0_temp_e840841d93124a67b54074b1c1c ') [[{{节点保存/SaveV2}} = SaveV2[dtypes=[DT_FLOAT, DT_FLOAT, DT_FLOAT, DT_FLOAT, DT_FLOAT, ..., DT_FLOAT, DT_FLOAT, DT_FLOAT, DT_FLOAT, DT_INT64], _device="/job:worker /replica:0/task:0/device:CPU:0"](save/ShardedFilename, save/SaveV2/tensor_names, save/SaveV2/shape_and_slices, batch_normalization/beta/Read/ReadVariableOp, batch_normalization/beta/Momentum/Read_1/ReadVariableOp ,batch_normalization/gamma/Read/ReadVariableOp,batch_normalization/gamma/Momentum/Read_1/ReadVariableOp,batch_normalization/moving_mean/Read/ReadVariableOp,batch_normalization/moving_variance/Read/ReadVariableOp、batch_normalization_1/beta/Read/ReadVariableOp、batch_normalization_1/beta/Momentum/Read_1/ReadVariableOp、batch_normalization_1/gamma/Read/ReadVariableOp、batch_normalization_1/gamma/Momentum/Read_1/ReadVariableOp、batch_normalization_1/moving_mean/Read/ ReadVariableOp、batch_normalization_1/moving_variance/Read/ReadVariableOp、conv2d/kernel/Read/ReadVariableOp、conv2d/kernel/Momentum/Read_1/ReadVariableOp、conv2d_1/kernel/Read/ReadVariableOp、conv2d_1/kernel/Momentum/Read_1/ReadVariableOp、conv2d_2/kernel/读取/ReadVariableOp, conv2d_2/kernel/Momentum/Read_1/ReadVariableOp, conv2d_3/kernel/Read/ReadVariableOp, conv2d_3/kernel/Momentum/Read_1/ReadVariableOp, conv2d_4/kernel/Read/ReadVariableOp, conv2d_4/kernel/Momentum/Read_1/ReadVariableOp, conv2d_5/kernel/Read/ReadVariableOp,conv2d_5/kernel/Momentum/Read_1/ReadVariableOp, conv2d_6/kernel/Read/ReadVariableOp, conv2d_6/kernel/Momentum/Read_1/ReadVariableOp, conv2d_7/kernel/Read/ReadVariableOp, conv2d_7/kernel/Momentum/Read_1/ReadVariableOp, conv2d_8/kernel/读取/ReadVariableOp、conv2d_8/kernel/Momentum/Read_1/ReadVariableOp、conv2d_9/kernel/Read/ReadVariableOp、conv2d_9/kernel/Momentum/Read_1/ReadVariableOp、dense/bias/Read/ReadVariableOp、dense/bias/Momentum/Read_1/ReadVariableOp、密集/内核/读取/ReadVariableOp,密集/内核/Momentum/Read_1/ReadVariableOp,密集_1/bias/Read/ReadVariableOp,密集_1/bias/Momentum/Read_1/ReadVariableOp,密集_1/内核/读取/ReadVariableOp,密集_1/内核/Momentum/ Read_1/ReadVariableOp、dense_2/bias/Read/ReadVariableOp、dense_2/bias/Momentum/Read_1/ReadVariableOp、dense_2/kernel/Read/ReadVariableOp、dense_2/kernel/Momentum/Read_1/ReadVariableOp、dense_3/bias/Read/ReadVariableOp、dense_3/bias/Momentum/Read_1/ReadVariableOp、dense_3/kernel/Read/ReadVariableOp、dense_3/kernel/Momentum/Read_1/ReadVariableOp、global_step/Read/读取变量操作)]]
我检查了 TPU 是否可以访问硬盘并且它可以工作(我有另一段代码可以读取与另一个模型相同的数据集)。我还没有缓存我的数据,但我做了一些预取。除此之外,我看不出什么不起作用?
感谢您提供的任何帮助!
皮尔
google-cloud-platform - 无法从 GCP 中的 VM 访问 TPU
尝试运行此代码
但是我收到以下错误,
googleapiclient.errors.HttpError:https://tpu.googleapis.com/v1alpha1/projects/nlp-research-198620/locations/us-central1-b/nodes/sahil-wadhwa?alt=json 返回“权限'tpu.nodes .get' 在 'projects/nlp-research-198620/locations/us-central1-b/nodes/sahil-wadhwa' 上被拒绝
有人能告诉我需要什么权限来提供我的 VM 或 TPU 才能顺利运行吗?
python - TensorFlow TPU | 变量的初始化器来自控制流构造
我正在使用 TensorFlow TPU 训练模型,但是当我尝试使用 tf.contrib.tpu.rewrite 将代码转换为与 TPU 兼容的代码时,出现错误:
ValueError: 变量生成器/解码器/layer4/kernel/ 的初始化器来自控制流构造内部,例如循环或条件。在循环或条件中创建变量时,使用 lambda 作为初始值设定项
我环顾四周,似乎通常有一个 if 语句或 while 循环会导致错误。然而,我没有这些。
现在,这是变量定义(内核):
我多次调用该函数。这是模型函数内部调用的样子:
还有一件事,在引发错误之前,我从 tpu.replicator 收到警告/错误:
[[{{node input1}} = TPUReplicatedInputN=1, T=DT_BOOL]] 2018-11-02 02:55:44.242495: E tensorflow/core/common_runtime/executor.cc:630] 执行器创建内核失败。未找到:没有为与节点 {{node input1}} = TPUReplicatedInputN=1, T=DT_BOOL 兼容的 CPU 设备注册的“TPUReplicatedInput”OpKernel。挂号的:
但是调试起来非常困难,因为它没有指定导致问题的节点的名称。
提前致谢。
tensorflow - 如何通过 Tensorflow 的对象检测 API 手动使用 Google TPU?
我已经使用在 GPU 上本地运行的 Tensorflow 的对象检测 API(使用model_main.py
)和使用 Google 的 ML 引擎(GPU 和 TPU)成功地训练了模型。model_tpu_main.py
但是,当在 Google 的云上运行时(使用手动配置的 VM 和 TPU),我似乎无法用来训练模型。
当我model_tpu_main.py
使用类似的东西启动时python -m object_detection.model_tpu_main --model_dir=gs://bucket/training --tpu_zone us-central1-b --pipeline_config_path=gs://bucket/training/pipeline.config --job-dir gs://bucket/training --tpu_name mytpu_name
,它会卡在:
查看 TPU 日志,我得到的几乎是:
知道我做错了什么吗?
tensorflow - Colab:在 TPU 上缓存数据集
我想设置类似于以下 colab notebook 的东西。我有一个 100MB 的单 TFRecord,我想用 TPU 训练它。
我的训练输入函数如下:
据我了解,使用 TPU 时,数据集不能驻留在机器硬盘上,这就是我添加dataset.cache()
. 但我仍然得到
UnimplementedError(参见上面的回溯):文件系统方案“[本地]”未实现(文件:“train.tfrecord”)
tensorflow - InvalidArgumentError:不成功的 TensorSliceReader 构造函数:无法获取匹配文件...文件系统方案“[本地]”未实现
运行笔记本时出现以下错误:
不知怎么Unimplemented: File system scheme '[local]' not implemented
的,可能与这个问题有关。
我无法直接访问文件的路径,以便\
在需要的地方添加末尾。
这是笔记本中的代码块:
希望这将有助于调试问题。
有什么想法吗?
tensorflow - 将 SessionRunHook 与 TPU 一起使用
我开发了一个附加到 TPUEstimator 的 SessionRunHook。SessionRunHook 在 CPU 上工作得非常好,但是如果我使用 TPU,我会得到一个错误:
有没有其他人遇到过这个问题并找到解决方法?
tensorflow - 简单模型无法在 tpu 上运行(在 colab 上)
我在 google colab 上使用 TPU 运行一个非常简单的模型时遇到问题。我把它提炼成一个非常简单的程序。我怀疑它不喜欢嵌套模型(input_2?),但我不知道如何解决这个问题:
这是运行它的输出(只需在 colab 中粘贴为单个单元格):
出于某种原因,stackoverflow 坚持我会写一些更多的细节......没有。