问题标签 [google-cloud-tpu]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1105 浏览

tensorflow - Error while using Tensorflow-Hub and Colab TPU

I am trying to use BERT for text classification using Tensorflow hub. The code runs fine on Colab GPU but when I converted it for Colab TPU it shows up the following 'uninitialized layer' error. Following is the Bert Layer-

Following is my model -

And follwing is the Error-

Please help me resolve this error.

0 投票
1 回答
33 浏览

google-compute-engine - 形状不能沿维度 0 分片 8 次

我试图在计算引擎和谷歌云 TPU 上运行自定义估算器,但是我收到一个错误:

我不知道是什么原因或如何解决它 - 任何想法?

安迪·P。

0 投票
1 回答
328 浏览

tensorflow - 是否有任何解决方法可以在 TPU 上使用多个“正确”指标进行 keras 学习?

我在 Google colaboratory 上使用 Keras 制作了小型模型。当我在 TPU 上运行学习时,我看到了错误的指标。

当然,当我在 CPU/GPU 上运行学习时,m1 和 m2 指标显示正确的数字。(见下面的代码)

但是在我将运行时类型更改为 TPU 后,m1 和 m2 不正确,看起来像是这些值的平均值。

[CPU/GPU的结果]

[TPU的结果]

很明显CPU/GPU的结果是正确的。为什么会这样?有什么解决方法吗?

  • 如果我只使用一个指标(如 [m1]),则该值是正确的。
0 投票
1 回答
3538 浏览

tensorflow - 如何在 Cloud TPU v2 中使用 SQUAD 2.0 训练 BERT 模型?

免责声明:我对神经网络和 Tensorflow 非常陌生。

我正在尝试创建一个 QA 应用程序,用户提出问题,应用程序给出答案。我尝试的大多数传统方法都不起作用或不够准确或需要人工干预。我正在研究无监督的 QA 应用程序,那是我遇到BERT的时候。

谷歌声称的BERT是最先进的神经网络模型,并在 Squad 2.0 的排行榜上取得了最高分。我希望将此模型用于我的应用程序并测试其性能。

我在Compute Engine 中创建了一个 Windows 2012 Datacenter 版虚拟机。我使用ctpu 创建了 Cloud TPU。

我在 Cloud Storage 中有BERT 大型无壳模型。

如何使用SQUAD 2.0训练 BERT 大型无壳模型?

如果我错了,请随时纠正我,我理解 Cloud TPU 只是一个类似于 CPU 或 GPU 的设备。但是,如果您阅读本文,他们会解释说 Cloud TPU 是一个虚拟机(“在 Cloud TPU 上,您可以使用 BERT-Large 作为...运行”)。

如here中所述,我在哪里运行run_squad.py

对于此参数,如何从虚拟机访问存储桶文件vocab_file

外部 IP 地址是$TPU_NAME环境变量的值吗?

0 投票
2 回答
679 浏览

keras - 残差神经网络模型在 google colab tpu 硬件上运行很慢?

我在 keras 中的 Google Colab 上为 cifar10 数据集制作了一个残差神经网络模型,但它在 TPU 硬件上运行非常缓慢。

我有另一个在 google colab 上运行良好的常规卷积神经网络。该模型使用 keras Sequential API,而残差神经网络使用 Functional API,不确定是否是问题所在。我已经尝试过更改批量大小,但没有帮助。我的程序的链接如下。

预计每个 epoch 至少在一分钟内完成(通常最多大约 10 秒),但似乎每个 mini-batch 需要一整分钟才能完成(每个 epoch 有很多 mini-batch)。

0 投票
2 回答
571 浏览

google-cloud-platform - 如何利用多个 Google Cloud TPU 训练单个模型

我已在该us-central1-f地区分配了多个 Google Cloud TPU。机器类型都是v2-8.

如何利用我所有的 TPU 训练一个模型?

us-central1-f地区不支持 pods,因此使用 pods 似乎不是解决方案。即使 pod 可用,我拥有的 v2-8 单元的数量也不匹配任何 pod TPU 切片大小(16、64、128、256),因此我无法在单个 pod 中使用它们。

0 投票
1 回答
371 浏览

google-colaboratory - Colab TPU:TensorFlow '2.0.0-beta0' LinearClassifier .train 错误

尝试让 LinearClassifier 与 Colab TPU 一起运行。 https://www.tensorflow.org/versions/r2.0/api_docs/python/tf/estimator/LinearClassifier

TensorFlow 2.0 Estimator(LinearClassifier) 支持 TPUStrategy https://www.tensorflow.org/beta/guide/distribute_strategy#whats_supported_now_2

在没有 tpu_strategy 的情况下,LinearClassifier 按预期工作。 https://www.tensorflow.org/beta/guide/distribute_strategy#tpustrategy

将 tpu_strategy 添加为 LinearClassifier 的配置时,出现以下错误:

InvalidArgumentError:没有注册 OpKernel 以支持{{node input0}} 使用的 Op 'TPUReplicatedInput' 具有以下属性:[T=DT_DOUBLE,N=8] 注册设备:[CPU,XLA_CPU] 注册内核:[[input0]] https ://www.tensorflow.org/beta/guide/distribute_strategy#using_tfdistributetestrategy_with_estimator

这几天一直在吵架,这是怎么回事?

Colab 中的完全例外:

0 投票
1 回答
213 浏览

tensorflow - TensorFlow 1.4:如何将 BoostedTreesClassifier 与 Colab TPU 结合使用

我有 BoostedTreesClassifier 的代码,它可以工作,但需要很长时间才能处理我提供的数据量和我选择的参数,即 max_depth https://www.tensorflow.org/api_docs/python/tf/estimator /BoostedTreesClassifier

我正在尝试在 Colab 中使用带有 TPU 的 BoostedTreesClassifier 估计器,使用 TPUEstimator https://www.tensorflow.org/api_docs/python/tf/contrib/tpu/TPUEstimator

TPUEstimator 是否可以使用 BoostedTreesClassifier?我看到只有神经网络可以与 Estimator/TPUEstimator https://www.tensorflow.org/guide/using_tpu一起使用

让 BoostedTreesClassifier 与 Colab TPU 一起工作的正确方法是什么?

0 投票
2 回答
4308 浏览

python - 如何使用训练有素的 BERT 模型检查点进行预测?

我用 SQUAD 2.0 训练了 BERT,并使用BERT-mastermodel.ckpt.data在输出目录中得到了, model.ckpt.meta, model.ckpt.index(F1 score : 81) 以及predictions.json, 等等/run_squad.py

我尝试将model.ckpt.meta, model.ckpt.index,复制model.ckpt.data$BERT_LARGE_DIR目录并更改run_squad.py标志如下,以仅预测答案而不使用数据集进行训练:

它抛出 bucket directory/model.ckpt 不存在错误。

如何利用训练后生成的检查点进行预测?

0 投票
0 回答
1145 浏览

keras - 在 Google Colab TPU 上训练 CNN 的最佳方法

我正在尝试在 Google Colab 上使用 Keras 和他们的 TPU 支持来训练一个 CNN(现在是 ResNet50)。Colab 上的 TPU 虚拟机的本地磁盘很小,因此我无法在其上放置训练图像。

我尝试将训练/测试图像上传到 Google 驱动器,但在 Colab 上从那里访问文件似乎相当慢。我设置了一个谷歌云存储(GCS)存储桶来上传数据。但是找不到关于如何将存储桶连接到 Keras 和 TPU 进行训练的好例子。

TensorFlow网站上,他们建议只使用 GCS 作为文件系统。但是文件集必须使用“tf.io.gfile”进行访问。对于 Keras,这意味着什么?

Shakespeare TPU 示例展示了安装 GCS 存储桶并将其用于模型存储。所以这样我就可以挂载和引用存储桶。但它并没有告诉我如何使用 GCS 来提供训练数据。我找到的所有示例都使用了一些预定义的 Keras 图像集。

一些说明似乎表明 TPU 在其自己的独立服务器上运行,并且数据应该在 GCS 上以便 TPU 访问它。如果我运行 Keras 生成器,进行图像增强,并将这些信息提供给训练系统,这是否意味着我不断通过网络将图像下载到 Colab VM、修改它们,然后通过网络将图像发送到 TPU 服务器?

使用 TPU 在 Keras 上运行一个简单的 CNN 模型似乎相当复杂。我在这里缺少什么,正确的过程是什么?

任何有具体例子的人都会很棒..