问题标签 [tensorflow-xla]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

71 问题

0 投票

2 回答

15213 浏览

tensorflow - Tensorflow：设置 XLA_GPU_JIT 设备编号 0 时，XLA 服务不支持设备 CUDA:0

我在使用带有 Tensorflow 后端的 keras 时得到了这个：

tensorflow.python.framework.errors_impl.InvalidArgumentError: 设备 CUDA:0 在设置 XLA_GPU_JIT 设备编号 0 时不受 XLA 服务支持

tensorflow - 为什么在我使用 XLA_FLAGS 转储 ptx 和 llvm 时没有为矩阵乘法张量流操作生成 PTX？

我正在尝试转储HLO, LLVM IR, 和PTX以下tensorflow 1.13.1代码：

我使用以下内容运行该程序XLA_FLAGS：

该./path1目录包括所有HLO通行证输出。但是目录中的.lland.ptx文件./path2不包含ptxorllvm IR代码。该.ptx文件是空的，ll文件只有以下几行：

我的问题是为什么我看不到ptx上述 tensorflow 代码的代码？

我应该提一下，如果我在d = d + d上面的 python 代码之后添加该行a * b + c，会XLA生成一些PTX代码，这些代码只是加法运算，不包括矩阵乘法代码。

tensorflow matrix-multiplication ptx tensorflow-xla xla

2019-09-06T20:26:34.743

0 投票

1 回答

672 浏览

python - TF 2 Keras 模型基准测试与 JIT

我正在尝试对一些 TF2 keras 代码进行基准测试 - 具体而言，将 JIT 编译的性能与非 JITed 进行比较。tf.test.Benchmark在没有 JIT 的情况下给出合理的外观结果 - 与输出相比，内存使用量大致一致nvidia-smi，时间非常接近model.fit- 但 JITed 版本报告的内存使用量很小（<1Mb，与没有 JIT 的 2.2Gb 相比），并且时间始终小于约 30%期间花费的时间model.fit。

下面提供的代码。我有3个主要问题：

如何准确了解 JIT 模型的内存使用情况？
model.fit基准调用和JIT 模型之间速度差异的根源是什么？
TF 2 的做法是什么？我正在使用会话和tf.compat.v1.data.make_one_shot_iterator，但肯定有一种方法使用@tf.function或什么？有没有可以更好地做到这一点的非 TF 工具？

python tensorflow jit tensorflow2.0 tensorflow-xla

2019-12-04T09:59:50.627

0 投票

0 回答

156 浏览

pytorch - pytorch xla：Pad的操作数的元素类型不匹配

（编辑以提供和解释一个最小的可重现示例）

当向后挂钩与 pytorch xla 一起使用时，我看到以下错误。

将 pytorch-xla 替换为普通 pytorch（又名 pytorch cuda）时，不会出现该错误。
当复制渐变的行在后向钩子中被注释掉时，pytorch-xla 看不到错误。

创建此错误的最少代码：

可能出了什么问题？

pytorch tensorflow-xla

2020-03-02T04:03:22.687

0 投票

1 回答

873 浏览

tensorflow - TensorFlow XLA 是否已弃用？

我刚刚读到（这里）：

在此版本中弃用 XLA_CPU 和 XLA_GPU 设备。(TF 2.2.0)

XLA 现在被弃用了吗？它不再使用了吗？有替代方案吗？还是这一切都是在内部自动处理的？这种弃用是什么意思？

tensorflow tensorflow2.x tensorflow-xla

2020-04-01T08:46:19.783

0 投票

1 回答

339 浏览

nlp - RuntimeError：尝试在 colab tpu 上运行 AlbertForMaskedLM 时出现未知设备

我在 colab 上运行以下代码，取自此处的示例：https ://huggingface.co/transformers/model_doc/albert.html#albertformaskedlm

我没有对示例代码做任何事情，input_ids除了model使用.to(dev). 似乎一切都移到了 TPU 没有问题，因为当我输入时，data我得到以下输出：tensor([[ 2, 10975, 15, 51, 1952, 25, 10901, 3]], device='xla:1')

但是，当我运行此代码时，出现以下错误：

有谁知道发生了什么？

nlp pytorch tpu huggingface-transformers tensorflow-xla

2020-04-11T13:09:53.083

0 投票

2 回答

817 浏览

python - 使用不规则张量和 while 循环时，XLA 无法推断跨步切片的编译时间常数输出形状

是否可以使用以下最小示例experimental_compile=True？我已经看到这个论点有一些很大的加速，因此我很想弄清楚如何让它发挥作用。谢谢！

python tensorflow tensorflow2.0 tensorflow-xla

2020-04-13T13:11:24.390

0 投票

1 回答

224 浏览

python - 支持 XLA 的动态切片

有没有办法根据 XLA 编译函数中的随机数生成器动态切片张量？例如：

此代码无法编译，因为 XLA 要求tf.range在编译时知道参数。有推荐的解决方法吗？

python tensorflow tensorflow-xla

2020-05-29T11:04:46.653

0 投票

2 回答

1353 浏览

tensorflow2.0 - 使用 XLA tf.function 运行 TensorFlow 会引发错误

当我尝试编译此代码时，出现以下错误。

tensorflow2.0 tensorflow-xla

2020-12-21T09:59:20.223

0 投票

0 回答

19 浏览

tensorflow - Tensorflow XLA 引入了更多的 cuMemcpyHtoDAsync 调用

我正在使用 nvprof 对 Tensorflow 及其 XLA jit 编译进行一些分析。有趣的是，XLA 将引入更多的 cuMemcpyHtoDAsync 调用。

例如 V100 上的 resnet50，在 batch=64 推理下，xla jit 平均会多出 5000 次 cuMemcpyHtoDAsync 调用。该脚本可用 dl-infer-perf, nvprof -f --csv --print-api-summary python3 infer_perf/to_xla.py mobilenet --batch=64 --threads=1.

对此的任何想法将不胜感激。

tensorflow deep-learning tensorflow-xla

2021-04-17T07:27:49.993

1 2 3 4 5 6 7 8 9 10

问题标签 [tensorflow-xla]

Reference