问题标签 [tensorflow-xla]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
15213 浏览

tensorflow - Tensorflow:设置 XLA_GPU_JIT 设备编号 0 时,XLA 服务不支持设备 CUDA:0

我在使用带有 Tensorflow 后端的 keras 时得到了这个:

tensorflow.python.framework.errors_impl.InvalidArgumentError: 设备 CUDA:0 在设置 XLA_GPU_JIT 设备编号 0 时不受 XLA 服务支持

相关代码:

张量流版本:1.14.0

0 投票
0 回答
173 浏览

tensorflow - 为什么在我使用 XLA_FLAGS 转储 ptx 和 llvm 时没有为矩阵乘法张量流操作生成 PTX?

我正在尝试转储HLO, LLVM IR, 和PTX以下tensorflow 1.13.1代码:

我使用以下内容运行该程序XLA_FLAGS

./path1目录包括所有HLO通行证输出。但是目录中的.lland.ptx文件./path2不包含ptxorllvm IR代码。该.ptx文件是空的,ll文件只有以下几行:

我的问题是为什么我看不到ptx上述 tensorflow 代码的代码?

我应该提一下,如果我在d = d + d上面的 python 代码之后添加该行a * b + c,会XLA生成一些PTX代码,这些代码只是加法运算,不包括矩阵乘法代码。

0 投票
1 回答
672 浏览

python - TF 2 Keras 模型基准测试与 JIT

我正在尝试对一些 TF2 keras 代码进行基准测试 - 具体而言,将 JIT 编译的性能与非 JITed 进行比较。tf.test.Benchmark在没有 JIT 的情况下给出合理的外观结果 - 与输出相比,内存使用量大致一致nvidia-smi,时间非常接近model.fit- 但 JITed 版本报告的内存使用量很小(<1Mb,与没有 JIT 的 2.2Gb 相比),并且时间始终小于约 30%期间花费的时间model.fit

下面提供的代码。我有3个主要问题:

  1. 如何准确了解 JIT 模型的内存使用情况?
  2. model.fit基准调用和JIT 模型之间速度差异的根源是什么?
  3. TF 2 的做法是什么?我正在使用会话和tf.compat.v1.data.make_one_shot_iterator,但肯定有一种方法使用@tf.function或什么?有没有可以更好地做到这一点的非 TF 工具?
0 投票
0 回答
156 浏览

pytorch - pytorch xla:Pad的操作数的元素类型不匹配

(编辑以提供和解释一个最小的可重现示例)

当向后挂钩与 pytorch xla 一起使用时,我看到以下错误。

  • 将 pytorch-xla 替换为普通 pytorch(又名 pytorch cuda)时,不会出现该错误。
  • 当复制渐变的行在后向钩子中被注释掉时,pytorch-xla 看不到错误。

创建此错误的最少代码:

可能出了什么问题?

0 投票
1 回答
873 浏览

tensorflow - TensorFlow XLA 是否已弃用?

我刚刚读到(这里):

在此版本中弃用 XLA_CPU 和 XLA_GPU 设备。(TF 2.2.0)

XLA 现在被弃用了吗?它不再使用了吗?有替代方案吗?还是这一切都是在内部自动处理的?这种弃用是什么意思?

0 投票
1 回答
339 浏览

nlp - RuntimeError:尝试在 colab tpu 上运行 AlbertForMaskedLM 时出现未知设备

我在 colab 上运行以下代码,取自此处的示例:https ://huggingface.co/transformers/model_doc/albert.html#albertformaskedlm

我没有对示例代码做任何事情,input_ids除了model使用.to(dev). 似乎一切都移到了 TPU 没有问题,因为当我输入时,data我得到以下输出:tensor([[ 2, 10975, 15, 51, 1952, 25, 10901, 3]], device='xla:1')

但是,当我运行此代码时,出现以下错误:

有谁知道发生了什么?

0 投票
2 回答
817 浏览

python - 使用不规则张量和 while 循环时,XLA 无法推断跨步切片的编译时间常数输出形状

是否可以使用以下最小示例experimental_compile=True?我已经看到这个论点有一些很大的加速,因此我很想弄清楚如何让它发挥作用。谢谢!

0 投票
1 回答
224 浏览

python - 支持 XLA 的动态切片

有没有办法根据 XLA 编译函数中的随机数生成器动态切片张量?例如:

此代码无法编译,因为 XLA 要求tf.range在编译时知道参数。有推荐的解决方法吗?

0 投票
2 回答
1353 浏览

tensorflow2.0 - 使用 XLA tf.function 运行 TensorFlow 会引发错误

当我尝试编译此代码时,出现以下错误。

0 投票
0 回答
19 浏览

tensorflow - Tensorflow XLA 引入了更多的 cuMemcpyHtoDAsync 调用

我正在使用 nvprof 对 Tensorflow 及其 XLA jit 编译进行一些分析。有趣的是,XLA 将引入更多的 cuMemcpyHtoDAsync 调用。

例如 V100 上的 resnet50,在 batch=64 推理下,xla jit 平均会多出 5000 次 cuMemcpyHtoDAsync 调用。该脚本可用 dl-infer-perf, nvprof -f --csv --print-api-summary python3 infer_perf/to_xla.py mobilenet --batch=64 --threads=1.

对此的任何想法将不胜感激。