问题标签 [tensorflow-xla]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
tensorflow - Tensorflow:设置 XLA_GPU_JIT 设备编号 0 时,XLA 服务不支持设备 CUDA:0
我在使用带有 Tensorflow 后端的 keras 时得到了这个:
tensorflow.python.framework.errors_impl.InvalidArgumentError: 设备 CUDA:0 在设置 XLA_GPU_JIT 设备编号 0 时不受 XLA 服务支持
相关代码:
张量流版本:1.14.0
tensorflow - 为什么在我使用 XLA_FLAGS 转储 ptx 和 llvm 时没有为矩阵乘法张量流操作生成 PTX?
我正在尝试转储HLO
, LLVM IR
, 和PTX
以下tensorflow 1.13.1
代码:
我使用以下内容运行该程序XLA_FLAGS
:
该./path1
目录包括所有HLO
通行证输出。但是目录中的.ll
and.ptx
文件./path2
不包含ptx
orllvm IR
代码。该.ptx
文件是空的,ll
文件只有以下几行:
我的问题是为什么我看不到ptx
上述 tensorflow 代码的代码?
我应该提一下,如果我在d = d + d
上面的 python 代码之后添加该行a * b + c
,会XLA
生成一些PTX
代码,这些代码只是加法运算,不包括矩阵乘法代码。
python - TF 2 Keras 模型基准测试与 JIT
我正在尝试对一些 TF2 keras 代码进行基准测试 - 具体而言,将 JIT 编译的性能与非 JITed 进行比较。tf.test.Benchmark
在没有 JIT 的情况下给出合理的外观结果 - 与输出相比,内存使用量大致一致nvidia-smi
,时间非常接近model.fit
- 但 JITed 版本报告的内存使用量很小(<1Mb,与没有 JIT 的 2.2Gb 相比),并且时间始终小于约 30%期间花费的时间model.fit
。
下面提供的代码。我有3个主要问题:
- 如何准确了解 JIT 模型的内存使用情况?
model.fit
基准调用和JIT 模型之间速度差异的根源是什么?- TF 2 的做法是什么?我正在使用会话和
tf.compat.v1.data.make_one_shot_iterator
,但肯定有一种方法使用@tf.function
或什么?有没有可以更好地做到这一点的非 TF 工具?
pytorch - pytorch xla:Pad的操作数的元素类型不匹配
(编辑以提供和解释一个最小的可重现示例)
当向后挂钩与 pytorch xla 一起使用时,我看到以下错误。
- 将 pytorch-xla 替换为普通 pytorch(又名 pytorch cuda)时,不会出现该错误。
- 当复制渐变的行在后向钩子中被注释掉时,pytorch-xla 看不到错误。
创建此错误的最少代码:
可能出了什么问题?
tensorflow - TensorFlow XLA 是否已弃用?
我刚刚读到(这里):
在此版本中弃用 XLA_CPU 和 XLA_GPU 设备。(TF 2.2.0)
XLA 现在被弃用了吗?它不再使用了吗?有替代方案吗?还是这一切都是在内部自动处理的?这种弃用是什么意思?
nlp - RuntimeError:尝试在 colab tpu 上运行 AlbertForMaskedLM 时出现未知设备
我在 colab 上运行以下代码,取自此处的示例:https ://huggingface.co/transformers/model_doc/albert.html#albertformaskedlm
我没有对示例代码做任何事情,input_ids
除了model
使用.to(dev)
. 似乎一切都移到了 TPU 没有问题,因为当我输入时,data
我得到以下输出:tensor([[ 2, 10975, 15, 51, 1952, 25, 10901, 3]], device='xla:1')
但是,当我运行此代码时,出现以下错误:
有谁知道发生了什么?
python - 使用不规则张量和 while 循环时,XLA 无法推断跨步切片的编译时间常数输出形状
是否可以使用以下最小示例experimental_compile=True
?我已经看到这个论点有一些很大的加速,因此我很想弄清楚如何让它发挥作用。谢谢!
python - 支持 XLA 的动态切片
有没有办法根据 XLA 编译函数中的随机数生成器动态切片张量?例如:
此代码无法编译,因为 XLA 要求tf.range
在编译时知道参数。有推荐的解决方法吗?
tensorflow2.0 - 使用 XLA tf.function 运行 TensorFlow 会引发错误
当我尝试编译此代码时,出现以下错误。
tensorflow - Tensorflow XLA 引入了更多的 cuMemcpyHtoDAsync 调用
我正在使用 nvprof 对 Tensorflow 及其 XLA jit 编译进行一些分析。有趣的是,XLA 将引入更多的 cuMemcpyHtoDAsync 调用。
例如 V100 上的 resnet50,在 batch=64 推理下,xla jit 平均会多出 5000 次 cuMemcpyHtoDAsync 调用。该脚本可用 dl-infer-perf, nvprof -f --csv --print-api-summary python3 infer_perf/to_xla.py mobilenet --batch=64 --threads=1
.
对此的任何想法将不胜感激。