4

我正在尝试在 Raspberry Pi3 GPU (QPU) 上为 Conv2D、Pooling、ReLU 等操作实现 Tensorflow OpKernels。这些操作主要旨在提高推理期间的性能,而不关心训练(因此反向传播和梯度)。

使用 XLA 是实现这一目标的正确方法还是有更好的方法?

4

0 回答 0