我希望在 arm Mali GPU 上实现卷积并希望它针对速度和内存进行优化?最好的方法是什么?基于 GEMM 的 MCMK 卷积不适合,因为它们会占用大量内存。此外,GPU 上的直接实现比相应的 CPU 版本要慢得多。在时序计算中应考虑到内存重塑的任何时间。
user11733000
问问题
51 次
我希望在 arm Mali GPU 上实现卷积并希望它针对速度和内存进行优化?最好的方法是什么?基于 GEMM 的 MCMK 卷积不适合,因为它们会占用大量内存。此外,GPU 上的直接实现比相应的 CPU 版本要慢得多。在时序计算中应考虑到内存重塑的任何时间。