0

通常一个计算单元只能运行一个工作组。但是 AMD 的文档说,在同一个计算单元上可以运行多个波前。我怎样才能做到这一点?那是 OpenCL 的功能吗?或者我需要使用汇编指令?我想这样做是因为我的工作组大小是 20,我想每个计算单元运行 2 个工作组,这样每个组可以使用 32 KiB LDS(每个 CU 总共 64 KiB,每个波前最多可以使用 32KiB,所以我想要运行两个波前以使用全部 LDS)。

4

0 回答 0