我想在不退出内核的情况下对共享内存中的数组进行并行排序。
我可以使用 Thrust for CUDA 对全局内存中的数组进行排序。但这只能在主机中完成。我必须为此退出内核。但这意味着当我重新启动另一个内核时,我将丢失线程中的所有本地内存,我将不得不重新填充本地内存。
这有什么图书馆吗?或者无论如何我会通过内核并来到主机并使用推力对设备中的数组进行排序然后恢复内核?
我想在不退出内核的情况下对共享内存中的数组进行并行排序。
我可以使用 Thrust for CUDA 对全局内存中的数组进行排序。但这只能在主机中完成。我必须为此退出内核。但这意味着当我重新启动另一个内核时,我将丢失线程中的所有本地内存,我将不得不重新填充本地内存。
这有什么图书馆吗?或者无论如何我会通过内核并来到主机并使用推力对设备中的数组进行排序然后恢复内核?