我是 OpenCL 的新手。例如假设我的 GPU 架构是这样的:
多处理器数量:14
经纱尺寸:32
现在我想做任务并行。我有 14 个流式多处理器
1) 我可以同时运行 14 个不同的任务吗?
2)如果是这样,怎么办?
3)如何提及全局ID,组ID,本地ID和所有..
用例子清楚地解释(有一些线程数)
提前致谢..:)
GPU 与 CPU 不同。虽然 CPU 可以在“任务并行”模式下运行,这意味着它们可以在每个内核上运行不同的代码。然而,GPU 是“数据并行”并且是 SIMT(单指令多线程)。
这一切都意味着您一次只能运行一个内核,但该内核将在所有内核上执行,并且每个内核将同时对一片数据进行操作。
这个问题及其接受的答案有更多描述 SIMT 的信息,并且有很多有用的信息,我不会在这里重复。
在 GPU 上获得任务并行性的唯一方法是实际拥有多个 GPU/设备。
从技术上讲,当您使用clCreateCommandQueueCL_QUEUE_OUT_OF_ORDER_EXEC_MODE_ENABLE
创建命令队列时,OpenCL API 支持一次执行多个内核。不能保证内核是同时执行的,但是,在这种模式下,我猜所有的 GPU OpenCL 实现只会一个接一个地执行每个内核。如果您使用基于 CPU 的 OpenCL 实现,情况可能并非如此,您可能会同时执行内核(我自己没有尝试过)。