我正在编写一个可以解释为生产者/消费者模型的 cuda 程序。
有两个内核,一个在设备内存上
产生数据,另一个内核产生数据。
消耗线程的数量设置为 32 的倍数,即经纱大小的两倍。
并且每个 warp 等待直到 32 个数据已经产生。
我这里有点问题。
如果消费者内核的加载时间晚于生产者内核,
则程序不会停止。
即使首先加载了消费者,该程序有时也会不确定地运行。
我要问的是 CUDA 中是否有一个很好的生产者/消费者实现模型?
任何人都可以给我一个方向或参考吗?
这是我的代码的骨架。
**kernel1**:
while LOOP_COUNT
compute something
if SOME CONDITION
atomically increment PRODUCE_COUNT
write data into DATA
atomically increment PRODUCER_DONE
**kernel2**:
while FOREVER
CURRENT=0
if FINISHED CONDITION
return
if PRODUCER_DONE==TOTAL_PRODUCER && CONSUME_COUNT==PRODUCE_COUNT
return
if (MY_WARP+1)*32+(CONSUME_WARPS*32*CURRENT)-1 < PRODUCE_COUNT
process the data
if SOME CONDITION
set FINISHED CONDITION true
increment CURRENT
else if PRODUCUER_DONE==TOTAL_PRODUCER
if currnet*32*CONSUME_WARPS+THREAD_INDEX < PRODUCE_COUNT
process the data
if SOME CONDITION
set FINISHED CONDITION true
increment CURRENT