我正在努力利用模拟循环。每个周期启动 3 个内核。下一个时间步长由第二个内核计算。
while (time < end)
{
kernel_Flux<<<>>>(...);
kernel_Timestep<<<>>>(d_timestep);
memcpy(&h_timestep, d_timestep, sizeof(float), ...);
kernel_Integrate<<<>>>(d_timestep);
time += h_timestep;
}
我只需要复制一个浮点数。避免不必要的同步的最有效方法是什么?
先感谢您。:-)