我有一些 CUDA 内核想在单独的 pthread 中运行。
我基本上必须让每个 pthread 执行,比如 3 个 cuda 内核,并且它们必须按顺序执行。
我想我会尝试向每个 pthread 传递对流的引用,因此这 3 个 cuda 内核中的每一个都将在同一个流中按顺序执行。
我可以在 pthread 的不同上下文中使用它,然后它会正常执行内核,但这似乎需要很多开销。
那么如何让每个 pthread 在同一个上下文中工作,同时与其他 pthread 一起工作呢?
谢谢
我有一些 CUDA 内核想在单独的 pthread 中运行。
我基本上必须让每个 pthread 执行,比如 3 个 cuda 内核,并且它们必须按顺序执行。
我想我会尝试向每个 pthread 传递对流的引用,因此这 3 个 cuda 内核中的每一个都将在同一个流中按顺序执行。
我可以在 pthread 的不同上下文中使用它,然后它会正常执行内核,但这似乎需要很多开销。
那么如何让每个 pthread 在同一个上下文中工作,同时与其他 pthread 一起工作呢?
谢谢