我正在开发一个对图的每个顶点进行计算的应用程序。这里的主要问题是延迟,因为每次计算都相当小。例如,每个计算可能需要 10 毫秒才能自行执行,因此 PGBL 不应给进程增加任何明显的延迟。
我可以编写自己的准系统图形例程来完成这项任务。当然,PBGL 有更多的特性会很不错。例如,当延迟不是问题时,我什至可能将一些计算卸载到“云”。
所以基本上,在 cpu 或多核 cpu 上跨向量计算的开销是多少?另外,将来是否有可能将顶点计算卸载到 GPU 上?
我从未使用过 PGBL,但在 boost 库中遇到过它,它引起了我的注意,它可能对我的应用程序来说几乎是完美的,除了潜在的延迟问题。
例如,一个非常简单的树被分成 n 个分支,每个分支的计算在单独的核心上运行,与使用 PBGL 相比,性能差异是什么?(对于小的计算时间,显然计算越大,差异越小)