假设我在主机上运行了一个 c/c++ 应用程序。主机 CPU 上运行的线程很少,Xeon Phi 内核上运行的线程有 50 个。
我如何确保这 50 个中的每一个都在其自己的 Xeon Phi 内核上运行,并且永远不会从内核缓存中清除(假设代码足够小)。
有人可以概述一个非常笼统的想法如何做到这一点以及哪个工具/API更适合(对于C/C++代码)?
在主机线程聚合器和 50 个 Phi 线程之间交换数据的最快方法是什么?
鉴于实际的并行性将非常有限——这个应用程序将更像 51 线程平面应用程序,具有一些基本的多线程数据同步。
我可以使用传统的 C/C++ 编译器来创建这样的应用程序吗?