c++ - 如何将单个应用程序的特定线程卸载到特定的 Xeon Phi 内核？

Question

假设我在主机上运行了一个 c/c++ 应用程序。主机 CPU 上运行的线程很少，Xeon Phi 内核上运行的线程有 50 个。

我如何确保这 50 个中的每一个都在其自己的 Xeon Phi 内核上运行，并且永远不会从内核缓存中清除（假设代码足够小）。

有人可以概述一个非常笼统的想法如何做到这一点以及哪个工具/API更适合（对于C/C++代码）？

在主机线程聚合器和 50 个 Phi 线程之间交换数据的最快方法是什么？

鉴于实际的并行性将非常有限——这个应用程序将更像 51 线程平面应用程序，具有一些基本的多线程数据同步。

我可以使用传统的 C/C++ 编译器来创建这样的应用程序吗？

score 3 · Accepted Answer

你提出了几个问题：

是的，您可以使用传统的 C 程序并使用常规的英特尔 C/C++/Fortran 编译器（称为英特尔 Composer XE）对其进行编译，以便生成能够在英特尔至强融核协处理器上以“本机”/“运行”的二进制文件对称”或“卸载”模式。在最简单的情况下 - 您只需使用 -mmic 重新编译您的 C/C++ 程序，然后“按原样”在 Phi 上“本地”运行它。
使用哪个 API？使用OpenMP4.0标准或Intel Cilk Plus编程模型（实际上是一组适用于 C/C++ 的编译指示或关键字）。OpenCL、英特尔 TBB 和可能的 OpenACC 也是可能的，但 OpenMP 和 Cilk Plus 具有表达线程、矢量化和卸载（即至强融核编程必不可少的 3 件事）的能力，而无需重构或重写“传统 C/C++/Fortran”程序.
线程固定：可以通过OpenMP 亲和性（请参阅下面有关 MIC_KMP_AFFINITY 的更多详细信息）或英特尔 TBB 亲和性东西来实现。
在主机和目标 Phi 之间交换数据的最快方法是......避免任何交换 - 例如使用 MPI 对称方法。但是，您似乎专门询问“卸载”编程模型，因此使用异步卸载可以实现最佳性能。同时，同步卸载理论上在编程方面更简单，但在可实现的性能方面更差。

总体而言，您倾向于问几个一般性问题，所以我建议从一开始就开始 - 即查看大约 10 页的 Dobbs 博士手册或英特尔的介绍文档。

线程固定是更高级的话题，同时对你来说似乎是“最有趣的”，所以我将明确解释更多：

如果您的代码使用 OpenMP4.0 标准进行并行化，那么您可以使用 MIC_KMP_AFFINITY / MIC_KMP_PLACE_THREADS 为 Xeon Phi 和 KMP_AFFINITY / KMP_PLACE_THREADS 为主机 CPU 实现理想的行为。
您很可能正在寻找此特定设置：MIC_KMP_PLACE_THREADS=50c,1t
我看到人们提到 PHI_KMP_AFFINITY 而不是 MIC_KMP_AFFINITY。我相信他们是别名，但没有尝试过自己。
在 Xeon Phi 上使用 50 个线程通常不是最好的主意。最好尝试大约 120 个线程左右
有关 Xeon Phi 亲和力的更多详细信息在以下 3 篇文章中进行了解释：http: //www.prace-project.eu/Best-Practice-Guide-Intel-Xeon-Phi-HTML#id-1.6.2.3 和 https:// software.intel.com/en-us/articles/best-known-methods-for-using-openmp-on-intel-many-integrated-core-intel-mic-architecture 和 https://software.intel.com/ zh-CN/articles/openmp-thread-affinity-control

1 回答 1