问题标签 [xeon-phi]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
3 回答
789 浏览

mpi - Xeon phi 协处理器仅模式使用 MPI,连接被拒绝

键入如下命令

我得到了这个错误

这是我的主机设置

我关闭了防火墙,并且没有密码的 ssh 连接。

并将主机 mpi lib 和 bin 文件复制到 mic0。

这个错误有什么问题?

请给我一些提示。

ps)我参考了在英特尔® 至强融核™ 协处理器系统上使用英特尔® MPI 库https://software.intel.com/en-us/articles/using-the-intel-mpi-library-on-intel-xeon- phi-协处理器系统#prep

0 投票
1 回答
166 浏览

c++ - Intrisic 商店 - 性能不佳

我想为 Xeon Phi(60 核)编写基准测试。在我的程序中,我使用 OpenMP 标准和 Intel 内在函数。我实现了算法的并行版本(5 点模板计算),它比标量算法快 230 倍。我想将 SIMD 添加到并行代码中。我有性能问题。当我调用 _m512_store_pd() 时,计算性能会降低,并且使用 SIMD 的并行版本比没有 SIMD 的版本慢。问题是什么?我应该怎么做才能获得更好的性能?

我从 8 开始计算,因为我在开头有一个向量,最后一个向量是光环元素。n_real 是向量的大小 -> n + 16。开始和停止是计算的,因为 60 核的 i 分区矩阵和 opne 部分 (m/60) 由 4 个 HM 线程计算。

0 投票
1 回答
1129 浏览

opencl - OpenCL 未检测到 Xeon Phi

我们创建了一个小程序来检测 Xeon Phi,这是我们的代码片段

但它没有检测到 Phi,我们只得到这个输出;

你知道我们做错了什么吗?

PS 下面你能找到 micinfo 输出吗

0 投票
1 回答
120 浏览

c - 关于 Xeon Phi 的 SCIF 问题

我正在尝试在 Xeon Phi 上使用 SCIF 进程间通信。我的程序有两个进程,一个进程使用 scif_writeto 将数据写入另一个进程。目前,我遇到了 scif_writeto API 的错误“无设备或地址”。我检查了端点设置是否正确,偏移量也正确返回。我不知道这里出了什么问题。有什么好的建议来调试这个问题吗?

0 投票
2 回答
303 浏览

c++ - Intel Xeon Phi 上的动态内存变慢

我正在创建一个简单的矩阵乘法程序,在 Intel Xeon Phi 架构上运行。程序看起来像这样(参数是 A、B、C),并且时间不包括初始化:

我正在使用限制、对齐数据等。但是,如果使用动态内存 (posix_memalign) 分配矩阵,则计算会严重减慢,即对于 TYPE=float 和 512x512 矩阵,在动态情况下大约需要 0.55 秒,而在其他情况下大约需要 0.25 秒。在不同的架构(英特尔至强 E5)上,也会出现减速,但几乎不明显(大约 0.002 秒)。

任何帮助都将不胜感激!

0 投票
1 回答
194 浏览

c++ - MIC.o 文件的链接错误

将 MIC 的应用程序源与英特尔 C++ (icpc) 编译器链接时出现错误。

英特尔-icc/2013-64 版本:

英特尔-icc/2015-64 版本:

它是什么?

0 投票
1 回答
1820 浏览

c++ - 带有 MIC 的英特尔编译器警告 - 缺少库

在编译+链接一些 MIC(英特尔至强融核协处理器)代码时,我收到了这个警告。

但是这些库是存在的,并且代码正在编译+链接和可执行。使用英特尔 C++ 编译器。

0 投票
1 回答
173 浏览

c - 是否可以将字符串数组卸载到 Xeon Phi

我想在 xeon phi 上获取字符串的所有子字符串
首先,我从 args 读取一个 txt 文件并将其存储到这样的指针数组中

其次,我想像这样使用 pragma offlad 将此数组复制到 xeon phi

命令行给我以下消息

有什么办法可以解决我的问题吗?


卸载部分是这样的:

0 投票
3 回答
340 浏览

c++ - 如果在 Xeon Phi 上编译时不知道循环计数,则性能下降

我正在创建一个简单的矩阵乘法程序,在英特尔至强融核架构上运行。

在多次尝试自动矢量化之后,为了获得更好的性能,我不得不使用 Intel Intrinsics。

到目前为止,矩阵大小是由源代码中的#define 给出的,但是当我尝试在运行时给出它时,性能会大大降低。

源代码如下:

例如,尺寸为 960(目前它仅适用于尺寸为 30*8 的倍数):

  • 如果我使用给定大小的编译时间进行编译: icc -mmic -O3 -restrict -std=c++11 -DSIZES -DSIZE=960 mmul.cpp -o mmul.o

    经过时间:0.460745s Gflops:3.840458

  • 如果我使用运行时给定大小进行编译: icc -mmic -O3 -restrict -std=c++11 mmul.cpp -o mmul.o

    经过时间:2.204564s Gflops:0.802640

我认为这可能是 icc 无法识别内存访问模式的预取问题。查看生成的 asm 源代码,“编译时”版本中 vprefetch 指令的数量要高得多。

有趣的事实:在编译时版本中检查乘法的正确结果(代码末尾的两个 for 循环,第 178-197 行)要慢得多!

有什么想法吗?我尝试了#pragma loop_count,但它似乎没用,而且手动内部预取似乎也不是很有效。

提前感谢您的任何回答。

问候,卢卡

0 投票
1 回答
254 浏览

multithreading - 在 Xeon Phi 上使用 Open MP 将多个线程分配给单个并行执行

我有一些类似的代码:

我尝试了许多不同的策略,包括

但是,当我用 top 检查 MIC 时,我只得到了 25% 的使用率。

我很难在英特尔文档/论坛和 OpenMP 论坛中找到任何具体的帮助,现在我认为我唯一能有 59 个任务和 4 个线程处理每个任务的方法就是结合 open-MPI带开放式 MP。

有没有人有这方面的经验并有任何前进的建议?我一直在运行 236 个异步任务,但由于我的任务的内存开销,我怀疑 59 个任务的运行速度比 236 快 4 倍。