问题标签 [infiniband]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
1079 浏览

centos - 无限带宽 + KVM

尽管搜索了好几天,但我找不到有关以下内容的任何好信息-尽管我认为,我不能成为第一个遇到此问题的人:我们正在使用 MATLAB、MPI 和 Infiniband 开发高性能集群. 在过去的几年中,此设置一直运行良好。但是为了获得更大的灵活性和更容易维护,我们正在考虑使用 KVM 虚拟化计算节点。

现在我遇到了让 Infiniband “进入”我的虚拟机的大问题。我不仅要通过 PCI 接口,还要构建与以太网桥相对应的东西,我可以虚拟地连接到主机上的机器。我发现了一些关于这个的消息来源——但不是如何安装/配置 IB。有没有人知道如何做到这一点?

提前致谢!

0 投票
2 回答
1736 浏览

mpi - mpi + infiniband 连接太多

我在集群上运行 MPI 应用程序,使用 4 个节点,每个节点有 64 个内核。应用程序执行全对全通信模式。

通过以下方式执行应用程序运行良好:

$: mpirun -npernode 36 ./应用程序

为每个节点添加一个进一步的进程会让应用程序崩溃:

$: mpirun -npernode 37 ./应用程序

编辑为所有通信模式添加了一些源代码:

作为集群用户,我有什么可以做的,或者我可以给集群管理员一些建议吗?

0 投票
0 回答
252 浏览

azure - Windows Azure 是否支持 Linux VM 上的 Infiniband?

  1. 缺少 RDMA 是否是网络问题的原因(source1source2),例如 ifconfig 显示 eth1-avahi (见链接)?我想在两个 A8 节点上运行 OpenFOAM 并且必须这样做

    /etc/init.d/networking 重启

经常只启用 eth0。否则 mpi 使用错误的 IP 地址进行通信,例如 169... ,而不是 10.....

  1. 如果我使用 Infiniband 运行 mpirun,如下所示:

    mpirun --host localhost --mca btl openib,self,tcp -np $nProcs

虚拟机上真的是 Infiniband 吗?

0 投票
1 回答
145 浏览

java-7 - Sockect 直接协议与 FTP Java 库

目前我正在使用Apache 的 Commons Net 库通过 FTP 协议将一些应用程序文件(2KB 到 200MB)从一台 AIX 服务器传输到另一台服务器。我开始知道存在另一种协议,即通过InfinibandOFED(OpenFabrics Enterprise Distribution)的SDP(套接字直接协议),它提供了一种高性能、低延迟、可靠的交换结构,可用作可扩展的 I/O 互连。Java 7 及更高版本为此协议提供了用于 SDP 的 Java API 。

谁能详细说明从 FTP 转向 SDP 的意义和挑战。

0 投票
1 回答
110 浏览

infiniband - Infiniband ibv_asyncwatch 使用情况

我可以将 ibv_asyncwatch 视为 libibverbs-utils 包的一部分。我想知道它的用例。就像我如何使用它来监视异步事件一样。有人可以用例子详细说明一下吗?有什么选择?

0 投票
0 回答
659 浏览

c++ - RDMA 原子操作中的错误

我在执行 RDMA 原子操作(FETCH_ADD 和 CMP_AND_SWAP)时遇到问题。当我尝试提交原子 RDMA 请求时,ibv_post_send() 函数失败,Errno 设置为“无效参数”。RDMA READ/WRITE 没有这样的问题。

我注册内存地址如下:

我按如下方式构建队列对:

最后用原子操作码提交RDMA操作如下:

PS 因为我使用的是 librdmacm,所以 INIT 和 RTR 和 RTS 之间的队列对的转换是自动完成的,所以我不能手动设置qp_attr->qp_access_flagsqp_attr->max_rd_atomicqp_attr->max_dest_rd_atomic使用ibv_modify_qp(). 但是,我在 libibcm 中编写了一个带有原子操作的小代码,并在手动转换队列时设置了这些属性。尽管如此,还是没有运气。

0 投票
1 回答
589 浏览

windows - 适用于 Windows 的 RDMA CM

有谁知道在 Linux(http://linux.die.net/man/7/rdma_cm -- librdmacm)以及 ib 动词(libibverbs)上找到的 RDMA 通信管理器是否有 Windows 等效项?

在 Linux 发行版上安装 Infiniband 硬件驱动程序时,这两个库都可用......但是 Windows 呢?

我已经阅读了有关 Windows Network Direct 的信息,但由于我已经熟悉上述 Linux 库,因此我想(如果可能)在 Windows 上使用它们的等价物。

我已经在 Linux 节点之间建立了数据传输(RDMA 写入),但现在我必须将 RDMA 数据从 Windows 节点传输到 Linux 节点,但目前我不确定要遵循哪条路线......

如何确定 Windows Network Direct 是否与 IB 动词/RDMA CM 兼容?

我的印象是动词规范将在两个平台上实现......!

亲切的问候

0 投票
1 回答
499 浏览

fortran - MPI_Finalize 行为不正确,孤立进程

我有一个相当简单的 MPI 程序,本质上是“初始化,2 次从主机发送到从机,2 次在从机上接收,执行一系列系统调用以复制/粘贴然后运行代码,整理并完成 mpi”。

这看起来很简单,但我没有让 mpi_finalize 正常工作。下面是程序的快照,没有我在“do codish stuff”类型语句中汇总的所有系统复制/粘贴/调用外部代码。

现在我看到的问题发生在“got here4”、“got here5”和“got here6”语句周围。我得到了适当数量的打印语句,以及“got here4”和“got here5”的相应等级。意思是,主服务器和所有从服务器(等级 0,以及所有其他等级)通过屏障调用和 MPI_FINALIZE 到达屏障调用,并在所有这些上报告 0 表示 ierr。但是,当它到达“到达这里6”时,在 MPI_FINALIZE 之后我会得到各种奇怪的行为。有时我会比我预期的少一个“到这里6”,或者有时我会少6个,但是程序永远挂起,永远不会关闭,并在一个(或多个)计算节点上留下一个孤立的进程。

我在 infiniband 骨干机器上运行它,NFS 服务器通过 infiniband (nfs-rdma) 共享。我正在尝试确定 MPI_BARRIER 调用如何正常工作,但 MPI_FINALIZE 最终以随机孤立运行(不是同一个节点,也不是每次相同数量的孤立运行)。我猜它与对 cp、mv、./run_some_code、cp、mv 的各种系统调用有关,但不确定它是否也与 infiniband 的速度有关,因为这一切都发生得相当快。我也可能有错误的直觉。有人有想法吗?如果有帮助,我可以放置整个代码,但我相信这个浓缩版本可以捕捉到它。我正在运行针对 ifort 15.0.2 编译的 openmpi1.8.4,Mellanox 适配器运行固件 2.9.1000。

谢谢您的帮助。

更新:

根据请求,我将“MPI_Abort”放入并获得以下信息:

但是代码运行正常,否则(所有正确的输出文件和东西)。

0 投票
2 回答
772 浏览

c++ - 具有 InfiniBand 的 Windows Azure A8 节点支持如何从一个节点发送 N 个字节并在另一个节点上接收?

我喜欢 40Gbit/s 网络的 InfiniBand 承诺。我的需求不会映射到具有一个核心节点 + 从属的 MPI 模型上,如果可能的话,我宁愿根本不使用 MPI。我需要简单的连接/发送/接收/关闭(或其异步版本)API。然而,阅读 MS Azure 文档或 Microsoft HPC Pack文档,我找不到任何允许使用 InfiniBand 作为我的应用程序传输的 C/C++ 或 .Net API。所以我的问题很简单,如何使用 InfiniBand 连接到其他节点并向它们发送数据包并在另一端接收?(就像一些 Socket API 或类似的东西)

Azure 上的ND-SPI 或 Azure 上的DAPL-ND 连接/发送/接收/关闭教程是我正在寻找的。

0 投票
1 回答
445 浏览

infiniband - Soft-RoCE 的基准工具

我是 SoftRoCE 的新手,我已经在我的系统中安装了 OFED-1.5.2-rxe。当前使用内核版本 3.0.0+。

SoftRoCE是否有任何特定的基准测试工具。对于 SoftRocE,opensm 是强制性的吗?当我试图运行 rdma_bw

vvdn@vvdn:~$ sudo rdma_bw 192.168.1.1

10581: | port=18515 | ib_port=1 | size=65536 | tx_depth=100 | sl=0 | iters=1000 | duplex=0 | cma=0 | 10581:main: Local lid 0x0 detected. Is an SM running? vvdn@vvdn:~$