我在以下机器上新安装了 ofed-1.5-3:
SUSE Linux Enterprise Server 11 (x86_64) VERSION = 11 PATCHLEVEL = 1
我们的管理员在机器上安装了 CX354A 卡(MCX354A-FCBT)卡。$ lspci | grep -i mel 04:00.0 网络控制器:Mellanox Technologies Device 1003
(问题1:我不知道lspci的这个输出是否正确,我怀疑是这样,但不知道如何得到正确的输出。)
在我通过 ./mlnxofedinstall 脚本安装 ofed 包后:
ofed_info 的输出 | 头-1:MLNX_OFED_LINUX-1.5.3-3.1.0(OFED-1.5.3-3.1.0):
安装成功,openibd 确实加载了所有必需的模块/驱动程序。$ 服务 openibd 状态
已加载 HCA 驱动程序
配置的 IPoIB 设备:ib0 ib1
当前活跃的 IPoIB 设备:
加载了以下 OFED 模块:
rdma_ucm ib_srp rdma_cm ib_addr ib_ipoib mlx4_core mlx4_ib mlx4_en ib_mthca ib_uverbs ib_umad ib_ucm ib_sa ib_cm ib_mad ib_core iw_cxgb3 iw_nes
hca_self_test.ofed 的输出
---- 执行适配器设备自检 ---- 检测到的 CA 数量 .................. 1 PCI 设备检查 ...... ...... PASS Kernel Arch ...................... x86_64 主机驱动程序版本...... ................ MLNX_OFED_LINUX-1.5.3-3.1.0 (OFED-1.5.3-3.1.0):2.6.32.12-0.7-默认主机驱动程序RPM检查.. .................通过 CA #0 VPI 上的固件 .................. v2.10.700 CA #0 上的固件检查(VPI) .......... 不适用 原因:不需要固件版本 主机驱动程序初始化 ...... PASS 活动的 CA 端口数 ...... ...... 0 CA #0 (VPI) 上端口 #1 的端口状态...... DOWN (InfiniBand) CA #0 (VPI) 上端口 #2 的端口状态...... DOWN (InfiniBand ) CA #0 (VPI) 上的错误计数器检查......通过内核系统日志检查 .................... 在 CA #0 (VPI) 上通过节点 GUID ) ...... 00:02:c9:03:00:f9:ed:e0 ------------------ 完成 ----------
问题 2:现在当我尝试 ibstatus 或 ibv_devinfo 时,我看到端口状态为 PORT_DOWN。虽然我在文档中阅读的是它应该处于 INIT 状态。我的问题是如何将其设置为 INIT 状态。$ ibv_devinfo
hca_id: mlx4_0 传输: InfiniBand (0) fw_ver: 2.10.700 node_guid: 0002:c903:00f9:ede0 sys_image_guid: 0002:c903:00f9:ede3 vendor_id: 0x02c9 vendor_part_id: 4099 hw_ver: 0x0 board 2021 端口 MT_1090状态:PORT_DOWN (1) max_mtu: 2048 (4) active_mtu: 2048 (4) sm_lid: 0 port_lid: 0 port_lmc:0x00 链接层:IB
port: 2
state: PORT_DOWN (1)
max_mtu: 2048 (4)
active_mtu: 2048 (4)
sm_lid: 0
port_lid: 0
port_lmc: 0x00
link_layer: IB
当我尝试以下命令时出现错误:
$ ibportstate -G 0x0002c90300f9ede0 1 查询/启用/禁用 ibwarn:[9318] mad_rpc_open_port:无法打开 UMAD 端口((null):0) ibportstate:iberror:失败:无法打开“(null)”端口“0”
问题 3:不明白为什么会出现此错误,或者如何摆脱它。任何帮助将不胜感激。
如果您需要更多信息,请告诉我。
谢谢