1

我有 2 台双服务器,具有相同的硬件(Infiniband 和 Nvidia Tesla)和相同的操作系统(CentOS6.6、内核和驱动程序)。

在 host1 上一切正常,而在 host2 上我无法再运行此服务,因为我收到此错误:

[root@vega2 nvidia_peer_memory-1.0-0]# service nv_peer_mem start
starting... FATAL: Error inserting nv_peer_mem (/lib/modules/2.6.32-504.el6.x86_64/extra/nv_peer_mem.ko): Invalid module format
Failed to load nv_peer_mem

和 dmesg 说:

nv_p2p_dummy: exports duplicate symbol nvidia_p2p_free_page_table (owned by nvidia)

请注意,host2 已经运行了 2 个月,直到在夏季节后重新启动它。:-(这个错误的原因是什么?主要软件组件没有改变(内核,Nvidia驱动程序,Mellanox驱动程序)并且硬件没问题。我也尝试重复安装过程,但我在模块加载时卡住了观点:

[root@vega2 nvidia_peer_memory-1.0-0]# rpm -ivh /root/rpmbuild/RPMS/x86_64/nvidia_peer_memory-1.0-0.x86_64.rpm
Preparing...             ########################################### [100%]
1:nvidia_peer_memory     ########################################### [100%]
FATAL: Error inserting nv_peer_mem (/lib/modules/2.6.32-504.el6.x86_64/extra/nv_peer_mem.ko): Invalid module format

我发现这篇关于两个内核模块导出相同符号的帖子,但为什么在 host2 上第二个模块会干扰 nv_peer_mem,而在 host1 上却没有?这是 nm 命令的输出,两台主机完全相同

[root@vega2 nvidia_peer_memory-1.0-0]# nm /lib/modules/2.6.32-504.el6.x86_64/kernel/drivers/video/nvidia.ko |grep nvidia_p2p_free_    page_table
0000000088765bb5 A __crc_nvidia_p2p_free_page_table
0000000000000028 r __kcrctab_nvidia_p2p_free_page_table
000000000000007e r __kstrtab_nvidia_p2p_free_page_table
0000000000000050 r __ksymtab_nvidia_p2p_free_page_table
00000000004bcb10 T nvidia_p2p_free_page_table

[root@vega2 nvidia_peer_memory-1.0-0]# nm /lib/modules/2.6.32-504.el6.x86_64/extra/nv_peer_mem.ko |grep nvidia_p2p_free_page_table    
            U nvidia_p2p_free_page_table

提前感谢您的帮助。圣。

4

0 回答 0