linux - 在 CentOS 6.6 中加载模块时出现“无效模块格式”错误

Question

我有 2 台双服务器，具有相同的硬件（Infiniband 和 Nvidia Tesla）和相同的操作系统（CentOS6.6、内核和驱动程序）。

在 host1 上一切正常，而在 host2 上我无法再运行此服务，因为我收到此错误：

[root@vega2 nvidia_peer_memory-1.0-0]# service nv_peer_mem start
starting... FATAL: Error inserting nv_peer_mem (/lib/modules/2.6.32-504.el6.x86_64/extra/nv_peer_mem.ko): Invalid module format
Failed to load nv_peer_mem

和 dmesg 说：

nv_p2p_dummy: exports duplicate symbol nvidia_p2p_free_page_table (owned by nvidia)

请注意，host2 已经运行了 2 个月，直到在夏季节后重新启动它。:-(这个错误的原因是什么？主要软件组件没有改变（内核，Nvidia驱动程序，Mellanox驱动程序）并且硬件没问题。我也尝试重复安装过程，但我在模块加载时卡住了观点：

[root@vega2 nvidia_peer_memory-1.0-0]# rpm -ivh /root/rpmbuild/RPMS/x86_64/nvidia_peer_memory-1.0-0.x86_64.rpm
Preparing...             ########################################### [100%]
1:nvidia_peer_memory     ########################################### [100%]
FATAL: Error inserting nv_peer_mem (/lib/modules/2.6.32-504.el6.x86_64/extra/nv_peer_mem.ko): Invalid module format

我发现这篇关于两个内核模块导出相同符号的帖子，但为什么在 host2 上第二个模块会干扰 nv_peer_mem，而在 host1 上却没有？这是 nm 命令的输出，两台主机完全相同。

[root@vega2 nvidia_peer_memory-1.0-0]# nm /lib/modules/2.6.32-504.el6.x86_64/kernel/drivers/video/nvidia.ko |grep nvidia_p2p_free_    page_table
0000000088765bb5 A __crc_nvidia_p2p_free_page_table
0000000000000028 r __kcrctab_nvidia_p2p_free_page_table
000000000000007e r __kstrtab_nvidia_p2p_free_page_table
0000000000000050 r __ksymtab_nvidia_p2p_free_page_table
00000000004bcb10 T nvidia_p2p_free_page_table

[root@vega2 nvidia_peer_memory-1.0-0]# nm /lib/modules/2.6.32-504.el6.x86_64/extra/nv_peer_mem.ko |grep nvidia_p2p_free_page_table    
            U nvidia_p2p_free_page_table

提前感谢您的帮助。圣。

linux - 在 CentOS 6.6 中加载模块时出现“无效模块格式”错误

0 回答 0

Related

Reference