2

我正在制作一个 FPGA System-on-Chip 系统,我在运行时使用内核模块更改硬件配置。他们的系统使用 Linux 2.6 和 LEON3 CPU (SPARC)。一些位文件工作正常,但对于某些位文件,我得到“内核非法指令”或“无法在虚拟地址 x 处处理内核分页请求”。我很确定我的硬件是正确的,因为我已经用另一种方法对其进行了测试,而我正在更改的硬件与 CPU 无关。我猜这是软件/内核模块错误。这发生在我第 14 次进入内核模块的 write 方法之后。我不确定从哪里开始调试。任何帮助,将不胜感激。

# cat x > /dev/y
Unable to handle kernel paging request at virtual address 00001000
tsk->{mm,active_mm}->context = 00000045
tsk->{mm,active_mm}->pgd = fc013400
              \|/ ____ \|/
              "@'/ ,. \`@"
              /_| \__/ |_\
                 \__U_/
cat(86): Oops [#1]
PSR: f30000c7 PC: f0089e90 NPC: f0089e94 Y: 00000000    Not tainted
PC: <vfs_write+0xb8/0x148>
%G: 80080000 00001000  00000001 fd000100  00000dae f09c4370  fbca0000 0000fffb
%O: 00001000 00000003  00001000 fe60e5dc  fe60e430 fe60e420  fbca1e80 f0089e80
RPC: <vfs_write+0xa8/0x148>
%L: fbdcad40 00000000  fbca1e78 00000004  fbc0e940 00000000  fbdd2000 f0035784
%I: 00001000 efe07b50  00001000 fbca1f40  00000000 00000000  000007af 000007af
Disabling lock debugging due to kernel taint
Caller[000007af]: 0x7af
Instruction DUMP: d204200c  f602600c  c416e072 <84088001> 03000010  80a08001  02
800018  b2102002  c404201c
Killed
#

内核模块写入方法:

ssize_t icap_write( struct file *filp, char *buf, size_t count, loff_t *f_pos) {
unsigned long words, data, *pdata, mem_loc_temp;

pdata = (unsigned long *)buf;
mem_loc_temp = icap_mem_loc;//reset mem_loc_temp

while((pdata < (buf + count)) && (mem_loc_temp < icap_mem_loc+4096)){
        leon_store_reg(mem_loc_temp,*pdata);
        pdata++;
        mem_loc_temp+=4;
    }
}

我认为这是我的问题。pdata 超出范围。是否可以将其修改为: --------------更新代码-------------

unsigned long *pdata;
static int __init icap_init(void) {
...
pdata = (unsigned long *)kmalloc(mem_size*sizeof(char), GFP_KERNEL);
...
}

ssize_t icap_write( struct file *filp, const char *buf,
                  size_t count, loff_t *f_pos) {

int i, cycles, spins;
ssize_t result;

if(count%4 != 0){
    printk(KERN_INFO "ERROR: count = %d is not a multiple of 4. count mod 4 = %u\n Assuming 0 padding for last word. Configuration may not have completed as expected.",count, count%4);
    //return count;
}

result = copy_from_user(pdata, buf, count);
if (result) {
    printk(KERN_INFO "copy_from_user failed, returned: %d\n.", result);
    return -EINVAL; 
}
spins = 0;
while((leon_load_reg(ctrl_mem_loc+8) & 0x10) == 0){//check done
    spins++;//spin on NOT done
}
if (spins > 0)
    printk(KERN_INFO "%d spins\n", spins);

leon_store_reg(ctrl_mem_loc+8, 0);//deassert start

if(count == 4096){
    cycles=min((unsigned long)1024, (unsigned long)mem_size/4);
}else if((count > 0) && (count < 4096)){
    cycles=min(((unsigned long)count+3)/4, (unsigned long)mem_size/4);
}else{
    printk(KERN_INFO "ERROR: count > 4096\n");
    cycles = 0;
}

for(i = 0; i < cycles; i++){
    leon_store_reg(icap_mem_loc+4*i, pdata[i]);
}

leon_store_reg(ctrl_mem_loc, cycles);//set number of samples
leon_store_reg(ctrl_mem_loc+8, 0x1);//set start high

return count;
}
4

1 回答 1

1

您可能需要在此处放置一些代码,以便我们更好地帮助您。

我的第一个猜测是您的代码中某处有一个数组覆盖,当您点击第 14 个条目时,它会遇到系统需要的东西并导致异常。如果可能的话,跟踪你的程序,看看它是否写在它应该写的地方。不同的文件将位于内存中的不同位置,如果这些区域不是系统关键,它可以解释为什么它们不会崩溃,而这个会。

崩溃转储中的一件有趣的事情:

Unable to handle kernel paging request at virtual address 00001000

那是十进制的 4096 - 与您的 while 循环中的偏移量相同。因此,也许那里发生了一些事情,但是您的代码似乎无法修复它,并且可能会使情况变得更糟,因为在您的 while 循环中需要注意两个条件。

更新为您的代码已更改

如果基指针未对齐,则转换pdata为 aunsigned long *可能不安全。long不确定您的系统是否允许未对齐的内存访问,所以要小心。

icap_mem_loc是未知类型但似乎是整数值?如果是这样,处理整数值和指针是在自找麻烦。

您在 while 循环中将 unsigned long 指针与 unsigned char 指针进行比较 - 可能是安全的,但请注意此处的指针算术。

您是否在启用警告的情况下编译此代码?如果没有,请这样做,因为我相信它会对上述问题大喊大叫......

如果icap_mem_loc是 NULL 或 0 会发生什么?如果这是一个错误条件,您需要处理它 - 您的页面请求有点推断这是一个糟糕的条件,您没有任何ASSERT或 if 条件来处理它。

最后,mem_loc_temp+=4;4- 你确定long4你系统上的字节大小。应该是 sizeof()'d 或更好,而是一个longptr++construst 来消除歧义。

不是想在这里攻击你,而是指出我看到的每一个潜在的故障点,以便我们可以为你解决这个问题。

于 2013-05-16T20:31:51.520 回答