我在 ARM linux 平台上遇到了一个由简单代码引起的非常奇怪的崩溃。问题是它很少重现(每天一次),另一个问题是它在实际上不能崩溃的地方崩溃。
让我们从 C++ 代码开始。线程函数这样做:
event_obj events[EVENTS_MAX]; // EVENTS_MAX = 32
int num = 0;
m_engine->getEvents(events, &num);
engine
是指向目前只有一个实现的基本抽象类的指针。getEvents 是纯虚方法。
getEvents
经过一些更改后,除了这个什么都不做
int engine::getEvents(event_obj*, int* num)
{
if (num != nullptr)
{
*num = 0; // SEGMENTATION FAULT
}
return 1; // ok
}
尝试在 num 中存储 0 时发生 SEGFAULT。首先我认为这是堆栈损坏,但在我检查生成的汇编代码之后,似乎没有任何东西存储在堆栈中。这种方法甚至没有生成堆栈保护(启用-fstack-protector-strong),两个参数都存储在寄存器r1和r2中。让我们看一下函数调用的代码:
event_obj events[EVENTS_MAX];
int num = 0;
236f8: 2300 movs r3, #0
236fa: ac06 add r4, sp, #24
236fc: 9306 str r3, [sp, #24]
m_engine->getEvents(events, &num);
236fe: 6803 ldr r3, [r0, #0]
23700: 691b ldr r3, [r3, #16]
23702: 4622 mov r2, r4
23704: a90c add r1, sp, #48 ; 0x30
23706: 4798 blx r3
以及函数本身的代码:
int engine::getEvents(event_obj*, int* num)
{
if (num != nullptr)
251f8: 4613 mov r3, r2
251fa: b10a cbz r2, 25200 <_Z18engine_thread_funcPv+0x9e0>
{
*num = 0;
251fc: 2200 movs r2, #0
251fe: 601a str r2, [r3, #0]
}
return 1; // ok
}
25200: 2001 movs r0, #1
25202: 4770 bx lr
return 1; // ok
}
从生成的代码中可以看出,指针被放入 intr1
和r2
寄存器。
23702: 4622 mov r2, r4
23704: a90c add r1, sp, #48 ; 0x30
即使堆栈损坏,它也可能损坏num
变量的值,但是它如何损坏寄存器中的指针呢?同样从崩溃日志中我可以看到LR
地址是错误的。
CRASH 信号 11 分段故障地址 0xf0000000 PC 0x251fe LR 0x6c3c533c
从这里我唯一看不到的是跳转的地址(blx r3),因为调用的方法是虚拟的。我有一个非常不可能的假设,即不是跳转到虚拟方法主体的第一行,而是在此之前跳转到几行并损坏了寄存器,但我不明白这怎么可能。即使在更改代码之后,它也总是在同一行崩溃。这很奇怪。
有人可以建议尝试一下吗?有任何想法吗?
提前致谢。