0

我在 ARM linux 平台上遇到了一个由简单代码引起的非常奇怪的崩溃。问题是它很少重现(每天一次),另一个问题是它在实际上不能崩溃的地方崩溃。

让我们从 C++ 代码开始。线程函数这样做:

    event_obj events[EVENTS_MAX]; // EVENTS_MAX = 32
    int num = 0;
    m_engine->getEvents(events, &num);

engine是指向目前只有一个实现的基本抽象类的指针。getEvents 是纯虚方法。

getEvents经过一些更改后,除了这个什么都不做

int engine::getEvents(event_obj*, int* num)
{
    if (num != nullptr)
    {
        *num = 0; // SEGMENTATION FAULT
    }
    return 1; // ok
}

尝试在 num 中存储 0 时发生 SEGFAULT。首先我认为这是堆栈损坏,但在我检查生成的汇编代码之后,似乎没有任何东西存储在堆栈中。这种方法甚至没有生成堆栈保护(启用-fstack-protector-strong),两个参数都存储在寄存器r1和r2中。让我们看一下函数调用的代码:

        event_obj events[EVENTS_MAX];
        int num = 0;
   236f8:       2300            movs    r3, #0
   236fa:       ac06            add     r4, sp, #24
   236fc:       9306            str     r3, [sp, #24]
        m_engine->getEvents(events, &num);
   236fe:       6803            ldr     r3, [r0, #0]
   23700:       691b            ldr     r3, [r3, #16]
   23702:       4622            mov     r2, r4
   23704:       a90c            add     r1, sp, #48     ; 0x30
   23706:       4798            blx     r3

以及函数本身的代码:

int engine::getEvents(event_obj*, int* num)
{
    if (num != nullptr)
   251f8:       4613            mov     r3, r2
   251fa:       b10a            cbz     r2, 25200 <_Z18engine_thread_funcPv+0x9e0>
    {
        *num = 0;
   251fc:       2200            movs    r2, #0
   251fe:       601a            str     r2, [r3, #0]
    }
    return 1; // ok
}
   25200:       2001            movs    r0, #1
   25202:       4770            bx      lr
    return 1; // ok
}

从生成的代码中可以看出,指针被放入 intr1r2寄存器。

   23702:       4622            mov     r2, r4
   23704:       a90c            add     r1, sp, #48     ; 0x30

即使堆栈损坏,它也可能损坏num变量的值,但是它如何损坏寄存器中的指针呢?同样从崩溃日志中我可以看到LR地址是错误的。

CRASH 信号 11 分段故障地址 0xf0000000 PC 0x251fe LR 0x6c3c533c

从这里我唯一看不到的是跳转的地址(blx r3),因为调用的方法是虚拟的。我有一个非常不可能的假设,即不是跳转到虚拟方法主体的第一行,而是在此之前跳转到几行并损坏了寄存器,但我不明白这怎么可能。即使在更改代码之后,它也总是在同一行崩溃。这很奇怪。

有人可以建议尝试一下吗?有任何想法吗?

提前致谢。

4

1 回答 1

2

发生故障是因为发动机不再有效。包含引擎的方法可能已被释放 - 即,您的线程内存已消失。因此,engine-getevents 在内存中甚至无效。您的代码中的其他地方发生了一些事情,线程应该已经停止运行 - 并退出。他们没有。这很像一个正在退出的应用程序的回调。

于 2017-10-19T16:47:14.490 回答