1

我正在调试一个复杂的 C++ 应用程序,数万行,许多嵌套对象(我这么说是因为它可能是相关的内存碎片),它也是 OMP/MPI 并行化的(尽管在这里运行单个节点)。

基本循环遍历问题的块,在每个块它循环所有相关对象并做一些事情。这些对象通过可变成员在内部缓存中间结果。最后调用 deCache 例程,所有这些中间结果都应该被清除,然后我们进入下一个块。问题是在这一步似乎没有释放内存,并且程序在几个块后耗尽了内存。

我通过调试器运行 valgrind 并在块处理结束时发出详细的 snapshop,就在 decaching 之前和 decaching 之后。这显示了堆上的内存消耗从 23Gb 到 820Mb,正如预期的那样:

  --------------------------------------------------------------------------------
  n        time(i)         total(B)   useful-heap(B) extra-heap(B)    stacks(B)
--------------------------------------------------------------------------------
  0 12,019,170,891,847   23,406,329,728   23,015,422,037   390,907,691            0
98.33% (23,015,422,037B) (heap allocation functions) malloc/new/new[], --alloc-fns, etc.
->44.49% (10,414,094,336B) 0x771D63: FTCinvdCdp::FTCinvdCdp(FTCinvdCdp const&) (new_allocator.h:104)
    | ->37.49% (8,774,281,216B) 0x5B6F4E: FTCinvdCdpZ::clone() const (stl_construct.h:75
...

也下降

    -----------------------------------------------------------------------------
          n        time(i)         total(B)   useful-heap(B) extra-heap(B)        stacks(B)
    --------------------------------------------------------------------------------
      0 12,020,946,295,906      857,944,344      830,426,901    27,517,443            0
    96.79% (830,426,901B) (heap allocation functions) malloc/new/new[], --alloc-fns, etc.
    ->21.15% (181,458,432B) 0x712267: void std::vector<GTHSpecSampFunc, std::allocator<GTHSpecSampFunc> >::_M_emplace_back_aux<GTHSpecSampFunc>(GTHSpecSampFunc&&) (new_allocator.h:104)
    ...

这些数字正好在我的预期之内。问题是顶部显示的内存几乎没有减少(实际上它会在一段时间后耗尽内存)。使用 --stacks-as-heap 运行 massif,它确实表明内存实际上没有释放:

--------------------------------------------------------------------------------
  n        time(i)         total(B)   useful-heap(B) extra-heap(B)    stacks(B)
--------------------------------------------------------------------------------
  0 12,286,840,539,442   24,112,730,112   24,112,730,112             0            0
100.00% (24,112,730,112B) (page allocation syscalls) mmap/mremap/brk, --alloc-fns, etc.
->99.54% (24,000,663,552B) 0x84392D9: mmap (in /lib64/libc-2.12.so)
| ->54.83% (13,220,446,208B) 0x83CB2DF: new_heap (in /lib64/libc-2.12.so)
| | ->53.44% (12,884,901,888B) 0x83CDB19: _int_malloc (in /lib64/libc-2.12.so)
| | | ->53.44% (12,884,901,888B) 0x83CE6AF: malloc (in /lib64/libc-2.12.so)
| | |   ->53.44% (12,884,901,888B) 0x7C74806: operator new(unsigned long) (new_op.cc:49)
| | |     ->28.94% (6,979,321,856B) 0x771D13: FTCinvdCdp::FTCinvdCdp(FTCinvdCdp const&) (new_allocator.h:104)
...

几乎没有改变

    --------------------------------------------------------------------------------
      n        time(i)         total(B)   useful-heap(B) extra-heap(B)    stacks(B)
    --------------------------------------------------------------------------------
      0 12,292,664,324,363   23,777,185,792   23,777,185,792             0            0
    100.00% (23,777,185,792B) (page allocation syscalls) mmap/mremap/brk, --alloc-fns, etc.
    ->99.53% (23,665,119,232B) 0x84392D9: mmap (in /lib64/libc-2.12.so)
    | ->54.47% (12,952,010,752B) 0x83CB2DF: new_heap (in /lib64/libc-2.12.so)
    | | ->53.06% (12,616,466,432B) 0x83CDB19: _int_malloc (in /lib64/libc-2.12.so)
    | | | ->53.06% (12,616,466,432B) 0x83CE6AF: malloc (in /lib64/libc-2.12.so)
    | | |   ->53.06% (12,616,466,432B) 0x7C74806: operator new(unsigned long) (new_op.cc:49)
    | | |     ->28.22% (6,710,886,400B) 0x771D13: FTCinvdCdp::FTCinvdCdp(FTCinvdCdp const&) (new_allocator.h:104)
    | | |     | ->24.84% (5,905,580,032B) 0x5B6EFE: FTCinvdCdpZ::clone() const (stl_construct.h:75)
    | 
...

我很确定我们正确地解除了所有向量的分配(通过空向量交换)并且没有经典的内存泄漏(即非常一致地使用自动指针等),此外我希望这些会在 vanilla 下显示(即不是页面堆)运行。

知道会发生什么吗?什么样的错误只在 pages-as-heap 运行中显示?有没有可能是内存碎片问题?如何解决这个问题?

4

3 回答 3

2

通过向系统添加交换空间而不是修复代码可能更容易解决问题。

很难从您发布的数据中挖掘出任何有用的信息。也许通过更好的信息或对信息的更好解释,您可以获得更好的帮助来区分:

1)您的程序正在积极使用比您理解的更多的内存。如果有额外的交换空间,它会运行得更慢,但至少是完整的。

2)您的程序正在泄漏大内存块。有了额外的交换空间,你的程序只会慢一点,因为内核会确定你的程序没有访问哪些页面。

3)您的向量正在病态地分割虚拟地址空间,创建与(2)完全相同的条件,而没有实际的内存泄漏错误。

4)您的程序正在病理性地泄漏与它仍然访问的内存混合的小块内存,从而产生类似于(1)的条件。

5)您通过微小的对象分配/释放来管理几乎不可能的碎片组合,以创建与(4)相同的条件。

我可以猜测(3)更有可能。但与仅仅增加交换空间相比,并没有太多,特别是在 3 上采取行动将是一项重大的努力。

您可能需要了解一些额外的基础知识。在解除分配时,应该只将非常大的单个分配从进程返回给操作系统。如果您的内存使用是大量的小到中等分配,那么不将其返回给操作系统是正确的,因此top永远不会看到任何内存释放。但是由于您释放了如此多的内存,它应该在进程中很好地整合,并且在程序的活动内存使用的下一个峰值期间可以以非常少的碎片进行重用。因此,一种理论认为,所有事情都会发生:在内存使用的低谷期间有效整合,然后在下一个高峰期有效地重用该内存。你看到了一些意想不到的东西top不是因为故障,而是因为您的期望是错误的。然后程序由于内存不足而失败,不是因为它未能重用从较早的峰值释放的内存,而是因为当前的内存使用峰值对于可用内存来说太大了。

于 2016-01-03T13:15:52.320 回答
2

这在具有虚拟内存的系统中很常见。底层的“内存分配”例程(“brk”)实际上只是增加了地址空间的大小。虚拟内存系统在您的进程需要时提供实际内存页面,并在其他进程需要时将它们偷回来。因此,没有太多理由重新调整内存空间的末尾,因为它几乎只是一个数字。

于 2016-01-03T12:48:01.767 回答
0

我的建议是在你的类中添加一个静态成员。

静态无符号长计数对象;

在构造函数中增加该值。在你的析构函数中减少它。

创建将打印计数器并设置它的函数,以便可以从调试器中调用它。

这将显示您的对象是否实际上被删除。

如果有问题,您可以从根类开始并逐步向下工作。

根据您的描述,我怀疑内存释放问题。

正如其他人提到的那样,另一种选择是,当您分配更多内存时,虚拟地址空间会增长但不会缩小。您可能会遇到虚拟内存问题,但我认为更可能是释放问题。

于 2016-01-03T18:14:12.430 回答