c++ - 避免堆碎片的最佳 STL 容器

Question

我有一个分析 150,000 个文件的程序。Valgrind 报告没有内存泄漏，但程序会随着时间的推移而变慢。

一些问题与过于频繁地使用 std::string 和 mktime 花费太多时间有关。（请参阅C++ 随着时间的推移会减慢读取 70,000 个文件）

但随着时间的推移，它仍然会变慢。 Lotharyx建议容器使用导致堆碎片。

我阅读了关于不同 STL 容器优缺点的各种流程图，但我不太明白。

在下面的伪代码中，我不确定我是否做出了正确的选择来避免堆碎片。

fileList.clear()
scan all disks and build "fileList", a std::set of file paths matching a pattern.

// filepaths are named by date, eg 20160530.051000, so are intrinsically ordered 

foreach(filePath in fileList)
{
    if (alreadyHaveFileDetails(filePath))
        continue;

    // otherwise
    collect file details into a fileInfoStruct;  // like size, contents, mod 

    fileInfoMap[time_t date] = fileInfoStruct;
}

// fileInfoMap is ordered collection of information structs of about 100,000 files

// traverse the list in order
foreach (fileInfo in fileInfoMap)
{
    if (meetsCondition(fileInfo))
    {
        TEventInfo event = makeEventInfo()
        eventList.push_back(event);
    }
}

上面的序列永远重复。

因此，对于容器的选择，我使用（或需要）：

fileList-- 包含 150,000 个路径名的唯一字符串列表。
我选择 std::set 是因为它会自动处理重复项并自动维护排序顺序。没有随机访问，只添加条目，对它们进行排序（手动或自动），然后迭代它们。

fileInfoMap-- 由与文件日期相对应的 time_t 时间戳键入的结构数组。我选择了std::map。它也将有 150,000 个条目，因此会占用大量内存。没有随机访问，只将条目添加到一端。必须遍历它们，并在必要时从中间删除条目。

eventList-- 一小部分“事件”结构，比如 50 个项目。我选择了 std::vector。不知道为什么真的。没有随机访问，只在一端添加条目，然后遍历集合。

我对 C++ 相当陌生。感谢您的考虑。

score 2 · Accepted Answer

关于内存管理，容器属于两大家族：一类是一起分配所有元素，一类是单独分配元素。

vector 和 deque 属于第一个族，list、set 和映射到第二个族。

当从不支持全局重定位的容器中连续添加和删除元素时，会出现内存碎片。

避免该问题的一种方法是使用vectors，使用“ reserve”来预测内存需要减少重定位，并在插入时保持数据排序。

另一种方法是使用“基于链接的容器”（如列表、集合等）为它们提供一个分配器，从较大的块中分配内存，回收它们而不是为每个单个元素插入/删除调用原始 malloc/free。

看看std::allocator

您可以通过从 std::allocator 派生并覆盖allocate/deallocate函数添加所有必需的逻辑，并yourallocator作为您要使用的容器的可选模板参数传递来轻松编写分配器。

c++ - 避免堆碎片的最佳 STL 容器

1 回答 1

Related

Reference