c++ - 提升 multi_index_container 和慢操作员++

Question

这是这个 MIC question的后续问题。在将项目添加到引用包装器的向量时，无论我选择哪种迭代方法，我都会在 ++ 运算符中花费大约 80% 的时间。
查询工作如下

VersionView getVersionData(int subdeliveryGroupId, int retargetingId,
                             const std::wstring &flightName) const {
    VersionView versions;
    for (auto i = 0; i < 3; ++i) {
      for (auto j = 0; j < 3; ++j) {
        versions.insert(m_data.get<mvKey>().equal_range(boost::make_tuple(subdeliveryGroupId + i, retargetingId + j,
                                 flightName)));
      }
    }
    return versions;
  }

我尝试了以下方法来填充参考包装

template <typename InputRange> void insert(const InputRange &rng) {
    // 1)   base::insert(end(), rng.first, rng.second); // 12ms
    // 2)   std::copy(rng.first, rng.second, std::back_inserter(*this)); // 6ms
    /* 3)   size_t start = size();  // 12ms
                    auto tmp = std::reference_wrapper<const
       VersionData>(VersionData(0,0,L""));
                    resize(start + boost::size(rng), tmp);
                    auto beg = rng.first;
                    for (;beg != rng.second; ++beg, ++start)
                    {
                         this->operator[](start) = std::reference_wrapper<const VersionData>(*beg);
                    }
    */
    std::copy(rng.first, rng.second, std::back_inserter(*this));
  }

无论我做什么，我都会为运算符 ++ 或只是增加迭代器的 size 方法付费——这意味着我仍然停留在 ++ 中。所以问题是是否有一种方法可以更快地迭代结果范围。如果没有这样的方法，是否值得尝试执行 equal_range 添加新参数，该参数保存对 reference_wrapper 容器的引用，该容器将填充结果而不是创建范围？

编辑 1：示例代码 http://coliru.stacked-crooked.com/a/8b82857d302e4a06/
由于这个错误，它不会在 Coliru 上编译
编辑 2：调用树，时间花在运算符 ++
热路径编辑3：一些具体的东西。首先，我没有启动这个线程只是因为 operator++ 在整体执行时间上花费了太多时间，而且我不喜欢它只是“因为”但此时它是我们性能测试的主要瓶颈。每个请求通常在数百微秒内处理，与此类似的请求（它们稍微复杂一些）处理约 1000-1500 微秒，仍然可以接受。最初的问题是，一旦数据结构中的项目数量增长到数十万，性能就会下降到大约 20 毫秒。现在，在切换到 MIC（这极大地提高了代码的可读性、可维护性和整体优雅性）之后，我可以达到每个请求大约 13 毫秒的时间，其中 80%-90% 花费在 operator++ 上。现在的问题是这是否可以以某种方式改进，还是我应该为我寻找一些焦油和羽毛？:)

score 1 · Accepted Answer

我认为你完全测量了错误的东西。当我从 3x3x11111 放大到 10x10x111111（索引中的项目数是 111 倍）时，它仍然在 290 毫秒内运行。

填充这些东西需要更多时间。即使解除分配容器似乎也需要更多时间。

什么不重要？

我贡献了一个有一些权衡的版本，主要表明调整东西没有意义：View On Coliru

有一个开关可以避免any_range（如果你关心性能，使用它没有意义）
有一个开关可以调整享元：
```
#define USE_FLYWEIGHT 0 // 0: none 1: full 2: no tracking 3: no tracking no locking
```
再次，它只是表明您可以轻松地做到这一点，并且应该考虑这样做，除非您需要对字符串 (?) 进行内存优化。如果是这样，请考虑使用以下OPTIMIZE_ATOMS方法：
基本上确实在那里OPTIMIZE_ATOMS飞行重量wstring。由于所有的字符串都在这里重复，这将是非常有效的存储效率（尽管实现又快又脏，应该改进）。这个想法在这里应用得更好：如何提高 boost interval_map 查找的性能

以下是一些基本的时间安排：

在此处输入图像描述

如您所见，对于查询/迭代性能而言，基本上没有什么真正重要的

任何迭代器：它们重要吗？

这可能是您编译器的罪魁祸首。在我的编译（gcc 4.8.2）上它没什么大不了的，但是看到没有任何迭代器的累积循环的反汇编：

在此处输入图像描述

正如您从我强调的部分中看到的那样，算法、lambda 和迭代器遍历似乎并没有太多的脂肪。现在有了any_iterator，情况就不太清楚了，如果你的编译优化得不太好，我可以想象它无法内联基本操作，从而导致迭代变慢。（现在只是猜测）

score 1 · Accepted Answer

getVersionData80%的执行时间都花在了这一事实operator++本身并不表明存在任何性能问题——最多，它告诉你，equal_range相比之下std::reference_wrapper插入速度更快。换句话说，当您分析某些代码时，您通常会找到花费最多时间的位置，但这是否是一个问题取决于所需的整体性能。

score 1 · Accepted Answer

vector@kreuzerkrieg，您的示例代码不会对 a of s进行任何形式的插入std::reference_wrapper！相反，您将结果投影equal_range到 aboost::any_range中，预计在迭代时会相当慢——基本上，增量操作解析为虚拟调用。

因此，除非我在这里严重遗漏了某些东西，否则示例代码的性能或缺乏与您在实际代码中的问题没有任何关系（假设VersionView您没有显示代码，没有使用boost::any_range）。

也就是说，如果你能负担得起用等效的散列索引替换你的有序索引，迭代可能会更快，但鉴于你没有显示真实的东西，这完全是在黑暗中拍摄。

score 0 · Accepted Answer

好的，所以我应用的解决方案如下：除了 odered_non_unique 索引（'byKey'）之外，我还添加了 random_access 索引。加载数据后，我使用 m_data.get.begin() 重新排列随机索引。然后，当向 MIC 查询数据时，我只需使用自定义谓词对随机索引执行 boost::equal_range，该谓词模拟在“byKey”索引排序中应用的相同逻辑。就是这样，它给了我快速的'size()'（O(1)，据我所知）和快速遍历。现在我准备好了你的烂番茄:)

编辑1：当然我已经将any_range从双向遍历标签更改为随机访问标签

c++ - 提升 multi_index_container 和慢操作员++

4 回答 4

什么不重要？

任何迭代器：它们重要吗？

Related

Reference