0

这是这个 MIC question的后续问题。在将项目添加到引用包装器的向量时,无论我选择哪种迭代方法,我都会在 ++ 运算符中花费大约 80% 的时间。
查询工作如下

VersionView getVersionData(int subdeliveryGroupId, int retargetingId,
                             const std::wstring &flightName) const {
    VersionView versions;
    for (auto i = 0; i < 3; ++i) {
      for (auto j = 0; j < 3; ++j) {
        versions.insert(m_data.get<mvKey>().equal_range(boost::make_tuple(subdeliveryGroupId + i, retargetingId + j,
                                 flightName)));
      }
    }
    return versions;
  }

我尝试了以下方法来填充参考包装

template <typename InputRange> void insert(const InputRange &rng) {
    // 1)   base::insert(end(), rng.first, rng.second); // 12ms
    // 2)   std::copy(rng.first, rng.second, std::back_inserter(*this)); // 6ms
    /* 3)   size_t start = size();  // 12ms
                    auto tmp = std::reference_wrapper<const
       VersionData>(VersionData(0,0,L""));
                    resize(start + boost::size(rng), tmp);
                    auto beg = rng.first;
                    for (;beg != rng.second; ++beg, ++start)
                    {
                         this->operator[](start) = std::reference_wrapper<const VersionData>(*beg);
                    }
    */
    std::copy(rng.first, rng.second, std::back_inserter(*this));
  }

无论我做什么,我都会为运算符 ++ 或只是增加迭代器的 size 方法付费——这意味着我仍然停留在 ++ 中。所以问题是是否有一种方法可以更快地迭代结果范围。如果没有这样的方法,是否值得尝试执行 equal_range 添加新参数,该参数保存对 reference_wrapper 容器的引用,该容器将填充结果而不是创建范围?

编辑 1:示例代码 http://coliru.stacked-crooked.com/a/8b82857d302e4a06/
由于这个错误,它不会在 Coliru 上编译
编辑 2:调用树,时间花在运算符 ++
调用树 热路径 编辑3:一些具体的东西。首先,我没有启动这个线程只是因为 operator++ 在整体执行时间上花费了太多时间,而且我不喜欢它只是“因为”但此时它是我们性能测试的主要瓶颈。每个请求通常在数百微秒内处理,与此类似的请求(它们稍微复杂一些)处理约 1000-1500 微秒,仍然可以接受。最初的问题是,一旦数据结构中的项目数量增长到数十万,性能就会下降到大约 20 毫秒。现在,在切换到 MIC(这极大地提高了代码的可读性、可维护性和整体优雅性)之后,我可以达到每个请求大约 13 毫秒的时间,其中 80%-90% 花费在 operator++ 上。现在的问题是这是否可以以某种方式改进,还是我应该为我寻找一些焦油和羽毛?:)

4

4 回答 4

1

我认为你完全测量了错误的东西。当我从 3x3x11111 放大到 10x10x111111(索引中的项目数是 111 倍)时,它仍然在 290 毫秒内运行。

填充这些东西需要更多时间。即使解除分配容器似乎也需要更多时间。

什么不重要?

我贡献了一个有一些权衡的版本,主要表明调整东西没有意义:View On Coliru

  • 有一个开关可以避免any_range(如果你关心性能,使用它没有意义)
  • 有一个开关可以调整享元:

    #define USE_FLYWEIGHT 0 // 0: none 1: full 2: no tracking 3: no tracking no locking
    

    再次,它只是表明您可以轻松地做到这一点,并且应该考虑这样做,除非您需要对字符串 (?) 进行内存优化。如果是这样,请考虑使用以下OPTIMIZE_ATOMS方法:

  • 基本上确实在那里OPTIMIZE_ATOMS飞行重量wstring。由于所有的字符串都在这里重复,这将是非常有效的存储效率(尽管实现又快又脏,应该改进)。这个想法在这里应用得更好:如何提高 boost interval_map 查找的性能

以下是一些基本的时间安排:

在此处输入图像描述

如您所见,对于查询/迭代性能而言,基本上没有什么真正重要的

任何迭代器:它们重要吗?

这可能是您编译器的罪魁祸首。在我的编译(gcc 4.8.2)上它没什么大不了的,但是看到没有任何迭代器的累积循环的反汇编:

在此处输入图像描述

正如您从我强调的部分中看到的那样,算法、lambda 和迭代器遍历似乎并没有太多的脂肪。现在有了any_iterator,情况就不太清楚了,如果你的编译优化得不太好,我可以想象它无法内联基本操作,从而导致迭代变慢。(现在只是猜测)

于 2014-12-25T01:59:15.983 回答
1

getVersionData80%的执行时间都花在了这一事实operator++本身并不表明存在任何性能问题——最多,它告诉你,equal_range相比之下std::reference_wrapper插入速度更快。换句话说,当您分析某些代码时,您通常会找到花费最多时间的位置,但这是否是一个问题取决于所需的整体性能。

于 2014-12-24T12:09:55.073 回答
1

vector@kreuzerkrieg,您的示例代码不会对 a of s进行任何形式的插入std::reference_wrapper!相反,您将结果投影equal_range到 aboost::any_range中,预计在迭代时会相当慢——基本上,增量操作解析为虚拟调用。

因此,除非我在这里严重遗漏了某些东西,否则示例代码的性能或缺乏与您在实际代码中的问题没有任何关系(假设VersionView您没有显示代码,没有使用boost::any_range)。

也就是说,如果你能负担得起用等效的散列索引替换你的有序索引,迭代可能会更快,但鉴于你没有显示真实的东西,这完全是在黑暗中拍摄。

于 2014-12-24T19:20:09.260 回答
0

好的,所以我应用的解决方案如下:除了 odered_non_unique 索引('byKey')之外,我还添加了 random_access 索引。加载数据后,我使用 m_data.get.begin() 重新排列随机索引。然后,当向 MIC 查询数据时,我只需使用自定义谓词对随机索引执行 boost::equal_range,该谓词模拟在“byKey”索引排序中应用的相同逻辑。就是这样,它给了我快速的'size()'(O(1),据我所知)和快速遍历。现在我准备好了你的烂番茄:)

编辑1:当然我已经将any_range从双向遍历标签更改为随机访问标签

于 2014-12-29T13:22:02.433 回答