3

我正在使用一个 C 库,它使用各种固定大小的unsigned char数组,没有空终止符作为字符串。

我一直在将它们转换为std::string使用以下功能:

auto uchar_to_stdstring(const unsigned char* input_array, int width) -> std::string {
  std::string temp_string(reinterpret_cast<const char*>(input_array), width);
  temp_string.erase(temp_string.find_last_not_of(' ') + 1);

  return temp_string;
}

除了使用之外,它工作正常,reinterpret_cast需要传递数组大小以及我将数组衰减为指针的事实。我试图避免使用std::span.

使用的函数std::span如下所示:

auto ucharspan_to_stdstring(const std::span<unsigned char>& input_array) -> std::string {
  std::stringstream temp_ss;

  for (const auto& input_arr_char : input_array) {
    temp_ss << input_arr_char;
  }

  return temp_ss.str();
}

该函数运行良好,使其他一切变得更简单,而无需跟踪 C 数组的大小。但是,通过一些基准测试(使用nanobench)进一步挖掘表明,新功能比经典reinterpret_cast方法慢很多倍。我的假设是基于 - 的函数中的for循环是这里的低效率。std::span

我的问题:是否有更有效的方法将固定大小的无符号字符 C 数组从std::span变量转换为 a std::string


编辑:

gcc基准(-O3 -DNDEBUG -std=gnu++20,nanobench,minEpochIterations=54552558,warmup=100,doNotOptimizeAway)

相对的 ns/op 运算/秒 呃% 插入/操作 胸罩/手术 错过% 全部的 uchar[] 到 std::string
100.0% 5.39 185,410,438.12 0.3% 80.00 20.00 0.0% 3.56 uchar
2.1% 253.06 3,951,678.30 0.6% 4,445.00 768.00 0.0% 167.74 ucharspan
1,244.0% 0.43 2,306,562,499.69 0.2% 9.00 1.00 0.0% 0.29 ucharspan_barry
72.8% 7.41 134,914,127.56 1.3% 99.00 22.00 0.0% 4.89 uchar_bsv

clang基准(-O3 -DNDEBUG -std=gnu++20,nanobench,minEpochIterations=54552558,warmup=100,doNotOptimizeAway)

相对的 ns/op 运算/秒 呃% 插入/操作 胸罩/手术 错过% 全部的 uchar[] 到 std::string
100.0% 2.13 468,495,014.11 0.2% 14.00 1.00 0.0% 1.42 uchar
0.8% 251.74 3,972,418.54 0.2% 4,477.00 767.00 0.0% 166.30 ucharspan
144.4% 1.48 676,329,668.07 0.1% 7.00 0.00 95.8% 0.98 ucharspan_barry
34.5% 6.19 161,592,563.70 0.1% 80.00 24.00 0.0% 4.08 uchar_bsv

(uchar_bsv在基准测试中与 相同ucharspan_barry,但使用std::basic_string_view<unsigned char const>参数而不是std::span<unsigned char const>

4

1 回答 1

4

你要:

auto ucharspan_to_stdstring(std::span<unsigned char const> input_array) -> std::string {
    return std::string(input_array.begin(), input_array.end());
}

string与其他stand library 容器一样,可以从适当的迭代器对构造——这就是这样的一对。由于这些是随机访问迭代器,这将执行单个分配等。

请注意,我从 更改span<T> const&span<T const>,原因有两个。首先,您没有改变跨度的内容,因此内部类型需要const......类似于您采用 a 的方式T const*,而不是 a T*。其次,您应该span按价值获取 s,因为它们复制起来很便宜(除非您非常特别需要跨度的标识,而您在这里不需要)。

这样做可能会更好,这样reinterpret_cast您就可以使用(char const*, size_t)构造函数 - 这个可以确保memcpy最终写入的唯一性。但是你必须花时间看看它是否值得。

于 2022-01-22T22:33:07.163 回答