7

我只是在考虑std::string::substr. 它返回一个新std::string对象,这对我来说似乎有点浪费。为什么不返回一个引用原始字符串内容并且可以隐式分配给 a 的对象std::string?一种对实际抄袭的懒惰评价。这样的类可能看起来像这样:

template <class Ch, class Tr, class A>
class string_ref {
public:
    // not important yet, but *looks* like basic_string's for the most part

private:
    const basic_string<Ch, Tr, A> &s_;
    const size_type pos_;
    const size_type len_;    
};

此类的公共接口将模仿 real 的所有只读操作std::string,因此使用将是无缝的。std::string然后可以有一个新的构造函数,它采用 astring_ref所以用户永远不会更聪明。当您尝试“存储”结果时,您最终会创建一个副本,因此引用指向数据然后对其进行修改没有真正的问题。

这个想法是这样的代码:

std::string s1 = "hello world";
std::string s2 = "world";
if(s1.substr(6) == s2) {
    std::cout << "match!" << std::endl;
}

std::string总共构造的对象不超过 2个。对于执行大量字符串操作的代码,这似乎是一个有用的优化。当然,这不仅适用于std::string,还适用于任何可以返回其内容子集的类型。

据我所知,没有实现这样做。

我想问题的核心是:

给定一个可以根据需要隐式转换为 a 的类,std::string它是否符合库编写者将成员的原型更改为返回类型的标准?或者更一般地说,库编写者是否有余地在这些类型的情况下返回“代理对象”而不是常规对象作为优化?

我的直觉是这是不允许的,原型必须完全匹配。鉴于您不能仅对返回类型进行重载,那么库编写者将没有空间利用这些类型的情况。就像我说的,我认为答案是否定的,但我想我会问:-)。

4

6 回答 6

6

这个想法是写时复制,但不是对整个缓冲区进行 COW,而是跟踪缓冲区的哪个子集是“真实”字符串。(COW 以其正常形式被(是?)用于某些库实现中。)

因此,您根本不需要代理对象或更改接口,因为这些细节可以完全在内部进行。从概念上讲,您需要跟踪四件事:源缓冲区、缓冲区的引用计数以及此缓冲区中字符串的开始和结束。

任何时候操作修改缓冲区,它都会创建自己的副本(从开始和结束分隔符开始),将旧缓冲区的引用计数减一,并将新缓冲区的引用计数设置为 1。其余的引用计数规则是一样的:复制并增加计数,破坏字符串并减少计数,达到零并删除等。

substr只是创建一个新的字符串实例,除非明确指定了开始和结束分隔符。

于 2011-01-13T16:49:18.683 回答
3

这是一个广为人知的优化,使用相对广泛,称为写时复制或 COW。基本的事情甚至与子字符串无关,而是与简单的事情有关

s1 = s2;

现在,这种优化的问题在于,对于应该在支持多线程的目标上使用的 C++ 库,必须使用原子操作访问字符串的引用计数(或者更糟的是,在目标平台的情况下使用互斥锁进行保护不提供原子操作)。这足够昂贵,以至于在大多数情况下,简单的非 COW 字符串实现更快。

见 GOTW #43-45:

http://www.gotw.ca/gotw/043.htm

http://www.gotw.ca/gotw/044.htm

http://www.gotw.ca/gotw/045.htm

更糟糕的是,使用过 COW 的库(例如 GNU C++ 库)不能简单地恢复为简单实现,因为这会破坏 ABI。(虽然,C++0x 来救援,因为无​​论如何这都需要 ABI 碰撞!:))

于 2011-01-13T17:01:19.050 回答
1

由于return ,没有办法返回代理对象,他们不能只更改返回类型或对其进行重载(出于您提到的原因)substrstd::string

他们可以通过使string自己能够成为另一个字符串的子项来做到这一点。这将意味着所有使用的内存损失(保存一个额外的字符串和两个 size_types)。此外,每个操作都需要检查它是否具有字符或是否是代理。也许这可以通过一个实现指针来完成——问题是,现在我们正在让一个通用类变慢以应对可能的边缘情况。

如果你需要这个,最好的方法是创建另一个类,substring它从字符串、pos 和长度构造,并转换为字符串。您不能将其用作s1.substr(6),但您可以这样做

 substring sub(s1, 6);

您还需要创建采用子字符串和字符串的通用操作以避免转换(因为这就是重点)。

于 2011-01-13T16:49:56.863 回答
0

关于您的具体示例,这对我有用:

if (&s1[6] == s2) {
    std::cout << "match!" << std::endl;
}

对于通用解决方案,这可能无法回答您的问题。为此,正如@GMan 建议的那样,您需要子字符串 CoW。

于 2011-01-13T16:59:46.420 回答
0

您正在谈论的是(或曾经是)Javajava.lang.String类的核心功能之一(http://fishbowl.pastiche.org/2005/04/27/the_string_memory_gotcha/)。在许多方面,Java 的String类和 C++ 的basic_string模板的设计是相似的,所以我想basic_string用这种“子字符串优化”来编写模板的实现是可能的。

您需要考虑的一件事是如何编写c_str() const成员的实现。根据一个字符串作为另一个子字符串的位置,它可能必须创建一个新副本。如果请求 c_str 的字符串不是尾随子字符串,它肯定必须创建内部数组的新副本。我认为这需要mutable在大多数(如果不是全部)实现的数据成员上使用关键字,这basic_string大大复杂化了其他方法的实现,const因为编译器不再能够帮助程序员实现 const 正确性。

编辑:实际上,为了适应c_str() constand data() const,您可以使用一个类型为 的可变字段const charT*。最初设置为,它可以是每个实例的,每当调用或时NULL初始化为指向新charT数组的指针,如果不是 ,则在析构函数中删除。c_str() constdata() constbasic_stringNULL

于 2011-01-13T17:06:26.903 回答
0

当且仅当您确实需要比 std::string 提供的性能更高的性能时,请继续编写按您需要的方式工作的东西。我以前使用过字符串的变体。

我自己的偏好是使用非可变字符串而不是写时复制,并使用 boost::shared_ptr 或等效项,但仅当字符串实际长度超过 16 时,因此字符串类也有一个简短的私有缓冲区字符串。

这确实意味着字符串类可能会带来一些影响。

我的集合列表中还有一个“切片”类,只要原始对象的生命周期完好无损,它就可以查看位于其他地方的类的“子集”。因此,在您的情况下,我可以对字符串进行切片以查看子字符串。当然,它不会是空终止的,也没有任何方法可以在不复制它的情况下使其成为空终止。它不是一个字符串类。

于 2011-01-13T17:39:18.360 回答