81

C++11 中引入了一个非常方便的特性,称为原始字符串文字,它是没有转义字符的字符串。而不是这样写:

  regex mask("\\t[0-9]+\\.[0-9]+\\t\\\\SUB");

你可以简单地写这个:

  regex mask(R"(\t[0-9]+\.[0-9]+\t\\SUB)");

更具可读性。但是,请注意必须放置字符串周围的额外括号以定义原始字符串文字。

我的问题是,为什么我们甚至需要这些?对我来说,它看起来很丑陋和不合逻辑。以下是我看到的缺点:

  • 额外的冗长,而整个功能用于使文字更紧凑
  • 难以区分文字主体和定义符号

这就是我所说的难以区分的意思:

"good old usual string literal"
 ^-    body inside quotes   -^

R"(new strange raw string literal)"
   ^- body inside parenthesis  -^

这是专业人士:

  • 更灵活,原始字符串中可用的字符更多,尤其是与分隔符一起使用时:"delim( can use "()" here )delim"

但是,嘿,如果你需要更多的灵活性,你有旧的很好的可转义字符串文字。为什么标准委员会决定用这些绝对不必要的括号来污染每个原始字符串文字的内容?这背后的理由是什么?我没有提到的优点是什么?

UPD Kerrek 的答案很棒,但不幸的是,这不是答案。由于我已经描述了我了解它的工作原理以及它带来的好处。我问这个问题五年过去了,仍然没有答案。我仍然对这个决定感到沮丧。有人可以说这是一个品味问题,但我不同意。您使用多少个空格,如何命名变量,这是SomeFunction()还是some_function()- 这是品味问题。我可以很容易地从一种风格切换到另一种风格。

但是这个?。这么多年了还是觉得别扭和笨拙。不,这与味道无关。这是关于无论如何我们要如何涵盖所有可能的情况。每次我们需要编写特定于 Windows 的路径、正则表达式或多行字符串文字时,我们都注定要编写这些丑陋的括号。"为了什么?..对于那些我们真正需要输入字符串的罕见情况?我希望我能参加那个他们决定这样做的委员会会议。我强烈反对这个非常糟糕的决定。我希望。现在我们注定要失败。

谢谢你读到这里。现在我感觉好一点了。

UPD2这是我的替代建议,我认为两者都比现有的要好得多。

建议 1. 灵感来自 python。不支持带三引号的字符串文字:R"""Here is a string literal with any content, except for triple quotes, which you don't actually use that often."""

建议 2. 受常识启发。支持所有可能的字符串文字,就像当前的:R"delim"content of string"delim". 带空分隔符:R""Looks better, doesn't it?"". 空的原始字符串:R"""". 带双引号的原始字符串:R"#"Here are double quotes: "", thanks"#".

这些建议有什么问题吗?

4

2 回答 2

107

括号的目的是允许您指定自定义分隔符:

R"foo(Hello World)foo"   // the string "Hello World"

在您的示例和典型使用中,分隔符只是空的,因此原始字符串由序列R"()".

允许任意分隔符是一种设计决策,它反映了提供一个没有奇怪限制或边缘情况的完整解决方案的愿望。您可以选择字符串中未出现的任何字符序列作为分隔符。

"如果没有这个,如果字符串本身包含类似的东西(如果您只是想要R"..."作为原始字符串语法)或)"(如果分隔符为空),您将遇到麻烦。这两个都是非常常见和频繁的字符序列,尤其是在正则表达式中,所以如果你是否使用原始字符串的决定取决于你的字符串的具体内容,那将是非常烦人的。

请记住,在原始字符串内部没有其他转义机制,因此您可以做的最好的事情就是连接字符串文字,这是非常不切实际的。通过允许自定义分隔符,您需要做的就是选择一个不寻常的字符序列一次,并且在您将来进行编辑时可能会在极少数情况下对其进行修改。

但再次强调,即使是空分隔符也已经很有用了,因为R"(...)"语法允许您在字符串中放置裸引号。这本身就是一个很大的收获。

于 2013-09-29T10:25:18.110 回答
10

正如另一个答案所解释的那样,引号中必须有一些额外的内容,以避免在"or)"或实际上可能出现在字符串本身中的任何关闭序列的情况下出现解析歧义。

至于语法选择,嗯,我同意语法选择是 次优的,但总的来说还可以(你可以这么想:“事情可能会更糟”,哈哈)。我认为这是使用简单性和解析简单性之间的一个很好的折衷。

建议 1。灵感来自蟒蛇。不支持带三引号的字符串文字:
R"""任何内容,除了三引号,您实际上并不经常使用它。"""

这确实存在一个问题-“引号,您实际上并不经常使用”。首先,原始字符串的真正想法是表示原始字符串,即与它们在文本文件中出现的完全一样,无需对字符串进行任何修改,无论字符串内容如何。其次,语法应该是通用的,即不添加“几乎原始字符串”等变体。

你会如何用这种语法写一个引号?两个引号?注意 - 这些是非常常见的情况,尤其是当您的代码处理字符串和解析时。

建议 2
R“delim”字符串“delim”的内容。
R""看起来更好,不是吗?""。
R"#"这里是双引号:"",谢谢"#"。

好吧,这可能是一个更好的候选人。但有一件事 - 一个常见的情况(我相信这是一个接受语法的激励案例)是双引号字符本身非常常见,原始字符串应该在这些情况下派上用场。

所以,让我们看看,正常的字符串语法:

s1 = "\"";
s2 = "\"quoted string\"";

您的语法,例如使用“x”作为分隔符:

s1 = R"x"""x";
s2 = R"x""quoted string""x";

接受的语法:

s1 = R"(")";
s2 = R"("quoted string")";

是的,我同意括号引入了一些令人讨厌的视觉效果。所以我怀疑语法的作者认为在这种情况下很少需要额外的“delim”,因为)"在字符串中并不经常出现。但是OTOH,尾随/前导/孤立的引号很常见,因此例如您建议的语法(#2)需要delim更频繁,这反过来又需要更频繁地将其更改R""..""R"delim"..."delim"。希望你能明白。

语法可以更好吗?我个人更喜欢更简单的语法变体:

Rdelim"string contents"delim;

有了上面的例子:

s1 = Rx"""x; 
s2 = Rx""quoted string""x;

然而,为了正常工作(如果它在当前语法中可能的话),这个变体将需要限制delim部分的字符集,比如仅限字母/数字(因为现有的运算符),并且可能对初始字符进行一些进一步的限制避免与未来可能出现的语法冲突。
所以我相信可以做出更好的选择,尽管在这种情况下没有什么比这更好的了

于 2018-12-16T15:37:06.190 回答