“unicode-escapes”的相关标签问题

0 投票

1 回答

880 浏览

python - 在编程中，为什么正则表达式的转义序列和字符串文字的转义序列不同？

在许多语言中，对转义序列的支持不同于字符串文字和正则表达式。例如，在 python 中，\s转义序列出现在正则表达式中，而不是字符串文字，而在 php 中，\f换页符转义序列出现在正则表达式中，而不是字符串文字。虽然我理解显而易见的（\s代表多个字符并会引入歧义），但有些例子并不那么清楚。最重要的是，这些背后的文档也经常被忽视。

例如，PHP 有一个专门用于 PCRE 转义序列的页面http://php.net/manual/en/regexp.reference.escape.php，但未能提供字符串文字中转义序列的官方排他列表。

由于我是编程新手，我担心我错过了这背后的一些关键信息/历史。我的担心有道理吗？这甚至是一个问题吗？其他人都知道我不知道的事情吗？

（图片相关）一个非官方的，甚至不知道它是否正确的 php 字符串文字转义序列列表。为什么语言不在正则表达式和字符串文字之间进行标准化？以及为什么我似乎无法在这两个截然不同的事物之间找到好的文档

2016-02-05T12:07:31.607

0 投票

2 回答

61 浏览

escaping - 字符代码页：控制代码页分配，意思是“下一个呈现的字符（在此源代码中）被转义？”

我承认这个问题可能无法回答，或者极难回答。

此外，尽管我希望这些观众熟悉脚本语言中的转义序列，但为了清楚起见，您将在本文后面看到，我将回顾一下这个概念：

“转义”是指例如可打印的字符，这些字符被解释为“不要像往常一样使用下一个字符；在另一个上下文中解释它”。上下文包括不被解释为代码的字符，而是作为文字打印字符，或者相反，通常可以被解释为我们想要解释为代码的文字字符的字符。我的例子（更令人困惑，我现在意识到）使用后一种情况。

具体示例：与 'nix sed 一起使用的正则表达式，当不为 sed 转义时，是这样的：

但是，当 shell 转义以将正则表达式传递给 sed 时，sed 知道将字符解释为不是文字字符，而是作为正则表达式代码，整个字符串变得更加丑陋（并且更不可读）：

转义字符（或序列）是编程的祸根之一。对于长字符串（或代码行）尤其如此，在这种情况下，只有特别注意和/或使用创建和删除转义序列的工具才实用。

我环顾四周并没有遇到像我将提出的解决方案，但不知道如果它存在可能会被命名为什么，并且不是专家，搜索是徒劳的。

在我说诸如“控制代码页分配”之类的东西的地方，我指的是计算机用来呈现和控制文本布局等的可打印（和不可打印）字符表的代码页，正如解释的那样在“代码页”的维基百科文章中。如果你愿意的话，你可以（松散地）称这些“计算机字母”。我所说的“代码页分配”是指计算机“字母表”中的一个条目，它被解释为呈现的字形（可打印字符）或未打印的控制代码（不可打印的字符）。

这个想法是指定一个特定的、未打印的控制代码页分配来表示“将下一个字符解释为已转义”，文本渲染器可以“读取”并通过更改例如转义字符的颜色和/或亮度来向程序员指示遵循控制代码。和/或控制代码页分配可以是可打印的字形，例如是标准化的、非侵入性的重音字形，它不与与罗马字母相关的任何字母中的任何其他重音相冲突。

解释器和编译器也可以类似地读取此未打印的代码页分配。

假设一个比我上面给出的更长的正则表达式的渲染版本：