18

这是一系列教育正则表达式文章的第四部分。它展示了嵌套引用的组合(参见:这个正则表达式如何找到三角数?)到断言中的“计数”(参见:我们如何将 a^nb^n 与 Java 正则表达式匹配?)可用于反转字符串. 以编程方式生成的模式使用元模式抽象(请参阅:此 Java 正则表达式如何检测回文?)。在该系列中,这些技术首次用于替换而不是整个字符串匹配。

提供了完整的工作 Java 和 C# 实现。包括励志名言。

使用正则表达式反转字符串似乎从来都不是一个好主意,如果它完全可能的话,甚至不是立即显而易见的,如果是的话,人们可能会如何尝试这样做。

虽然这仍然不是一个好主意,但至少现在我们知道这是可能的,因为这是一种方法:

C# 也在 ideone.com 上

using System;
using System.Text.RegularExpressions;

public class TwoDollarReversal {    
public static void Main() {
   string REVERSE = 
      @"(?sx) . grab$2"
         .Replace("grab$2",
            ForEachDotBehind(
               AssertSuffix(@"((.) \1?)")
            )
         );
   Console.WriteLine(
      Regex.Replace(
         @"nietsniE treblA --
         hguone llew ti dnatsrednu t'nod uoy ,ylpmis ti nialpxe t'nac uoy fI",

         REVERSE, "$2"
      )
   );
   // If you can't explain it simply, you don't understand it well enough
   // -- Albert Einstein
}      
// performs an assertion for each dot behind current position
static string ForEachDotBehind(string assertion) {
   return "(?<=(?:.assertion)*)".Replace("assertion", assertion);
}
// asserts that the suffix of the string matches a given pattern
static string AssertSuffix(string pattern) {
   return "(?=.*$(?<=pattern))".Replace("pattern", pattern);
}

}

Java 也在 ideone.com 上

class TwoDollarReversal {

public static void main(String[] args) {
   String REVERSE =
      "(?sx) . grab$2"
         .replace("grab$2",
            forEachDotBehind(
               assertSuffix("((.) \\1?)")
            )
         );

   System.out.println(
      "taerG eht rednaxelA --\nyrt lliw ohw mih ot elbissopmi gnihton si erehT"
         .replaceAll(REVERSE, "$2")
   );
   // There is nothing impossible to him who will try
   // -- Alexander the Great"
}

static String forEachDotBehind(String assertion) {
   return "(?<=^(?:.assertion)*?)".replace("assertion", assertion);
}
static String assertSuffix(String pattern) {
   return "(?<=(?=^.*?pattern$).*)".replace("pattern", pattern);
}

}

C# 和 Java 版本似乎都使用相同的整体算法,仅在抽象的实现细节上略有不同。

显然,这不是反转字符串的最佳、最直接、最有效的方法。也就是说,为了了解正则表达式;如何概念化模式;引擎如何工作以匹配它们;如何将各个部分组合在一起以构建我们想要的东西;如何以可读和可维护的方式这样做;只是为了学习新事物的纯粹乐趣,我们能解释一下它是如何工作的吗?


附录:备忘单!

这是对使用的基本正则表达式结构的简要描述:

  • (?sx)是嵌入的标志修饰符s启用“单行”模式,允许匹配任何字符(包括换行符)。x启用自由间距模式,其中未转义的空格被忽略(#并可用于注释)。
  • ^并且$是行首和行尾的锚点
  • ?作为重复说明符表示可选(即零或一)。例如,作为重复量词,.*?它表示*(即零次或多次)重复是不情愿的/非贪婪的。
  • (…)用于分组(?:…)是非捕获组。一个捕获组保存它匹配的字符串;它允许后退/前进/嵌套引用(例如\1)、替换替换(例如$2)等。
  • (?=…)是积极的前瞻;它看起来向右断言给定模式的匹配。(?<=…)是积极的回顾;它看起来向左。

语言参考/其他资源

4

1 回答 1

9

概述

在高层次上,该模式匹配任何一个字符.,但另外执行一个grab$2动作,该动作捕获匹配到第 2 组的字符的反转“配对”。这种捕获是通过构建长度匹配的输入字符串的后缀来完成的前缀到当前位置的长度。我们通过应用assertSuffix一个将后缀增加一个字符的模式来做到这一点,重复一次forEachDotBehind。第 1 组捕获此后缀。在第 2 组中捕获的该后缀的第一个字符是匹配字符的反转“伴侣”。

因此,用它的“伙伴”替换每个匹配的字符具有反转字符串的效果。


它是如何工作的:一个更简单的例子

为了更好地理解正则表达式模式的工作原理,让我们首先将其应用于更简单的输入。此外,对于我们的替换模式,我们将“转储”出所有捕获的字符串,以便更好地了解正在发生的事情。这是一个Java版本:

System.out.println(
    "123456789"
        .replaceAll(REVERSE, "[$0; $1; $2]\n")
);

上面的打印(如在 ideone.com 上看到的):

[1; 9; 9]
[2; 89; 8]
[3; 789; 7]
[4; 6789; 6]
[5; 56789; 5]
[6; 456789; 4]
[7; 3456789; 3]
[8; 23456789; 2]
[9; 123456789; 1]

因此,例如[3; 789; 7]表示点匹配3(在组0中捕获),对应的后缀是789(组1),其第一个字符是7(组2)。请注意,这73“伴侣”。

                   current position after
                      the dot matched 3
                              ↓        ________
                      1  2 [3] 4  5  6 (7) 8  9
                      \______/         \______/
                       3 dots        corresponding
                       behind      suffix of length 3

请注意,角色的“伴侣”可能在其右侧或左侧。一个角色甚至可能是它自己的“伴侣”。


后缀是如何构建的:嵌套引用

负责匹配和构建增长后缀的模式如下:

    ((.) \1?)
    |\_/    |
    | 2     |       "suffix := (.) + suffix
    |_______|                    or just (.) if there's no suffix"
        1

请注意,在组 1 的定义中是对自身的引用(with \1),尽管它是可选的(with ?)。可选部分提供了“基本情况”,一种组在不引用自身的情况下进行匹配的方式。这是必需的,因为当组尚未捕获任何内容时,尝试匹配组引用总是会失败。

一旦第 1 组捕获了某些东西,我们的设置中就永远不会使用可选部分,因为我们上次捕获的后缀这次仍然存在,我们总是可以在这个后缀的开头添加另一个字符(.)。这个前置字符被捕获到组 2 中。

因此,此模式尝试将后缀增加一个点。因此,重复一次forEachDotBehind将产生一个后缀,其长度正好是前缀到我们当前位置的长度。


如何assertSuffixforEachDotBehind工作:元模式抽象

请注意,到目前为止,我们已经将assertSuffixforEachDotBehind视为黑盒。事实上,把这个讨论留在最后是一种深思熟虑的行为:名称和简短的文档表明了它们的作用,而这些信息足以让我们编写和阅读我们的REVERSE模式!

经过仔细检查,我们发现这些抽象的 Java 和 C# 实现略有不同。这是由于两个正则表达式引擎之间的差异。

.NET 正则表达式引擎允许在后视中使用完整的正则表达式,因此这些元模式看起来更自然。

  • AssertSuffix(pattern) := (?=.*$(?<=pattern)),即我们使用前瞻来一直到字符串的末尾,然后使用嵌套的后瞻来将模式与后缀匹配。
  • ForEachDotBehind(assertion) := (?<=(?:.assertion)*),即我们只是在后视中匹配.*,将断言与非捕获组内的点一起标记。

由于 Java 没有正式支持无限长度的后视(但在某些情况下它仍然可以工作),因此它的对应物有点尴尬:

  • assertSuffix(pattern) := (?<=(?=^.*?pattern$).*),即我们使用lookbehind 一直到字符串的开头,然后使用嵌套的lookahead 来匹配整个字符串,在后缀模式前面加上.*?不情愿地匹配一些不相关的前缀。
  • forEachDotBehind(assertion) := (?<=^(?:.assertion)*?),即我们使用带有不情愿重复的锚定lookbehind,即^.*?(并且同样将断言与非捕获组内的点一起标记)。

应该注意的是,虽然这些元模式的 C# 实现在 Java 中不起作用,但 Java 实现确实在 C# 中起作用参见 ideone.com)。因此,实际上没有必要为 C# 和 Java 提供不同的实现,但 C# 实现故意利用了更强大的 .NET 正则表达式引擎后向支持来更自然地表达模式。

因此,我们展示了使用元模式抽象的好处:

  • 我们可以独立开发、检查、测试、优化等这些元模式实现,也许可以利用特定于风味的特性来获得额外的性能和/或可读性。
  • 一旦这些构建块被开发并经过良好测试,我们就可以简单地将它们用作更大模式的一部分,这使我们能够在更高层次上表达想法,以获得更易读、更可维护、更便携的解决方案。
  • 元模式促进重用,程序化生成意味着更少的重复

虽然这一概念的特殊表现形式相当原始,但也可以进一步发展并开发更强大的编程模式生成框架,其中包含经过良好测试和优化的元模式库。

也可以看看


结束的想法

需要重申的是,在实践中使用正则表达式反转字符串并不是一个好主意。它比必要的复杂得多,性能也很差。

也就是说,这篇文章表明它实际上是可以做到的,并且当使用元模式抽象在更高级别表示时,该解决方案实际上是非常可读的。作为解决方案的关键组成部分,嵌套引用再次展示在另一个引人入胜的示例中。

不太明显的是,也许这篇文章还显示了解决起初可能看起来很困难(甚至“不可能”)的问题所需的决心。也许它也显示了对一个主题的更深入理解所带来的思想清晰,这是无数研究和努力的结果。

毫无疑问,正则表达式可能是一个令人生畏的主题,而且它当然不是为了解决您的所有问题而设计的。然而,这不是可恨的无知的借口,如果你愿意学习,这是一种令人惊讶的深刻知识。

于 2010-09-12T04:07:05.543 回答