43

作为一系列教育正则表达式文章的一部分,这是对嵌套引用概念的温和介绍。

前几个三角数是:

 1 = 1
 3 = 1 + 2
 6 = 1 + 2 + 3
10 = 1 + 2 + 3 + 4
15 = 1 + 2 + 3 + 4 + 5

有很多方法可以检查一个数字是否是三角形的。有一种使用正则表达式的有趣技术,如下所示:

  • 给定n,我们首先创建一个长度为n并填充相同字符的字符串
  • 然后我们将这个字符串与模式匹配^(\1.|^.)+$
    • n是三角形当且仅当此模式与字符串匹配

以下是一些片段,表明这适用于多种语言:

PHP(在 ideone.com 上)

$r = '/^(\1.|^.)+$/';

foreach (range(0,50) as $n) {
  if (preg_match($r, str_repeat('o', $n))) {
     print("$n ");
  }
}

Java(在 ideone.com 上)

for (int n = 0; n <= 50; n++) {
    String s = new String(new char[n]);
    if (s.matches("(\\1.|^.)+")) {
        System.out.print(n + " ");
    }
}

C#(在 ideone.com 上)

Regex r = new Regex(@"^(\1.|^.)+$");

for (int n = 0; n <= 50; n++) {
    if (r.IsMatch("".PadLeft(n))) {
       Console.Write("{0} ", n);
    }
}

所以这个正则表达式似乎有效,但有人可以解释一下吗?

类似问题

4

1 回答 1

36

解释

以下是该模式的示意图分解:

from beginning…
|         …to end
|         |
^(\1.|^.)+$
 \______/|___match
  group 1    one-or-more times

(…) 括号定义捕获组 1,该组与.重复匹配+。这个子模式被锚定^并看$它是否可以匹配整个字符串。

第 1 组尝试匹配this|that 替补

  • \1.,即第1组匹配的内容(自我参考!),加上“任何”字符之一
  • 或者^.,即只是“任何”开头的一个字符

请注意,在第 1 组中,我们参考了第 1 组匹配的内容!这是一个嵌套/自引用,也是本示例中介绍的主要思想。请记住,当重复捕获组时,通常它只保留最后一次捕获,因此这种情况下的自引用本质上是:

“试着把我上次匹配的匹配,再加一个,这就是我这次匹配的。”

与递归类似,必须有一个带有自引用的“基本情况”。在 的第一次迭代中+,第 1 组尚未捕获任何内容(这与说它以空字符串开头不同)。因此,引入了第二种选择,作为“初始化”组 1 的一种方式,即允许在字符串开头捕获一个字符。

因此,当它与 重复时+,第 1 组首先尝试匹配 1 个字符,然后是 2,然后是 3,然后是 4,等等。这些数字的总和是一个三角形数字。


进一步探索

请注意,为简化起见,我们使用由与输入相同的重复字符组成的字符串。现在我们知道了这个模式是如何工作的,我们可以看到这个模式也可以匹配字符串,如"1121231234","aababc"等。

还要注意,如果我们发现n是一个三角数,即n = 1 + 2 + ... + k,那么最后被组 1 捕获的字符串的长度将为k

这两点都显示在以下 C# 片段中(也可以在 ideone.com 上看到):

Regex r = new Regex(@"^(\1.|^.)+$");

Console.WriteLine(r.IsMatch("aababc"));     // True
Console.WriteLine(r.IsMatch("1121231234")); // True
Console.WriteLine(r.IsMatch("iLoveRegEx")); // False

for (int n = 0; n <= 50; n++) {
    Match m = r.Match("".PadLeft(n));
    if (m.Success) {
       Console.WriteLine("{0} = sum(1..{1})", n, m.Groups[1].Length);
    }
}
// 1 = sum(1..1)
// 3 = sum(1..2)
// 6 = sum(1..3)
// 10 = sum(1..4)
// 15 = sum(1..5)
// 21 = sum(1..6)
// 28 = sum(1..7)
// 36 = sum(1..8)
// 45 = sum(1..9)

风味笔记

并非所有风格都支持嵌套引用。始终熟悉您正在使用的风味的怪癖(因此,每当您询问与正则表达式相关的问题时,提供此信息几乎总是有帮助的)。

在大多数情况下,标准正则表达式匹配机制会尝试查看模式是否可以匹配输入字符串的任何部分(可能但不一定是整个输入)。这意味着您应该记住始终在必要时^锚定您的模式。$

Java 稍有不同,它会String.matches尝试Pattern.matchesMatcher.matches模式与整个输入字符串进行匹配。这就是为什么在上面的代码片段中可以省略锚点的原因。

请注意,在其他情况下,您可能需要使用\A\Z锚点。例如,在多行模式下^,匹配输入中每一行$的开头和结尾。

最后一件事是,在 .NET 正则表达式中,您实际上可以获得由重复捕获组进行的所有中间捕获。在大多数情况下,你不能:所有中间捕获都丢失了,你只能保留最后一个。

相关问题


奖励材料:使用正则表达式找到二的幂!!!

只需稍加修改,您就可以使用此处介绍的相同技术来查找二的幂。

这是您想要利用的基本数学属性:

  • 1 = 1
  • 2 = (1) + 1
  • 4 = (1+2) + 1
  • 8 = (1+2+4) + 1
  • 16 = (1+2+4+8) + 1
  • 32 = (1+2+4+8+16) + 1

解决方案如下(但请先尝试自己解决!!!!)

(参见 ideone.com 中的PHPJavaC#):

^(\1\1|^.)*.$

于 2010-09-02T13:43:57.730 回答