10

介绍

(你可以跳到如果……如果你厌倦了介绍)

这个问题并不是特别针对 VBScript(我只是在这种情况下使用它):我想找到一个通用正则表达式使用的解决方案(包括编辑器)。

这开始于我想创建示例 4 的改编版本,其中 3 个捕获组用于在 MS Excel 中的 3 个单元格之间拆分数据。我需要捕获一个完整的模式,然后在其中捕获 3 个其他模式。但是,在同一个表达式中,我还需要捕获另一种模式,并再次捕获其中的 3 个其他模式(是的,我知道……但在指向 nutjob 手指之前,请完成阅读)。

我首先想到了命名捕获组,然后我意识到我不应该“混合命名和编号的捕获组”,因为它“不推荐,因为这些组的编号方式不一致”

然后我查看了VBScript SubMatches«non-capturing»,我得到了针对特定情况的有效解决方案:

For Each C In Myrange
    strPattern = "(?:^([0-9]+);([0-9]+);([0-9]+)$|^.*:([0-9]+)\s.*:([0-9]+).*:([a-zA-Z0-9]+)$)"

    If strPattern <> "" Then
        strInput = C.Value

        With regEx
            .Global = True
            .MultiLine = True
            .IgnoreCase = False
            .Pattern = strPattern
        End With

        Set rgxMatches = regEx.Execute(strInput)

        For Each mtx In rgxMatches
            If mtx.SubMatches(0) <> "" Then
                C.Offset(0, 1) = mtx.SubMatches(0)
                C.Offset(0, 2) = mtx.SubMatches(1)
                C.Offset(0, 3) = mtx.SubMatches(2)
            ElseIf mtx.SubMatches(3) <> "" Then
                C.Offset(0, 1) = mtx.SubMatches(3)
                C.Offset(0, 2) = mtx.SubMatches(4)
                C.Offset(0, 3) = mtx.SubMatches(5)
            Else
                C.Offset(0, 1) = "(Not matched)"
            End If
        Next
    End If
Next

这是 regex 的 Rubular 中的演示。在这些:

124;12;3
我的 id1:213 我的 id2:232 我的话:ins4yanrgx
:8587459 :18254182540215 :dcpt
0;1;2

它返回带有数字的前 2 个单元格和带有数字或单词的第3个单元格。基本上,我使用了一个具有 2 个“父”模式的非捕获组(“父”= 我想检测其他子模式的广泛模式)。如果第一个模式具有匹配的子模式(一个捕获组),那么我将其值和该模式的剩余捕获组放在 3 个单元格中。如果不是,我检查第 4捕获组(属于第 2 个模式)是否匹配,并将剩余的子模式放在相同的 3 个单元格中。

如果什么...

而不是这样的:

(?:^(\d+);(\d+);(\d+)$|^.*:(\d+)\s.*:(\d+).*:(\w+)$|what(ever))

这样的事情是可能的:

(#:^(\d+);(\d+);(\d+)$)|(#:^.*:(\d+)\s.*:(\d+).*:(\w+)$)|(#:what(ever))

与其(#:创建非捕获组,不如创建一个“父”编号的捕获组。通过这种方式,我可以执行类似于示例 4的操作:

C.Offset(0, 1) = regEx.Replace(strInput, "#$1")
C.Offset(0, 2) = regEx.Replace(strInput, "#$2")
C.Offset(0, 3) = regEx.Replace(strInput, "#$3")

它将搜索父模式,直到在子模式中找到匹配项(将返回第一个匹配项,理想情况下,不会搜索其余匹配项)。

已经有这样的事情了吗?还是我完全从正则表达式中遗漏了一些允许这样做的东西?

其他可能的变化:

  • 直接引用父子模式,例如:(#2$3这在我的示例中相当于$6);
  • 在其他人中根据需要创建尽可能多的捕获组(我想这会更复杂,但也是最有趣的部分),例如:使用正则表达式(相同语法),(#:^_(?:(#:(\d+):\w+-(\d))|(#:\w+:(\d+)-(\d+)))_$)|(#:^\w+:\s+(#:(\w+);\d-(\d+))$)并以如下模式获取##$1

    _123:smt-4_它会匹配:123
    _ott:432-10_它会匹配:432
    yant: special;3-45235它会匹配:特殊

如果您发现此逻辑中有任何错误或缺陷,请告诉我,我会尽快编辑。

4

1 回答 1

5

这通常是要捕获大部分相同数据的情况。
唯一的区别在于形式。

有一个称为分支重置的正则表达式构造。
它在大多数 Perl 兼容引擎上提供。不是 Java 也不是 Dot Net。
它主要只是节省正则表达式资源并使其更容易处理匹配。

您提到的替代方案没有任何帮助,它实际上只是使用
更多资源。您仍然必须查看匹配的内容才能看到您的位置。
但是您只需要检查集群中的一个组来判断哪些其他
组是有效的(<- 如果使用分支重置,这是不必要的)。

下面是使用 RegexFormat 6构建的)

这是分支重置版本:

 # (?|^(\d+);(\d+);(\d+)$|^.*:(\d+)\s.*:(\d+).*:(\w+)$|what(ever)()())

 (?|
      ^ 
      ( \d+ )                       # (1)
      ;
      ( \d+ )                       # (2)
      ;
      ( \d+ )                       # (3)
      $ 
   |  
      ^ .* :
      ( \d+ )                       # (1)
      \s .* :
      ( \d+ )                       # (2)
      .* :
      ( \w+ )                       # (3)
      $ 
   |  
      what
      ( ever )                      # (1)
      ( )                           # (2)
      ( )                           # (3)
 )

这是你的两个正则表达式。请注意,“父”捕获实际上增加了组的数量(这会降低引擎的速度):

 # (?:^(\d+);(\d+);(\d+)$|^.*:(\d+)\s.*:(\d+).*:(\w+)$|what(ever))

 (?:
      ^ 
      ( \d+ )                       # (1)
      ;
      ( \d+ )                       # (2)
      ;
      ( \d+ )                       # (3)
      $ 
   |  
      ^ .* :
      ( \d+ )                       # (4)
      \s .* :
      ( \d+ )                       # (5)
      .* :
      ( \w+ )                       # (6)
      $ 
   |  
      what
      ( ever )                      # (7)
 )

    # (#:^(\d+);(\d+);(\d+)$)|(#:^.*:(\d+)\s.*:(\d+).*:(\w+)$)|(#:what(ever))

    (                             # (1 start)
         \#: ^ 
         ( \d+ )                       # (2)
         ;
         ( \d+ )                       # (3)
         ;
         ( \d+ )                       # (4)
         $ 
    )                             # (1 end)
 |  
    (                             # (5 start)
         \#: ^ .* :
         ( \d+ )                       # (6)
         \s .* :
         ( \d+ )                       # (7)
         .* :
         ( \w+ )                       # (8)
         $ 
    )                             # (5 end)
 |  
    (                             # (9 start)
         \#:what
         ( ever )                      # (10)
    )                             # (9 end)
于 2015-05-13T16:35:24.693 回答