regex - Regex.Replace 去识别/规范化柱状文本

Question

VB2010：我正在使用 RegEx 对文本块进行去标识化并规范化文本。也就是说，获取文本行并对名称和确认码进行去标识化，然后对文本进行规范化，以使数据按列排列。我几乎拥有所有这些，除了最后一部分，其中确认码前面有可变数量的点和一个 2 到 4 个字符长或可能丢失的包 ID。

    'regex
    Dim MyRegex As Regex = New Regex("(?<pre>^\s{0,2}(\d{1,3})\s(\d\d))(.+?)(?<post>\.\.(\d{1,3})\." + "(\w)\s((\w+?|\.\.)))(?<dots>\.+)(\w{6})", RegexOptions.IgnoreCase Or RegexOptions.Multiline)

    'this is the replacement string
    Dim replacement As String = "${pre}******/*****${post}${dots}******"

    'replace the matched text in the InputText using the replacement pattern
    Dim result As String = MyRegex.Replace(Input, replacement)

我的测试输入，每行包含一个数字、名称、数字、杂项代码、包 ID 和确认代码：

  1 01SMITH/CH..1.A E2T......AAABBB
  2 01MTC..1.A ..............CCCDDD
  3 01GRIFFIN/JOHN..1.A E2...EEEFFF
  4 01EL/MARY..1.Z E2XT......GGGHHH
  5 02BUBBA/BILLY..2.A E2....IIIJJJ
  6 01HILL/THOR..1.A E2WW....KKKLLL

到目前为止我的输出：

  1 01******/*****..1.A E2T......******
  2 01******/*****..1.A ..............******
  3 01******/*****..1.A E2...******
  4 01******/*****..1.Z E2XT......******
  5 02******/*****..2.A E2....******
  6 01******/*****..1.A E2WW....******

我正在对名称和确认码进行去标识化，但确认码之前的代码包 ID 是可变的，因此这会影响我的列输出。有点卡在它的末端，但我真的很接近。我的目标是一对一的正则表达式，但这可能是不可能的。是否可以填充正则表达式替换？

更新解决方案：

    'regex (added one more group for the package id so I can determine its length)
    Dim MyRegex As Regex = New Regex("(?<pre>^\s{0,2}(\d{1,3})\s(\d\d))(.+?)(?<post>\.\.(\d{1,3})\.(\w)\s(?<pkid>(\w+?|\.\.)))(?<dots>\.+)(\w{6})", RegexOptions.IgnoreCase Or RegexOptions.Multiline)

    'use the MatchEvaluator to examine each match and adjust accordingly
    deid = MyRegex.Replace(deid, New MatchEvaluator(Function(m As Match)
                                                        Return m.Groups("pre").Value &
                                                            "******/*****" &
                                                            m.Groups("post").Value &
                                                            New String("."c, 5 - m.Groups("pkid").Value.Length) &
                                                            "******"
                                                    End Function))

我通过测试数据运行它，这是我得到的：

-----Input------------------------------------------------
1 01SMITH/CH..1.A E2T......AAABBB
2 01MTC..1.A ..............CCCDDD
3 01GRIFFIN/JOHN..1.A E2...EEEFFF
4 01EL/MARY..1.Z E2XT......GGGHHH
5 02BUBBA/BILLY..2.A E2....IIIJJJ
6 01HILL/THOR..1.A E2WW....KKKLLL
-----Output-----------------------------------------------
1 01******/*****..1.A E2T..******
2 01******/*****..1.A .....******
3 01******/*****..1.A E2...******
4 01******/*****..1.Z E2XT.******
5 02******/*****..2.A E2...******
6 01******/*****..1.A E2WW.******
----------------------------------------------------------

score 1 · Accepted Answer

也许，可以有更好的方法，但是可以使用正则表达式并Regex.Replace使用MatchEvaluator.

evaluator
类型：System.Text.RegularExpressions.MatchEvaluator
检查每个匹配项并返回原始匹配字符串或替换字符串的自定义方法。

关键是要得到第3组和第8组的长度，重复*同样的次数。要添加正斜杠，我们可以通过将第 3 组的长度除以 2 来找到中间。这StrDup是一个方便的函数，可以将字符串“乘”指定次数。

这是一个 VB.NET 代码：

Dim Input As String = "1 01SMITH/CH..1.A E2T......AAABBB" & Environment.NewLine & "2 01MTC..1.A ..............CCCDDD" & Environment.NewLine & "3 01GRIFFIN/JOHN..1.A E2...EEEFFF" & Environment.NewLine & "4 01EL/MARY..1.Z E2XT......GGGHHH" & Environment.NewLine & "5 02BUBBA/BILLY..2.A E2....IIIJJJ" & Environment.NewLine & "6 01HILL/THOR..1.A E2WW....KKKLLL"
Dim MyRegex As Regex = New Regex("(?<pre>^\s{0,2}(\d{1,3})\s(\d\d))(.+?)(?<post>\.\.(\d{1,3})\." + "(\w)\s((\w+?|\.\.)))(?<dots>\.+)(\w{6})", RegexOptions.IgnoreCase Or RegexOptions.Multiline)
Dim result As String = MyRegex.Replace(Input, New MatchEvaluator(Function(m As Match)
                                    Return m.Groups("pre").Value &
                                    StrDup(m.Groups(3).Value.Length, "*").Insert(m.Groups(3).Value.Length / 2, "/") &
                                    m.Groups("post").Value &
                                    m.Groups("dots").Value &
                                    StrDup(m.Groups(8).Value.Length, "*")
                              End Function))
Console.WriteLine(result)

结果：

1 01****/****..1.A E2T......******
2 01**/*..1.A ..............******
3 01******/******..1.A E2...******
4 01****/***..1.Z E2XT......******
5 02******/*****..2.A E2....******
6 01****/*****..1.A E2WW....******

regex - Regex.Replace 去识别/规范化柱状文本

1 回答 1

Related

Reference