python - 组合多个正则表达式替换

Question

我正在尝试使用正则表达式从文本块中删除一些内容。我已经准备好所有模式，但我似乎无法删除两个（或更多）重叠的部分。

例如：

import re

r1 = r'I am'
r2 = r'am foo'

text = 'I am foo'

re.sub(r1, '', text)   # Returns ' foo'
re.sub(r2, '', text)   # Returns 'I '

如何同时替换这两个事件并以空字符串结尾？

我最终使用了Ned Batchelder 答案的略微修改版本：

def clean(self, text):
  mask = bytearray(len(text))

  for pattern in patterns:
    for match in re.finditer(pattern, text):
      r = range(match.start(), match.end())

      mask[r] = 'x' * len(r)

  return ''.join(character for character, bit in zip(text, mask) if not bit)

score 12 · Accepted Answer

re.sub正如你所展示的，你不能用连续的电话来做到这一点。您可以使用re.finditer来找到它们。每个匹配都会为您提供一个匹配对象，该对象具有指示其位置的属性.start。.end您可以将所有这些收集在一起，然后在最后删除字符。

这里我使用 abytearray作为可变字符串，用作掩码。它被初始化为零字节，并且我用“x”标记与任何正则表达式匹配的所有字节。然后我使用位掩码选择要保留在原始字符串中的字符，并构建一个仅包含不匹配字符的新字符串：

bits = bytearray(len(text))
for pat in patterns:
    for m in re.finditer(pat, text):
        bits[m.start():m.end()] = 'x' * (m.end()-m.start())
new_string = ''.join(c for c,bit in zip(text, bits) if not bit)

score 2 · Accepted Answer

不要沮丧，但简短的回答是我很确定你不能。你能改变你的正则表达式，使它不需要重叠吗？

如果您仍然想这样做，我会尝试跟踪在原始字符串上进行的每个匹配的开始和停止索引。然后遍历字符串，只保留不在任何删除范围内的字符？

score 1 · Accepted Answer

一种非常有效的解决方案来自... Perl 将正则表达式组合为一个：

# aptitude install regexp-assemble
$ regexp-assemble 
I am
I am foo
Ctrl + D
I am(?: foo)?

regexp-assemble 获取您想要匹配的正则表达式或字符串的所有变体，然后将它们组合成一个。是的，它将最初的问题改变为另一个问题，因为它不再是匹配重叠的正则表达式，而是结合正则表达式进行匹配

然后你可以在你的代码中使用它：

$ python
Python 2.7.3 (default, Aug  1 2012, 05:14:39) 
[GCC 4.6.3] on linux2
Type "help", "copyright", "credits" or "license" for more information.
>>> import re
>>> re.sub("I am foo","I am(?: foo)?","")
''

在 python 中移植 Regexp::Assemble 会很好:)

score 1 · Accepted Answer

itertools.compress这是使用选择器迭代器在文本上动态过滤字符串的替代方法。True如果应该保留字符，则选择器返回。selector_for_patterns为每个模式创建一个选择器。选择器与 all 函数结合（仅当所有模式都想保留一个字符时，它应该在结果字符串中）。

import itertools
import re

def selector_for_pattern(text, pattern):
    i = 0
    for m in re.finditer(pattern, text):
        for _ in xrange(i, m.start()):
            yield True
        for _ in xrange(m.start(), m.end()):
            yield False
        i = m.end()
    for _ in xrange(i, len(text)):
        yield True

def clean(text, patterns):
    gen = [selector_for_pattern(text, pattern) for pattern in patterns]
    selector = itertools.imap(all, itertools.izip(* gen))
    return "".join(itertools.compress(text, selector))

python - 组合多个正则表达式替换

4 回答 4

Related

Reference