python - 如何使用正则表达式进行多次替换？

Question

我可以使用下面的代码创建一个新文件，并使用正则表达式替换为awith 。aa

import re

with open("notes.txt") as text:
    new_text = re.sub("a", "aa", text.read())
    with open("notes2.txt", "w") as result:
        result.write(new_text)

我想知道我是否必须new_text = re.sub("a", "aa", text.read())多次使用此行，但将字符串替换为我想要更改的其他字母，以便更改文本中的多个字母？

也就是说，所以a--> aa、b-->bb和c--> cc。

所以我必须为我想要更改的所有字母写那行，或者有更简单的方法。也许是为了创建一个翻译“词典”。我应该将这些字母放入数组中吗？如果我这样做，我不知道如何打电话给他们。

score 72 · Accepted Answer

@nhahtdh 提出的答案是有效的，但我认为比规范示例更少 pythonic，它使用的代码比他的正则表达式操作更不透明，并利用了 python 的内置数据结构和匿名函数特性。

在这种情况下，翻译词典是有意义的。事实上，Python Cookbook 就是这样做的，如本例所示（复制自 ActiveState http://code.activestate.com/recipes/81330-single-pass-multiple-replace/）

import re 

def multiple_replace(dict, text):
  # Create a regular expression  from the dictionary keys
  regex = re.compile("(%s)" % "|".join(map(re.escape, dict.keys())))

  # For each match, look-up corresponding value in dictionary
  return regex.sub(lambda mo: dict[mo.string[mo.start():mo.end()]], text) 

if __name__ == "__main__": 

  text = "Larry Wall is the creator of Perl"

  dict = {
    "Larry Wall" : "Guido van Rossum",
    "creator" : "Benevolent Dictator for Life",
    "Perl" : "Python",
  } 

  print multiple_replace(dict, text)

因此，在您的情况下，您可以制作一个 dict trans = {"a": "aa", "b": "bb"}，然后将其multiple_replace与您要翻译的文本一起传递。基本上，该函数所做的只是创建一个包含所有要翻译的正则表达式的巨大正则表达式，然后当找到一个时，传递一个 lambda 函数regex.sub来执行翻译字典查找。

您可以在读取文件时使用此功能，例如：

with open("notes.txt") as text:
    new_text = multiple_replace(replacements, text.read())
with open("notes2.txt", "w") as result:
    result.write(new_text)

我实际上在生产中使用了这种精确的方法，在我需要将一年中的月份从捷克语翻译成英语以进行网络抓取任务的情况下。

正如@nhahtdh 指出的那样，这种方法的一个缺点是它不是无前缀的：作为其他字典键前缀的字典键将导致该方法中断。

score 25 · Accepted Answer

您可以使用捕获组和反向引用：

re.sub(r"([characters])", r"\1\1", text.read())

把你想加倍的字符放在中间[]。对于小写a, b, c:

re.sub(r"([abc])", r"\1\1", text.read())

在替换字符串中，您可以()使用\n符号表示捕获组匹配的任何内容，其中n某个正整数（不包括 0）。\1指第一个捕获组。还有另一种表示法\g<n>，其中n可以是任何非负整数（允许为 0）；\g<0>将引用表达式匹配的整个文本。

如果要将除换行符以外的所有字符加倍：

re.sub(r"(.)", r"\1\1", text.read())

如果要将所有字符加倍（包括新行）：

re.sub(r"(.)", r"\1\1", text.read(), 0, re.S)

score 8 · Accepted Answer

您可以使用pandas库和replace函数。我用五个替换来代表一个示例：

df = pd.DataFrame({'text': ['Billy is going to visit Rome in November', 'I was born in 10/10/2010', 'I will be there at 20:00']})

to_replace=['Billy','Rome','January|February|March|April|May|June|July|August|September|October|November|December', '\d{2}:\d{2}', '\d{2}/\d{2}/\d{4}']
replace_with=['name','city','month','time', 'date']

print(df.text.replace(to_replace, replace_with, regex=True))

修改后的文字是：

0    name is going to visit city in month
1                      I was born in date
2                 I will be there at time

您可以在此处找到示例

score 5 · Accepted Answer

使用如何制作'stringy'类的技巧，我们可以制作一个与字符串相同的对象，但需要一个额外的sub方法：

import re
class Substitutable(str):
  def __new__(cls, *args, **kwargs):
    newobj = str.__new__(cls, *args, **kwargs)
    newobj.sub = lambda fro,to: Substitutable(re.sub(fro, to, newobj))
    return newobj

这允许使用构建器模式，它看起来更好，但仅适用于预定数量的替换。如果您在循环中使用它，那么创建额外的类就没有意义了。例如

>>> h = Substitutable('horse')
>>> h
'horse'
>>> h.sub('h', 'f')
'forse'
>>> h.sub('h', 'f').sub('f','h')
'horse'

score 5 · Accepted Answer

如果您的模式本身就是正则表达式，那么其他解决方案都不起作用。

为此，您需要：

def multi_sub(pairs, s):
    def repl_func(m):
        # only one group will be present, use the corresponding match
        return next(
            repl
            for (patt, repl), group in zip(pairs, m.groups())
            if group is not None
        )
    pattern = '|'.join("({})".format(patt) for patt, _ in pairs)
    return re.sub(pattern, repl_func, s)

可以用作：

>>> multi_sub([
...     ('a+b', 'Ab'),
...     ('b', 'B'),
...     ('a+', 'A.'),
... ], "aabbaa")  # matches as (aab)(b)(aa)
'AbBA.'

请注意，此解决方案不允许您将捕获组放在您的正则表达式中，或在替换中使用它们。

score 2 · Accepted Answer

我发现我必须通过将 lambda 函数更改为使用 myDict.get(mo.group(1),mo.group(1)) 来修改 Emmett J. Butler 的代码。原始代码对我不起作用；如果找不到键，使用 myDict.get() 还可以提供默认值的好处。

OIDNameContraction = {
                                'Fucntion':'Func',
                                'operated':'Operated',
                                'Asist':'Assist',
                                'Detection':'Det',
                                'Control':'Ctrl',
                                'Function':'Func'
}

replacementDictRegex = re.compile("(%s)" % "|".join(map(re.escape, OIDNameContraction.keys())))

oidDescriptionStr = replacementDictRegex.sub(lambda mo:OIDNameContraction.get(mo.group(1),mo.group(1)), oidDescriptionStr)

score 1 · Accepted Answer

如果你处理文件，我有一个关于这个问题的简单 python 代码。更多信息在这里。

import re 

 def multiple_replace(dictionary, text):
  # Create a regular expression  from the dictionaryary keys

  regex = re.compile("(%s)" % "|".join(map(re.escape, dictionary.keys())))

  # For each match, look-up corresponding value in dictionaryary
  String = lambda mo: dictionary[mo.string[mo.start():mo.end()]]
  return regex.sub(String , text)


if __name__ == "__main__":

dictionary = {
    "Wiley Online Library" : "Wiley",
    "Chemical Society Reviews" : "Chem. Soc. Rev.",
} 

with open ('LightBib.bib', 'r') as Bib_read:
    with open ('Abbreviated.bib', 'w') as Bib_write:
        read_lines = Bib_read.readlines()
        for rows in read_lines:
            #print(rows)
            text = rows
            new_text = multiple_replace(dictionary, text)
            #print(new_text)
            Bib_write.write(new_text)

python - 如何使用正则表达式进行多次替换？

7 回答 7

Related

Reference