我最近切换到 Python 并且我有兴趣通过删除一些特定的标签或其他一些字符串模式来清理大量的网页(大约 12k)(但可以被视为简单的文本文件)。为此,我在 Python 中使用了 re.sub(..) 函数。
我的问题是(从效率的角度来看)创建一个与我的更多模式匹配的大正则表达式或者使用更小更简单的正则表达式多次调用该函数是否更好。
举例来说,使用类似的东西会更好吗
re.sub(r"<[^<>]*>", content)
re.sub(r"some_other_pattern", content)
或者
re.sub(r"<[^<>]*>|some_other_pattern",content)
当然,为了举例说明前面的模式非常简单,我没有在这里编译它们,但在我的实际场景中我会编译它们。
LE:这个问题与文件的 HTML 特性无关,而是与 Python 在处理多个正则表达式模式时的行为有关。
谢谢!