在使用 Python 2.7 抓取一些文档的过程中,我遇到了一些烦人的页面分隔符,我决定将其删除。分隔符使用一些时髦的字符。我已经在这里问了一个关于如何让这些字符显示它们的 utf-8 代码的问题。使用了两个非 ASCII 字符:'\xc2\xad'
和'\x0c'
。现在,我只需要删除这些字符,以及一些空格和页码。
在 SO 的其他地方,我看到 unicode 字符与正则表达式一起使用,但它的格式很奇怪,我没有这些字符,例如'\u00ab'
. 此外,它们都没有使用 ASCII 以及非 ASCII 字符。最后,python 文档对正则表达式中的 unicode 主题非常了解......关于标志的一些事情......我不知道。任何人都可以帮忙吗?
这是我目前的用法,它不符合我的要求:
re.sub('\\xc2\\xad\s\d+\s\\xc2\\xad\s\\x0c', '', my_str)