0

我需要删除文本文档中的以下标点符号和实体。

  1. 删除&#151, &#148,&#some number
  2. ; , . ( ) [ ] * ! !
  3. &nbsp

我知道我可以用它来删除&#some number&nbsp。但是,作为一个初学者,我不知道我是否可以做同样的事情来删除其他的东西,比如;,等等。

match = re.sub(r'&#146', '', open('test2.txt', 'r').read())

另外,有什么方法可以一次删除所有这些,而不是多次运行相同的代码。

4

2 回答 2

0

如果您已经将所有内容都包含在字符串中,则可以简单地使用translate()

>>> s
"hello there ! this is a string with $ some % characters I & don't ( want!"
>>> s.translate(None,"$!%&(")
"hello there  this is a string with  some  characters I  don't  want"
于 2012-08-28T06:15:59.813 回答
0

这些看起来像 HTML 和 URL 编码的实体。

您可以使用多种方式对其进行解码

于 2012-08-28T03:42:47.650 回答