我有一组似乎包含以 UTF-8 和 ISO-8859-1 编码的字符的文档。我希望它们只是 UTF-8 编码。
当我使用文档将其解码为 UTF-8时,doc.decode('utf-8')
我最终会得到一些 unicode 转义序列,例如\u2022
,但我也有很多\xa0
我认为是 ISO-8859-1 的字符。我想将它们转换为它们的 unicode 等价物,以便一切都幸福地生活在一起。这可能吗?我正在使用 Python 2.74。
我做过的一件事是:
decoded_doc = doc.decode('utf-8')
new_doc = decoded_doc.replace(u'\xa0',u' ')
但还有其他奇怪的角色,比如\xb7
——我想一口气把它们全部搞定。