python - 将海量文本转换为 utf-8

Question

我正在接收产品信息的 xml 提要。信息为英文，但未编码utf-8（智能引号、版权符号等）。要处理信息，我需要将其转换为utf-8.

我试过做以下变化：

u'%s' % data
codecs.open(..., 'utf-8')
unicode(data)

但是对于我尝试过的每一个，我都会得到一个UnicodeDecodeError（各种）。

我将如何将所有这些文本转换为utf-8？

更新

感谢您的帮助，这是最终的工作：

encoded_data = data.decode('ISO 8859-1').encode('utf-8').replace('Â','')

我不确定它Â来自哪里，但我看到了一些版权符号旁边的那些。

score 15 · Accepted Answer

为了将其转换为 UTF-8，您需要知道它的编码。根据您的描述，我猜它是 Latin-1 变体之一，ISO 8859-1 或 Windows-1252。如果是这种情况，那么您可以将其转换为 UTF-8，如下所示：

data = 'Copyright \xA9 2012'  # \xA9 is the copyright symbol in Windows-1252

# Convert from Windows-1252 to UTF-8
encoded = data.decode('Windows-1252').encode('utf-8')

# Prints "Copyright © 2012"
print encoded

score 8 · Accepted Answer

您可以让chardet代您猜测，而不是猜测编码：

import chardet

def read(filename, encoding=None, min_confidence=0.5):
    """Return the contents of 'filename' as unicode, or some encoding."""
    with open(filename, "rb") as f:
        text = f.read()
    guess = chardet.detect(text)
    if guess["confidence"] < min_confidence:
        raise UnicodeDecodeError
    text = unicode(text, guess["encoding"])
    if encoding is not None:
        text = text.encode(encoding)
    return text

python - 将海量文本转换为 utf-8

2 回答 2

Related

Reference