我正在接收产品信息的 xml 提要。信息为英文,但未编码utf-8
(智能引号、版权符号等)。要处理信息,我需要将其转换为utf-8
.
我试过做以下变化:
u'%s' % data
codecs.open(..., 'utf-8')
unicode(data)
但是对于我尝试过的每一个,我都会得到一个UnicodeDecodeError
(各种)。
我将如何将所有这些文本转换为utf-8
?
更新
感谢您的帮助,这是最终的工作:
encoded_data = data.decode('ISO 8859-1').encode('utf-8').replace('Â','')
我不确定它Â
来自哪里,但我看到了一些版权符号旁边的那些。