所以简而言之,我的情况是这样的:
- 从 RSS 提要读取数据
- 将内容打印到终端
当然,内容不是纯 ascii,它是 utf-8,所以我得到像“öäå”这样的字符。但是当我打印文本时,它都被'\xe4'之类的转义符弄乱了。与编码有关,但我无法理解这一点。这应该是微不足道的事情,但 google fu 让我失望了。
一个例子是当我逐字浏览内容并试图找到字符“ö”时:我这样做:
if u"ö" in word:
这只是给出: UnicodeDecodeError: 'ascii' codec can't decode byte 0xc3 in position 6 ...
编辑:
所以我想我找到了我的问题。我正在获取提要项目,然后只是执行 str(entry.content) 并继续传递,但 entry.content 是一个列表,其中包含一个以 unicode 字符串作为值的字典,所以我所做的(我猜)只是得到一个 ascii字典内容的表示...