我有一个脚本,它遍历数据库并对字符串进行一些漂亮的处理,以及用其他文本替换一些文本等。
这在大多数情况下 100% 有效,但是一些 html blob 似乎包含 unicode 文本,这会破坏脚本并出现以下错误:
UnicodeDecodeError: 'ascii' codec can't decode byte 0xe2 in position 112: ordinal not in range(128)
我不知道在这种情况下该怎么做,有没有人知道一个模块/函数来强制字符串中的所有文本都是标准化的 utf-8 或什么?
数据库中的所有 html blob 都来自 feedparser(下载 rss feed,存储在 db 中)。