我正在尝试从字符串中清除所有 HTML,因此最终输出是一个文本文件。我对各种“转换器”进行了一些研究,并开始倾向于为实体和符号创建自己的字典并在字符串上运行替换。我正在考虑这一点,因为我想自动化这个过程,并且底层 html 的质量存在很多可变性。为了开始比较我的解决方案和替代方案之一的速度,例如 pyparsing,我决定使用字符串方法 replace 测试 \xa0 的替换。我得到一个
UnicodeDecodeError: 'ascii' codec can't decode byte 0xa0 in position 0: ordinal not in range(128)
实际的代码行是
s=unicodestring.replace('\xa0','')
无论如何 - 我决定我需要在它前面加上一个 r 所以我运行了这行代码:
s=unicodestring.replace(r'\xa0','')
它运行没有错误,但是当我查看 s 的一部分时,我看到 \xaO 仍然存在