0

我正在研究一个非常数据密集型算法,速度是我的首要任务。本质上,它涉及处理非常大的字符串。无需过多详细说明,无需这些代码行,它就可以在眨眼之间工作:

html = unicode(strip_tags(html_source), errors='ignore')
html2 = unicode(strip_tags(html_source2), errors='ignore')

如果我不将每个字符串编码为 un​​icode,就会出现以下问题:

UnicodeDecodeError: 'ascii' codec can't decode byte 0xc3 in position 5747: ordinal not in range(128)

我能做些什么来简化这个过程吗?不在 ascii 范围内的少量数据对我来说并不重要。无论如何我可以在不编码整个字符串的情况下忽略所有错误吗?

非常感谢你!(我目前使用的是python2.7.3)

4

1 回答 1

2

您可以使用以下命令去除所有非 ASCII 字符.decode()

your_string.decode('ascii', errors='ignore')
于 2012-12-29T17:28:34.777 回答