python - Python 编码真的减慢了我的应用程序

Question

我正在研究一个非常数据密集型算法，速度是我的首要任务。本质上，它涉及处理非常大的字符串。无需过多详细说明，无需这些代码行，它就可以在眨眼之间工作：

html = unicode(strip_tags(html_source), errors='ignore')
html2 = unicode(strip_tags(html_source2), errors='ignore')

如果我不将每个字符串编码为 unicode，就会出现以下问题：

UnicodeDecodeError: 'ascii' codec can't decode byte 0xc3 in position 5747: ordinal not in range(128)

我能做些什么来简化这个过程吗？不在 ascii 范围内的少量数据对我来说并不重要。无论如何我可以在不编码整个字符串的情况下忽略所有错误吗？

非常感谢你！（我目前使用的是python2.7.3）

score 2 · Accepted Answer

您可以使用以下命令去除所有非 ASCII 字符.decode()：

your_string.decode('ascii', errors='ignore')

1 回答 1