我正在研究一个非常数据密集型算法,速度是我的首要任务。本质上,它涉及处理非常大的字符串。无需过多详细说明,无需这些代码行,它就可以在眨眼之间工作:
html = unicode(strip_tags(html_source), errors='ignore')
html2 = unicode(strip_tags(html_source2), errors='ignore')
如果我不将每个字符串编码为 unicode,就会出现以下问题:
UnicodeDecodeError: 'ascii' codec can't decode byte 0xc3 in position 5747: ordinal not in range(128)
我能做些什么来简化这个过程吗?不在 ascii 范围内的少量数据对我来说并不重要。无论如何我可以在不编码整个字符串的情况下忽略所有错误吗?
非常感谢你!(我目前使用的是python2.7.3)