我试图使用 urllib2 下载网页并将其保存到 MySQL 数据库。像这样 :
result_text = result.read()
result_text = result_text.decode('utf-8')
但是我收到此错误:
数据:“utf8”编解码器无法解码字节 0x88
现在,HTML 元标记表明编码确实是 utf-8。我设法用这条线解决了这个问题:
result_text = result_text.decode('utf-8','replace')
它替换了坏字符。但是,我不确定这是否表明下载的数据可能有问题,或者我正在删除有价值的字符。IU 应该补充说该页面还包含 JavaScript - 尽管我相信这不应该是一个问题。
谁能告诉我为什么会这样?谢谢