我不熟悉beautifulsoup 的编码。
当我处理一些页面时,一些属性是中文的,我想用这个中文属性来提取标签。
例如,如下所示的 html:
<P class=img_s>
<A href="/pic/93/b67793.jpg" target="_blank" title="查看大图">
<IMG src="/pic/93/s67793.jpg">
</A>
</P>
我想提取'/pic/93/b67793.jpg'所以我所做的是:
img_urls = form_soup.findAll('a',title='查看大图')
并遇到:
UnicodeDecodeError: 'ascii' codec can't decode byte 0xb2 in position 0: ordinalnot in range(128)
为了解决这个问题,我做了两种方法,都失败了:一种方法是:
import sys
reload(sys)
sys.setdefaultencoding("utf-8")
另一种方法是:
response = unicode(response, 'gb2312','ignore').encode('utf-8','ignore')