在网页源代码中,我可以看到类似:abac%c3%a0 浏览器(chrome)显示为 abacà 的词。
现在,我已经使用 urllib2 下载了页面,并且正在使用 python(mac os x 上的 2.7)解析页面源以获取一些关键字:我希望使用重音字符而不是 %c3%a0 但使用 str.decode ("utf8") 不起作用(我试过了,因为那些看起来像 \xc3\xa0 utf8 代码)。
我应该尝试在字典中添加重音词吗?
顺便说一句,html页面在源代码中没有任何编码指示
谢谢