0

在网页源代码中,我可以看到类似:abac%c3%a0 浏览器(chrome)显示为 abacà 的词。
现在,我已经使用 urllib2 下载了页面,并且正在使用 python(mac os x 上的 2.7)解析页面源以获取一些关键字:我希望使用重音字符而不是 %c3%a0 但使用 str.decode ("utf8") 不起作用(我试过了,因为那些看起来像 \xc3\xa0 utf8 代码)。

我应该尝试在字典中添加重音词吗?

顺便说一句,html页面在源代码中没有任何编码指示

谢谢

4

1 回答 1

1

这些字符已经过 URL 编码(它们是 URL 的一部分吗?),您可以使用urllib.unquote撤消这些字符。

于 2014-06-04T07:15:49.590 回答