我是scrapy的新手,我正在玩scrapy shell,试图抓取这个网站:www.spiegel.de/sitemap.xml
我做到了
scrapy shell "http://www.spiegel.de/sitemap.xml"
当我使用时,一切正常
response.body
我可以看到整个页面,包括 xml 标签
但是例如这个:
response.xpath('//loc')
根本行不通。
我得到的结果是一个空数组
尽管
response.selector.re('somevalidregexpexpression')
会工作
知道可能是什么原因吗?可能与编码有关吗?该网站不是 utf-8
我在 Win 7 上使用 python 2.7。我在另一个站点 (dmoz) 上尝试了 xpath(),它运行良好。