我正在尝试从此http://www.npr.org/rss/#feeds新闻提要网站获取链接和类别。
这是我在scrapy shell中的xpath:
a = sel.xpath('//ul[@class="rsslinks"]/li/a/@href').extract()
b = sel.xpath('//ul[@class="rsslinks"]/li/a/text()').extract()
但是 b 的长度比 a 的长度小一。我不知道我在这里错过了什么。但这会导致数据出现问题。
从下图中,类别名称是“通过电子邮件发送最多的故事”,但链接是“新闻头条”
任何帮助,将不胜感激