python - scrapy shell返回不同的结果和脚本返回不同

Question

我的xpath如下，

//a[@class="product_img_link"]//@href

当我使用 Scrapy Shell 时，它返回 122 行，在浏览器中返回 135 行。这是一个很奇怪的问题。我使用检查htmlresponse.body并将其保存到HTML文件并在浏览器中打开它并运行xpath，它运行良好。

任何帮助都应该不胜感激。

score 0 · Accepted Answer

好吧，Scrapy 不解析 Javascript，所以这可能是你得到不匹配的原因；一些Javascript代码可能会插入那些额外的href。

如果是这种情况 - 如果那些缺少的 href 是相关的 - 你将需要使用Selenium或完全放弃 Scrapy 并使用类似Phantomjs的东西，例如

1 回答 1