1

我正在尝试抓取此 URL“ http://www.funkytrunks.com/715-clearance

我的xpath如下,

//a[@class="product_img_link"]//@href

当我使用 Scrapy Shell 时,它返回 122 行,在浏览器中返回 135 行。这是一个很奇怪的问题。我使用检查htmlresponse.body并将其保存到HTML文件并在浏览器中打开它并运行xpath,它运行良好。

任何帮助都应该不胜感激。

4

1 回答 1

0

好吧,Scrapy 不解析 Javascript,所以这可能是你得到不匹配的原因;一些Javascript代码可能会插入那些额外的href。

如果是这种情况 - 如果那些缺少的 href 是相关的 - 你将需要使用Selenium或完全放弃 Scrapy 并使用类似Phantomjs的东西,例如

于 2014-06-07T11:15:04.430 回答