python - Scrapy 和 XPath 从亚马逊提取评论

Question

我对 python 和 scrapy 比较陌生，我需要一些关于我试图解决的问题的帮助。我正在尝试使用 scrapy 和 XPath 抓取亚马逊并提取特定产品的用户评论。我想问是否有比我现有的更优雅的解决方案。

假设我想从这个地址获取评论。评论页面的结构看起来对提取不是很友好（使用firebug可以看到只有评论区周围没有特定的标签）。目前我正在使用以下选择器：hxs.select('//div/text()').extract()但您可以想象它会创建大量垃圾数据"\n\n\n\n\n"等。是否有更优雅的方式来编写我的选择器可以改善我的结果。

score 0 · Accepted Answer

一种选择是取消“此评论来自... ”文本。像这样：

//table[@id='productReviews']//div[@class='tiny']/following-sibling::text()

python - Scrapy 和 XPath 从亚马逊提取评论

1 回答 1

Related

Reference