1

我对 python 和 scrapy 比较陌生,我需要一些关于我试图解决的问题的帮助。我正在尝试使用 scrapy 和 XPath 抓取亚马逊并提取特定产品的用户评论。我想问是否有比我现有的更优雅的解决方案。

假设我想从这个地址获取评论。评论页面的结构看起来对提取不是很友好(使用firebug可以看到只有评论区周围没有特定的标签)。目前我正在使用以下选择器:hxs.select('//div/text()').extract()但您可以想象它会创建大量垃圾数据"\n\n\n\n\n"等。是否有更优雅的方式来编写我的选择器可以改善我的结果。

4

1 回答 1

0

一种选择是取消“此评论来自... ”文本。像这样:

//table[@id='productReviews']//div[@class='tiny']/following-sibling::text()
于 2012-04-16T01:06:03.670 回答