我是 Xpath 的新手,试图用以下格式抓取网站:
<div class="top">
<a> tittle_name </a>
<div class="middle"> listed_date </div>
<div class="middle"> listed_value </div>
</div>
<div class="top">
<a> tittle_name </a>
<div class="middle"> listed_date </div>
</div>
<div class="top">
<a> tittle_name </a>
<div class="middle"> listed_value </div>
</div>
listed_value 和listed_date 的存在是可选的。
我需要将每个 title_name 与相应的listed_date、listed_value (如果可用)分组,然后将到达记录插入MySQL。
我正在使用scrapy shell,它提供了一些基本示例,例如
listings = hxs.select('//div[@class=\'top\']')
for listing in listings:
tittle_name = listing.select('/a//text()').extract()
date_values = listing.select('//div[@class=\'middle\']')
上面的代码给了我 title_name 列表和可用的listed_date、listed_value 的列表,但是如何匹配它们?(我们不能按索引,因为格式不是对称的)。
谢谢。