使用 scrapy 从表中抓取链接。表格格式如下:
<tr>
<td> <a href="url">Link name 1</a> and <a href="url">Link name 2</a> </td>
<td> Item 2</td>
<td align="center"> <a href="url">Link name 3</a> </td>
<td> Item 4</td>
<td> Item 5</td>
</tr>
我可以用
rows = hxs.select('//tr')
for row in rows:
print row.select('td/text()').extract()
它只返回文本值。
[u' Item 2', u' Item 4', u' Item 5']
我想列出包含链接名称 1、链接名称 2、链接名称 3 的网址