0

使用 scrapy 从表中抓取链接。表格格式如下:

<tr>
<td> <a href="url">Link name 1</a> and <a href="url">Link name 2</a> </td>
<td> Item 2</td>
<td align="center"> <a href="url">Link name 3</a> </td>
<td> Item 4</td>
<td> Item 5</td>
</tr>

我可以用

rows = hxs.select('//tr')
for row in rows:
    print row.select('td/text()').extract()

它只返回文本值。

[u' Item 2',  u' Item 4', u' Item 5']

我想列出包含链接名称 1、链接名称 2、链接名称 3 的网址

4

1 回答 1

0

您可以尝试按照 XPath 获取想要的链接:

row.select('td/a/@href').extract()
于 2013-07-03T13:15:29.360 回答