1

我想添加对不包含我所追求的单词但 href 文本包含的链接的支持。

我也希望能够提取 href 文本并将其作为第二个参数传递给 process_value 回调。

有谁知道如何实现这些目标?

谢谢。

4

1 回答 1

0

您应该创建一个 BaseSpider 并根据您想要的任何标准提取链接。

只是给你一个想法:

class MySpider(BaseSpider):

    def parse(self, response):
        hxs = HtmlXPathSelector(response)
        links = hxs.select('//a')
        for link in links:
            href = link.select('@href').extract()[0]
            text = links.select('text()').extract()[0]
                # I make an assumption here that you want text() instead of @href here
                if text == 'something':
                        yield Request(href, callback = self.parse_page)

    def parse_page(self, response):
        return #return your item here
于 2012-08-26T07:11:19.617 回答