我想添加对不包含我所追求的单词但 href 文本包含的链接的支持。
我也希望能够提取 href 文本并将其作为第二个参数传递给 process_value 回调。
有谁知道如何实现这些目标?
谢谢。
我想添加对不包含我所追求的单词但 href 文本包含的链接的支持。
我也希望能够提取 href 文本并将其作为第二个参数传递给 process_value 回调。
有谁知道如何实现这些目标?
谢谢。
您应该创建一个 BaseSpider 并根据您想要的任何标准提取链接。
只是给你一个想法:
class MySpider(BaseSpider):
def parse(self, response):
hxs = HtmlXPathSelector(response)
links = hxs.select('//a')
for link in links:
href = link.select('@href').extract()[0]
text = links.select('text()').extract()[0]
# I make an assumption here that you want text() instead of @href here
if text == 'something':
yield Request(href, callback = self.parse_page)
def parse_page(self, response):
return #return your item here