0

我是 Scrapy 的新手,我不知道如何告诉它只关注当前 url 的子页面的链接。例如,如果您在这里:

www.test.com/abc/def

然后我想让scrapy跟随:

www.test.com/abc/def/ghi
www.test.com/abc/def/jkl
www.test.com/abc/def/*

但不是:

www.test.com/abc/*
www.test.com/*

或与此相关的任何其他域。

4

1 回答 1

0

http://doc.scrapy.org/en/latest/topics/spiders.html#basespider-example

编写一个从 BaseSpider 派生的蜘蛛。在 basespider 解析回调中,您需要返回您需要跟进的请求。只需确保您生成的请求是您喜欢的形式。即使用从响应中提取的 url 是当前 url 的子级(这将是响应 url)。并制作一个请求对象并产生它们。

于 2013-11-03T13:02:20.787 回答