scrapy - 使用 Scrapy 仅关注子链接

Question

我是 Scrapy 的新手，我不知道如何告诉它只关注当前 url 的子页面的链接。例如，如果您在这里：

www.test.com/abc/def

然后我想让scrapy跟随：

www.test.com/abc/def/ghi
www.test.com/abc/def/jkl
www.test.com/abc/def/*

但不是：

www.test.com/abc/*
www.test.com/*

或与此相关的任何其他域。

score 0 · Accepted Answer

编写一个从 BaseSpider 派生的蜘蛛。在 basespider 解析回调中，您需要返回您需要跟进的请求。只需确保您生成的请求是您喜欢的形式。即使用从响应中提取的 url 是当前 url 的子级（这将是响应 url）。并制作一个请求对象并产生它们。

1 回答 1