我是 Scrapy 的新手,我不知道如何告诉它只关注当前 url 的子页面的链接。例如,如果您在这里:
www.test.com/abc/def
然后我想让scrapy跟随:
www.test.com/abc/def/ghi
www.test.com/abc/def/jkl
www.test.com/abc/def/*
但不是:
www.test.com/abc/*
www.test.com/*
或与此相关的任何其他域。
我是 Scrapy 的新手,我不知道如何告诉它只关注当前 url 的子页面的链接。例如,如果您在这里:
www.test.com/abc/def
然后我想让scrapy跟随:
www.test.com/abc/def/ghi
www.test.com/abc/def/jkl
www.test.com/abc/def/*
但不是:
www.test.com/abc/*
www.test.com/*
或与此相关的任何其他域。
http://doc.scrapy.org/en/latest/topics/spiders.html#basespider-example
编写一个从 BaseSpider 派生的蜘蛛。在 basespider 解析回调中,您需要返回您需要跟进的请求。只需确保您生成的请求是您喜欢的形式。即使用从响应中提取的 url 是当前 url 的子级(这将是响应 url)。并制作一个请求对象并产生它们。