如何使用 Scrapy 中的规则拒绝抓取网站的某些部分。
我希望 Scrapy 抓取链接数学 www.example.com/help/nl/ en 拒绝匹配 www.example.com/help/en/ 和 www.example.com/website/ 的所有链接。
我有以下代码:
class MySpider(CrawlSpider):
name = 'myspider'
allowed_domains = ['example.com', ]
start_urls = ['https://www.example.com/help/nl/', ]
rules = (
Rule(SgmlLinkExtractor(allow=(r'/help/nl/',)), callback='parse_response'),
)
但它正在爬取整个网站。
更新
我希望 Scrapy 只关注包含 /help/nl/ 的链接
Rule(SgmlLinkExtractor(allow=(r'/help/nl/',), deny=(other than /help/nl/), callback='parse_response')