我需要一些关于scrapy中SgmlLinkExtractor的启示。
对于链接:example.com/YYYY/MM/DD/title我会写:
Rule(SgmlLinkExtractor(allow=[r'\d{4}/\d{2}/\d{2}/\w+']), callback='parse_example')]
对于链接:example.com/news/economic/title我应该写:
r'\news\category\w+'
还是r'\news\w+/\w+'
?(类别更改但网址始终包含新闻)
对于链接:example.com/article/title我应该写:
r'\article\w+'
? (网址始终包含文章)