web-crawler - scrapy中的SgmlLinkExtractor

Question

我需要一些关于scrapy中SgmlLinkExtractor的启示。

对于链接：example.com/YYYY/MM/DD/title我会写：

Rule(SgmlLinkExtractor(allow=[r'\d{4}/\d{2}/\d{2}/\w+']), callback='parse_example')]

对于链接：example.com/news/economic/title我应该写：

r'\news\category\w+'还是r'\news\w+/\w+'？（类别更改但网址始终包含新闻）

对于链接：example.com/article/title我应该写：

r'\article\w+'? （网址始终包含文章）

score 0 · Accepted Answer

如果您不提供完整的示例字符串以及您想要与正则表达式匹配的内容（以及您不想匹配的内容），则无法回答“我应该”的问题。

我想，您的正则表达式将不起作用，因为您使用\而不是/.

我建议您去regex101并测试您的网址是否与您的正则表达式匹配。请参见以下屏幕截图：

在此处输入图像描述

1 回答 1