0

我正在尝试获取“ example.com/page/200/ ”的正则表达式。

这是我到目前为止所做的:

rules = (Rule (SgmlLinkExtractor(
  allow=("//page/\d+",),
  restrict_xpaths=('xxxxx',)),
  callback="details", follow= True),
)

你们中的任何人都可以给我一个解决方案吗?谢谢。

4

1 回答 1

0

你有一个额外的斜线,你需要使用原始字符串。而且,由于只有一个表达式,您不需要将元组传递给allow

rules = (Rule(SgmlLinkExtractor(allow=r"/page/\d+", restrict_xpath=('xxxxx',)), 
              callback="details", follow= True),)
于 2015-02-19T08:40:54.713 回答