我正在尝试建立我的电子商务网站的站点地图,其中包含指向我所有个人产品的链接。我正在使用 python 来提取我网站的产品链接
我制定的规则是:
extractor = SgmlLinkExtractor(deny=('\/(?!product)\/'))
rules = (
Rule(extractor,callback='parse_links',follow=True),
)
这应该给我所有包含“产品”的链接(这些是我的产品网址)
问题:它没有从我的基本网址中提取任何链接。你能告诉我我需要使用什么正则表达式模式吗?
注意:如果我使用正则表达式('/product/'),它会为我提供网站上的所有链接,无论它是否包含文本“产品”。