我有一个使用 python scrapy 运行的蜘蛛,它正在抓取除了带有参数(即&
符号)的页面之外的所有页面,例如,http://www.amazon.co.uk/gp/product/B003ZDXHSG/ref=s9_simh_gw_p23_d0_i3?pf_rd_m=A3P5ROKL5A1OLE&pf_rd_s=center-2&pf_rd_r=1NWN2VXCA63R7TDYC3KQ&pf_rd_t=101&pf_rd_p=467128533&pf_rd_i=468294
.
错误日志说[scrapy] ERROR: xxx matching query does not exist.
我正在使用CrawlSpider
以下内容SgmlLinkExtractor rule
rules = (
Rule(SgmlLinkExtractor(allow='[a-zA-Z0-9.:\/=_?&-]+$'),
'parse',
follow=True,
),
)
非常感谢您抽出宝贵的时间,并希望有幸提前感谢您。