规则的顺序很重要。根据CrawlSpider的scrapy docsrules
:
如果多个规则匹配同一个链接,将使用第一个,根据在此属性中定义的顺序。
如果我按照 http://uae.souq.com/ae-en/shop-all-categories/c/ 中的第一个链接,即http://uae.souq.com/ae-en/antique/l/,您要关注的项目在此结构中
<div id="body-column-main">
<div id="box-ads-souq-1340" class="box-container ">...
<div id="box-results" class="box-container box-container-none ">
<div class="box box-style-none box-padding-none">
<div class="bord_b_dash overhidden hidden-phone">
<div class="item-all-controls-wrapper">
<div id="ItemResultList">
<div class="single-item-browse fl width-175 height-310 position-relative">
<div class="single-item-browse fl width-175 height-310 position-relative">
...
因此,您使用第二条规则定位的链接<div>
在其类中具有“fl”,因此它们也匹配第一条规则,该规则查找 中的所有链接'//div[@id="body-column-main"]//div[contains(@class,"fl")]'
,因此不会被解析parse_item
简单的解决方案:尝试将您的第二条规则放在“类别”规则之前(unique=True
默认情况下SgmlLinkExtractor
)
name="souq_com"
allowed_domains=['uae.souq.com']
start_urls=["http://uae.souq.com/ae-en/shop-all-categories/c/"]
rules = (
Rule(SgmlLinkExtractor(restrict_xpaths=('//div[@id="ItemResultList"]/div/div/div')), callback='parse_item'),
#categories
Rule(SgmlLinkExtractor(restrict_xpaths=('//div[@id="body-column-main"]//div[contains(@class,"fl")]'))),
Rule(SgmlLinkExtractor(allow=(r'.*?page=\d+'))),
)
另一种选择是将类别页面的第一条规则更改为更具限制性的 XPath,这在各个类别页面中不存在,例如'//div[@id="body-column-main"]//div[contains(@class,"fl")]//ul[@class="refinementBrowser-mainList"]'
您还可以为类别页面定义正则表达式并accept
在规则中使用参数。