python - 抓取的页面和抓取的项目之间的 Scrapy spider 区别

Question

我正在编写一个 Scrapy CrawlSpider，它读取第一页上的广告列表，获取一些信息，例如列表和广告 URL 的缩略图，然后向每个广告 URL 发出请求以获取其详细信息。

它在测试环境中工作和分页显然很好，但是今天尝试完整运行我在日志中意识到：

爬取 3852页（228 页/分钟），抓取256条（15 条/分钟）

我不明白 Crawled pages 和 Scraped items 之间存在如此大差异的原因。任何人都可以帮助我意识到这些物品在哪里丢失了？

我的蜘蛛代码：

class MySpider(CrawlSpider):
    name = "myspider"
    allowed_domains = ["myspider.com", "myspider.co"]
    start_urls = [
        "http://www.myspider.com/offers/myCity/typeOfAd/?search=fast",
    ]

    #Pagination
    rules = (
        Rule (
            SgmlLinkExtractor()
           , callback='parse_start_url', follow= True),
    )

    #1st page
    def parse_start_url(self, response):

        hxs = HtmlXPathSelector(response)

        next_page = hxs.select("//a[@class='pagNext']/@href").extract()
        offers = hxs.select("//div[@class='hlist']")

        for offer in offers:
            myItem = myItem()

            myItem['url'] = offer.select('.//span[@class="location"]/a/@href').extract()[0]
            myItem['thumb'] = oferta.select('.//div[@class="itemFoto"]/div/a/img/@src').extract()[0]

            request = Request(myItem['url'], callback = self.second_page)
            request.meta['myItem'] = myItem

            yield request

        if next_page:
            yield Request(next_page[0], callback=self.parse_start_url)


    def second_page(self,response):
        myItem = response.meta['myItem']

        loader = myItemLoader(item=myItem, response=response)

        loader.add_xpath('address', '//span[@itemprop="streetAddress"]/text()') 

        return loader.load_item()

score 5 · Accepted Answer

假设您去了第一个start_urls（实际上您只有一个），并且在此页面上只有一个锚链接（<a>）。因此，您的蜘蛛会抓取href此链接中的 url，并且您可以控制回调，parse_start_url. 在这个页面里面，你有 5000 个 div 和一个hlist类。假设所有 5000 个后续 URL 都返回 404，未找到。

在这种情况下，您将拥有：

抓取的页面：5001
被刮掉的物品：0

让我们再举一个例子：在您的起始 url 页面上，您有 5000 个锚点，但这些页面中没有一个（如零）有任何带有类参数的 div hlist。

在这种情况下，您将拥有：

抓取的页面：5001
被刮掉的物品：0

您的答案在于 DEBUG 日志输出。

python - 抓取的页面和抓取的项目之间的 Scrapy spider 区别

1 回答 1

Related

Reference