python - Scrapy - 悄悄地丢下一个物品

Question

我正在使用 Scrapy 抓取多个网站，这些网站可能共享冗余信息。

对于我抓取的每个页面，我将页面的 url、它的标题和它的 html 代码存储到 mongoDB 中。我想避免数据库中的重复，因此，我实现了一个管道以检查是否已经存储了类似的项目。在这种情况下，我提出了一个DropItem例外。

我的问题是，每当我通过异常删除一个项目时DropItem，Scrapy 会将项目的全部内容显示到日志（标准输出或文件）中。当我提取每个抓取页面的整个 HTML 代码时，如果出现丢失，整个 HTML 代码将显示在日志中。

我怎样才能在不显示其内容的情况下默默地放下一个项目？

感谢您的时间！

class DatabaseStorage(object):
    """ Pipeline in charge of database storage.

    The 'whole' item (with HTML and text) will be stored in mongoDB.
    """

    def __init__(self):
        self.mongo = MongoConnector().collection

    def process_item(self, item, spider):
        """ Method in charge of item valdation and processing. """
        if item['html'] and item['title'] and item['url']:
            # insert item in mongo if not already present
            if self.mongo.find_one({'title': item['title']}):
                raise DropItem('Item already in db')
            else:
                self.mongo.insert(dict(item))
                log.msg("Item %s scraped" % item['title'],
                    level=log.INFO, spider=spider)
        else:
            raise DropItem('Missing information on item %s' % (
                'scraped from ' + item.get('url')
                or item.get('title')))
        return item

score 24 · Accepted Answer

执行此操作的正确方法似乎是为您的项目实现自定义 LogFormatter，并更改已删除项目的日志记录级别。

例子：

from scrapy import log
from scrapy import logformatter

class PoliteLogFormatter(logformatter.LogFormatter):
    def dropped(self, item, exception, response, spider):
        return {
            'level': log.DEBUG,
            'format': logformatter.DROPPEDFMT,
            'exception': exception,
            'item': item,
        }

然后在您的设置文件中，例如：

LOG_FORMATTER = 'apps.crawler.spiders.PoliteLogFormatter'

我运气不好，只是返回“无”，这导致未来管道出现异常。

score 20 · Accepted Answer

在最近的 Scrapy 版本中，这已经有所改变。我从@jimmytheleaf 复制了代码并将其修复为与最近的 Scrapy 一起使用：

import logging
from scrapy import logformatter


class PoliteLogFormatter(logformatter.LogFormatter):
    def dropped(self, item, exception, response, spider):
        return {
            'level': logging.INFO,
            'msg': logformatter.DROPPEDMSG,
            'args': {
                'exception': exception,
                'item': item,
            }
        }

score 12 · Accepted Answer

好的，我什至在发布问题之前就找到了答案。我仍然认为答案可能对任何有同样问题的人都很有价值。

DropItem您只需返回一个 None 值，而不是丢弃带有异常的对象：

def process_item(self, item, spider):
    """ Method in charge of item valdation and processing. """
    if item['html'] and item['title'] and item['url']:
        # insert item in mongo if not already present
        if self.mongo.find_one({'url': item['url']}):
            return
        else:
            self.mongo.insert(dict(item))
            log.msg("Item %s scraped" % item['title'],
                level=log.INFO, spider=spider)
    else:
        raise DropItem('Missing information on item %s' % (
           'scraped from ' + item.get('url')
            or item.get('title')))
    return item

score 1 · Accepted Answer

正如 Levon 在其先前的评论中所指出的那样，也可以重载您正在处理的 Item 的 __repr__ 函数。

这样，消息将显示在 Scrapy 日志中，但您无法控制在日志中显示的代码长度，例如网页的前 150 个字符。假设您有一个像这样表示 HTML 页面的 Item，__repr__ 的重载可能如下所示：

class MyHTMLItem(Scrapy.Item):
    url = scrapy.Field()
    htmlcode = scrapy.Field()
    [...]
    def __repr__(self):
        s = ""
        s += "URL: %s\n" % self.get('URL')
        s += "Code (chunk): %s\n" % ((self.get('htmlcode'))[0:100])
        return s

score 1 · Accepted Answer

这个问题的另一个解决方案是在子类中调整repr方法scrapy.Item

class SomeItem(scrapy.Item):
    scrape_date = scrapy.Field()
    spider_name = scrapy.Field()
    ...

    def __repr__(self):
        return ""

这样该项目就不会出现在日志中。

score 0 · Accepted Answer

对我来说，有必要使用 ItemAdapter 将 Item 参数转换为列表。所以我能够查询数据库。

from itemadapter import ItemAdapter, adapter
import pymongo
from scrapy.exceptions import DropItem

collection_name = 'myCollection'
    
    def __init__(self, mongo_uri, mongo_db):
        self.mongo_uri = mongo_uri
        self.mongo_db = mongo_db
    @classmethod
    def from_crawler(cls, crawler):
        return cls(
            mongo_uri=crawler.settings.get('MONGO_URI'),
            mongo_db=crawler.settings.get('MONGO_DATABASE', 'items')
        )

def open_spider(self, spider):
    self.client = pymongo.MongoClient(self.mongo_uri)
    self.db = self.client[self.mongo_db]

def close_spider(self, spider):
    self.client.close()

def process_item(self, item, spider):
    adapter = ItemAdapter(item)
    if self.db[self.collection_name].find_one({'id':adapter['id']}) != None:
        dado = self.db[self.collection_name].find_one_and_update({'id':adapter['id']})
        ## ----> raise DropItem(f"Duplicate item found: {item!r}") <------
        print(f"Duplicate item found: {dado!r}")
    else:
        self.db[self.collection_name].insert_one(ItemAdapter(item).asdict())
    return item

python - Scrapy - 悄悄地丢下一个物品

6 回答 6

Related

Reference