python - 用于分离文件夹/文件的 Scrapy 管道 - 抽象

Question

我目前正在完成一个 Scrapy 项目，但是我有一个很长的pipelines.py文件。

我注意到在我settings.py的管道中显示如下（修剪）：

ITEM_PIPELINES = {
     'proj.pipelines.MutatorPipeline': 200,
     'proj.pipelines.CalculatorPipeline': 300,
     'proj.pipelines.SaveToFilePipeline': 500,
}

我尝试了以下方法来纠正这个问题。

1.) 我创建了一个新文件/文件夹，并尝试以相同的方式从管道中引用它。

文件夹myPipelines/Test.py具有类名TestPipeline，然后在管道设置中引用为proj.myPipelines.Test.TestPipeline': 100,.

这给我带来了错误。

然后我想我可以导出模块并导入到我的当前模块中pipelines.py，它会从中获取参考。__init__.py我在我的目录中添加了一个空myPipelines然后添加from myPipelines.Test import TestPipeline但scrapy仍然抛出一个错误......

Raise NameError("Module '%s' doesn't define any object named '%s'" % (module, name))
exceptions.NameError: Module 'proj.pipelines' doesn't define any object named 'TestPipeline'.

提前谢谢了！

score 10 · Accepted Answer

当你开始一个scrapy项目时，你会得到一个这样的目录树：

$ scrapy startproject multipipeline
$ tree
.
├── multipipeline
│   ├── __init__.py
│   ├── items.py
│   ├── middlewares.py
│   ├── pipelines.py
│   ├── settings.py
│   └── spiders
│       ├── example.py
│       └── __init__.py
└── scrapy.cfg

生成的pipelines.py看起来像这样：

$ cat multipipeline/pipelines.py 
# -*- coding: utf-8 -*-

# Define your item pipelines here
#
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See: http://doc.scrapy.org/en/latest/topics/item-pipeline.html


class MultipipelinePipeline(object):
    def process_item(self, item, spider):
        return item

但是你的 scrapy 项目可以引用任何 Python 类作为项目管道。一种选择是将生成的单文件pipelines模块转换为其自己目录中的包，其中包含子模块。注意目录中的__init__.py文件pipelines/：

$ tree
.
├── multipipeline
│   ├── __init__.py
│   ├── items.py
│   ├── middlewares.py
│   ├── pipelines
│   │   ├── __init__.py
│   │   ├── one.py
│   │   ├── three.py
│   │   └── two.py
│   ├── settings.py
│   └── spiders
│       ├── example.py
│       └── __init__.py
└── scrapy.cfg

目录中的各个模块pipelines/可能如下所示：

$ cat multipipeline/pipelines/two.py 
# -*- coding: utf-8 -*-

# Define your item pipelines here
#
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See: http://doc.scrapy.org/en/latest/topics/item-pipeline.html
import logging


logger = logging.getLogger(__name__)


class MyPipelineTwo(object):
    def process_item(self, item, spider):
        logger.debug(self.__class__.__name__)
        return item

您可以在此处阅读有关软件包的更多信息。

需要这些__init__.py文件才能使 Python 将目录视为包含包；这样做是为了防止具有通用名称（例如字符串）的目录无意中隐藏了稍后出现在模块搜索路径上的有效模块。在最简单的情况下，__init__.py可以只是一个空文件，但它也可以执行包的初始化代码或设置__all__ 变量，稍后介绍。

你settings.py会包含这样的东西：

ITEM_PIPELINES = {
    'multipipeline.pipelines.one.MyPipelineOne': 100,
    'multipipeline.pipelines.two.MyPipelineTwo': 200,
    'multipipeline.pipelines.three.MyPipelineThree': 300,
}

python - 用于分离文件夹/文件的 Scrapy 管道 - 抽象

1 回答 1

Related

Reference