python - 刮取数据而无需明确定义要刮取的每个字段

Question

我想抓取一页数据（使用 Python Scrapy 库），而不必在页面上定义每个单独的字段。相反，我想使用id元素的作为字段名称来动态生成字段。

起初，我认为最好的方法是建立一个收集所有数据的管道，并在获得所有数据后输出。

然后我意识到我需要在一个项目中将数据传递给管道，但是我无法定义一个项目，因为我不知道它需要哪些字段！

我解决这个问题的最佳方法是什么？

score 17 · Accepted Answer

更新：

旧方法不适用于项目加载器，并且不必要地使事情复杂化。这是实现灵活项目的更好方法：

from scrapy.item import BaseItem
from scrapy.contrib.loader import ItemLoader

class FlexibleItem(dict, BaseItem):
    pass

if __name__ == '__main__':
    item = FlexibleItem()
    loader = ItemLoader(item)

    loader.add_value('foo', 'bar')
    loader.add_value('baz', 123)
    loader.add_value('baz', 'test')
    loader.add_value(None, {'abc': 'xyz', 'foo': 555})

    print loader.load_item()

    if 'meow' not in item:
        print "it's not a cat!"

结果：

{'foo': ['bar', 555], 'baz': [123, 'test'], 'abc': ['xyz']}
它不是猫！

旧解决方案：

好的，我找到了解决方案。这有点“黑客”，但它有效..

Scrapy Item 将字段名称存储在一个名为的字典中fields。向 Item 添加数据时，它会检查该字段是否存在，如果不存在则抛出错误：

def __setitem__(self, key, value):
    if key in self.fields:
        self._values[key] = value
    else:
        raise KeyError("%s does not support field: %s" %\
              (self.__class__.__name__, key))

您可以做的是覆盖此__setitem__函数以使其不那么严格：

class FlexItem(Item):
    def __setitem__(self, key, value):
        if key not in self.fields:
            self.fields[key] = Field()

        self._values[key] = value

你去吧。

现在，当您向 Item 添加数据时，如果该 item 没有定义该字段，则会添加该字段，然后将正常添加数据。

score 4 · Accepted Answer

此解决方案适用于出口商 ( scrapy crawl -t json -o output.json)：

import scrapy

class FlexibleItem(scrapy.Item):
    def __setitem__(self, key, value):
        if key not in self.fields:
            self.fields[key] = scrapy.Field()
        super(FlexibleItem, self).__setitem__(key, value)

编辑：更新以使用最新的 Scrapy

score 3 · Accepted Answer

这适用于 0.24 版本，并且还允许 Items 与 Item Loaders 一起使用：

import scrapy
from collections import defaultdict

class FlexibleItem(scrapy.Item):
    fields = defaultdict(scrapy.Field)

    def __setitem__(self, key, value):
        # all keys are supported
        self._values[key] = value

score 1 · Accepted Answer

我知道我的回答迟了，但是对于那些仍然需要使用 Scrapy 的动态项目（当前版本为 1）的人，我在 Github 上创建了一个存储库，其中包含一个示例。

干得好

https://github.com/WilliamKinaan/ScrapyDynamicItems

python - 刮取数据而无需明确定义要刮取的每个字段

4 回答 4

更新：

旧解决方案：

Related

Reference