1

我正在寻找一个简单的教程,解释如何从 scrapy 将项目写入 Rethinkdb。可以在此处找到 MongoDB 的等效项。

4

1 回答 1

2

这是 RethinkDB 的“Write items to MongoDB”行的翻译。

几点注意事项:

  • 我不确定在哪里crawler.settings设置。
  • scrapy 文档说process_item的第二个参数item可以是一个对象或dict,所以.insert(dict(item))转换/转换可能是必要的。

import rethinkdb as r

class RethinkDBPipeline(object):

    table_name = 'scrapy_items'

    def __init__(self, rethinkdb_uri, rethinkdb_port, rethinkdb_db):
        self.rethinkdb_uri = rethinkdb_uri
        self.rethinkdb_port = rethinkdb_port
        self.rethinkdb_db = rethinkdb_db

    @classmethod
    def from_crawler(cls, crawler):
        return cls(
            rethinkdb_uri=crawler.settings.get('RETHINKDB_URI'),
            rethinkdb_db=crawler.settings.get('RETHINKDB_DATABASE', 'items')
        )

    def open_spider(self, spider):
        self.conn = r.connect(
            host = self.rethinkdb_uri, 
            port = self.rethinkdb_port,
            db = self.rethinkdb_db)

    def close_spider(self, spider):
        self.conn.close()

    def process_item(self, item, spider):
        r.table(self.table_name).insert(dict(item)).run(self.conn)
        return item
于 2016-04-13T21:12:37.393 回答