0

我有一个 couchDB,有超过 100 万个条目分布在几个数据库中。我需要从中抽取随机样本,以便记录每个样本的成员。为此,在这个问题之后,我想在我的 couchDB 中的每个文档中添加一个带有随机数的字段。

添加随机数的代码

def add_random_fields():
    from numpy.random import rand
    server = couchdb.Server()
    databases = [database for database in server if not database.startswith('_')]
    for database in databases:
        print database
        for document in server[database]:
            if 'results' in server[database][document].keys():
                for tweet in server[database][document]['results']:
                    if 'rand_num' not in tweet.keys():
                        tweet['rand_num'] = rand()
                        server[database].save(tweet)

这失败了,因为我没有足够的 RAM 来保存所有 CouchDB 数据库的副本。

第一次尝试-分块加载数据库

按照这个问题。

def grouper(n, iterable, fillvalue=None):
    "Collect data into fixed-length chunks or blocks"
    # grouper(3, 'ABCDEFG', 'x') --> ABC DEF Gxx
    args = [iter(iterable)] * n
    return izip_longest(fillvalue=fillvalue, *args)

# ..Just showing relevant part of add_random_fields()

   #..
        chunk_size=100
        for tweet in grouper(server[database][document]['results'],chunk_size):

如果我在 python 中迭代一个大列表,我会编写一个生成器表达式。我怎样才能在 couchdb-python 中做到这一点?或者,还有更好的方法?

4

1 回答 1

0

使用生成器避免将大型列表加载到内存中

Marcus Brinkmann那里,我找到了在 couchDB 数据库中的所有文档上生成生成器的代码。让那个生成器被调用couchdb_pager

原来的功能变成如下。

def add_random_fields():
    from numpy.random import rand
    server = couchdb.Server()
    databases = [database for database in server if not database.startswith('_')]
    for database in databases:
        for document in couchdb_pager(server[database]):
            if 'results' in server[database][document]:
                for tweet in server[database][document]['results']:
                    if tweet and 'rand_num' not in tweet:
                        print document
                        tweet['rand_num'] = rand()
                        server[database].save(tweet)
于 2012-12-16T05:03:04.643 回答