2

我目前正在使用 Python 的 Sickle 模块来遍历约 4 百万条记录的 OAI 存储库。我一直在查看 Sickle 文档,看看是否有一种明显的方法来分离记录,一旦由镰刀.ListRecords 返回,以一种对执行数据并行任务有意义的方式。更清楚地说,这就是我想做的事情:

from sickle import Sickle

sickle = Sickle('https://url/to/oai/repository')
recs = sickle.ListRecords(metadataPrefix='oai_dc')

'''separate recs into 1/12th sections for 16 core machine named rec_1 ... rec_12'''

'''core i runs the following process:'''
abstracts = []
for record in rec_i:
    abstracts.append(record['abstract'])

我怀疑 Sickle 本身没有办法在本地执行此操作,但如果我可以将镰刀.ListRecords 的返回分成不同的部分,那将非常有帮助。如果没有,如果有人可以在 python 中推荐一种允许并行性的类似方法,我将不胜感激。

4

0 回答 0