0

我正在从 wikidata json 转储加载所有地理条目(Q56061)。根据 Wikidata:Statistics 页面,整个转储包含大约 1600 万个条目。

使用 python3.4 + ijson + libyajl2 来解析文件需要大约 93 小时的 CPU (AMD Phenom II X4 945 3GHz) 时间。使用在线顺序项目查询总共 230 万个感兴趣的条目大约需要 134 小时。

有没有更优化的方法来执行这个任务?(也许,像openstreetmap pdf格式和渗透工具)

4

1 回答 1

0

我的加载代码和估计是错误的。

使用ijson.backends.yajl2_cffi大约 15 小时进行完整解析 + 过滤 + 存储到数据库。

于 2017-01-12T15:28:37.310 回答