wikidata - 加载维基数据转储

Question

我正在从 wikidata json 转储加载所有地理条目（Q56061）。根据 Wikidata:Statistics 页面，整个转储包含大约 1600 万个条目。

使用 python3.4 + ijson + libyajl2 来解析文件需要大约 93 小时的 CPU (AMD Phenom II X4 945 3GHz) 时间。使用在线顺序项目查询总共 230 万个感兴趣的条目大约需要 134 小时。

有没有更优化的方法来执行这个任务？（也许，像openstreetmap pdf格式和渗透工具）

score 0 · Accepted Answer

我的加载代码和估计是错误的。

使用ijson.backends.yajl2_cffi大约 15 小时进行完整解析 + 过滤 + 存储到数据库。

1 回答 1