我正在从 wikidata json 转储加载所有地理条目(Q56061)。根据 Wikidata:Statistics 页面,整个转储包含大约 1600 万个条目。
使用 python3.4 + ijson + libyajl2 来解析文件需要大约 93 小时的 CPU (AMD Phenom II X4 945 3GHz) 时间。使用在线顺序项目查询总共 230 万个感兴趣的条目大约需要 134 小时。
有没有更优化的方法来执行这个任务?(也许,像openstreetmap pdf格式和渗透工具)