freebase - 在谷歌细化中获取网址时如何处理大型数据集？

Question

所以，我有一个 excel 表，其中包含来自 freebase 的大约 190000 个电影名称，我想通过按标题获取 url 从维基百科获取信息，这需要很长时间，我让我的电脑运行了 8 个小时，它刚刚得到到 2%。有时我的互联网被切断了，我不得不从头开始。无论如何，我是否可以一次执行 100 条记录并一直持续到文件末尾，这样如果我的互联网中断，我可以恢复该过程。

非常感谢。

score 1 · Accepted Answer

大约 20 万次获取可能是您应该开始使用 Freebase 或 Wikipedia 批量转储的地方。默认的 Refine fetch rate 间隔为 5000 毫秒（即 5 秒），这比大多数 Web 服务所需的时间要长得多。您可能可以将其降低到 500 毫秒或更短。

你不需要从你的个人电脑上运行东西。您可以使用 Amazon 的 EC2 或其他具有永久连接性和设计正常运行时间的服务。

遗憾的是，Refine 的“通过获取 URL 添加列”操作目前无法重新启动，因此您需要确保可以完成它。如果您不能保证正常运行时间/连接性，您唯一的其他解决方案是 a) 以较小的块执行操作或 b) 使用不同的工具。

freebase - 在谷歌细化中获取网址时如何处理大型数据集？

1 回答 1

Related

Reference